«Очки, голы, секунды» – это не про НБА. Там все считают гораздо сложнее
10 уровней баскетбольной статистики.
Уровень 1: целые числа
Очки, подборы, передачи, перехваты, блок-шоты, броски, попадания и промахи, потери, фолы и так далее. На самом деле, даже такие цифры могут быть довольно необычными – например, количество минут на разных позициях, количество полученных блок-шотов, число попаданий с фолом и много других вариантов. Сегодня специализированные сайты даже делят потери по причинам – было ли утрачено владение из-за плохого паса, потери на ведении или нарушения правил.
По количеству бросков сверху можно отследить атлетизм и стиль игрока в определенном возрасте – в этом отношении очень говорящая картина у Блэйка Гриффина. Или вот Карл-Энтони Таунс выцепил себе место в истории, поскольку уже стал рекордсменом в истории НБА по трехочковым за карьеру для центрового. Самые почетные рекорды – они как раз про аккумуляцию циферок.
Уровень 2: дроби
Очки, подборы, передачи и т. д. за игру (частное от общего числа и матчей) – самые привычные показатели при оценке игроков и их вклада. Часто ненавидимы менеджерами и скаутами, поскольку сбивают с толку и слабо отражают картину происходящего на площадке.
Но есть варианты поинтереснее. К примеру, некий показатель за минуту игрового времени. Такие махинации позволяют сделать более сравнимыми игроков с разным игровым временем. Как я вычитал, в статистике это называют нормализаций.
Американские статистики вообще любят одни штуки делить на другие. Например, есть данные по доле набранных очков в голосовании за какую-то награду от общего количества возможных баллов. Это удобно, если количество голосующих или правила голосования изменятся.
Уровень 3: проценты
Доля одного показателя от другого, такие как процент попаданий, уже не воспринимаются как продвинутая статистика. Более того – американцы вообще часто не умножают на 100 результат деления, например, выполненных и реализованных бросков, оставляя ее в формате десятичной дроби (не 54,9% а .549).
Есть много статистики, которая обозначается через проценты, но, на самом деле, вычисляется более сложным путем, не на раз-два. Например, TS% - что-то вроде «улучшенного» процента попадания, где в одной цифре учитываются броски с игры, трехочковые и штрафные. eFG% (эффективный процент попаданий) внедряет в дробь коэффициент для трехочковых бросков, чтобы подчеркнуть их большую «стоимость» по сравнению с двухочковыми.
Еще более запутанная ситуация с показателями вроде Rebound rate (записывают как OREB%, DREB% или TREB%), где сразу несколько разных показателей умножаются, плюсуются и делятся друг на друга, чтобы выяснить, какую долю подборов от их общего числа взял игрок. Такие же «рейтинги» можно высчитывать для потерь, передач, перехватов и прочего.
Вконец можно запутаться, если разбираться с показателями вроде Usage Rate (USG%). Это еще территория понятных вычислений – соотношение умноженных на определенные коэффициенты бросков, передач, штрафных и потерь, поделенное на владения. Интуитивно это трактуется примерно в духе «как часто игрок владеет мячом в ходе атак своей команды». Высокий показатель означает единальство, низкий – умение играть без мяча.
Уровень 4: формулы
Самый кайф – это то, как в Евролиге высчитывается «эффективность» игроков. Никакой нормализации там нет, просто все плохое (промахи, потери, полученные блок-шоты и фолы) вычитаются из всего хорошего (очки, подборы, передачи, перехваты, блоки и заработанные фолы).
Популярный вариант слегка продвинутой статистики – показатели в пересчете на 36 минут (36 делится на минуты, а полученное число умножается на средний показатель за игру). Это еще один неидеальный вариант сравнивать игроков с разным игровым временем. Проблема тут в том, что если игрок выйдет на площадку на 1 минуту и забьет 2 очка, то его результативность в пересчете на 36 минут будет составлять 72 очка. Пересчет на 36 минут гораздо лучше работает, если игрок проводит на площадке в среднем чуть больше или чуть меньше этой цифры.
Деление на количество владений (в случае с очками распространено сокращение PPP или points per possession) или умножение на 100 владений – это способ игнорировать темп игр и выяснить эффективность игрока в определенных ситуациях. Например, можно увидеть прогресс Кристапса Порзингиса в эффективности атак после получения мяча в посте.
Такие приравнивания дают интересную почву для сравнений. Например, Шак так мощно ворвался в НБА, что уже на второй сезона набирал 29,3 очка за игру. Уилт был еще круче и бомбил по 38,4. Но Чемберлен и на площадке проводил 47,8 минуты, так что на 36 минут он забивал 28,9 очка, а Шак 26,5 – цифры уже сопоставимые. Еще более приземленной становится результативность Уилта в пересчете на 100 владений. Так его 50,4 очка за игру в одном из сезонов превращаются в 38-40 очков, поскольку разные источники приписывают его «Филадельфии» начала 1960-х космически умопомрачительные 120+ владений за игру (сегодня в районе сотни). А Кевин Дюрэнт набирал «всего» 32 очка в сезоне-2013/14, но в пересчете на 100 владений – 41,8.
Нюанс здесь в вычислении понятия «владение», поскольку это не может быть обозначением того, сколько раз игроки разных команд потрогали мяч. В формулу владений входят всего два элемента – владения с набранными очками и владения без набранных очков. А вот каждый из этих двух элементов уже делится на махинации с выполненными и смазанными бросками, умножение забитых бросков и результативных передач на коэффициенты и прочие математические прелести. Пока что понятные даже гуманитарию.
Уровень 5: цифры, полученные через отслеживание
Огромный массив данных по НБА сегодня доступен благодаря технологиям отслеживания игроков. На современных аренах с помощью специальных камер фиксируются все паттерны баскетболистов перемещений и скорость, а также миллион различных действий, которые помогают разглядеть сильные и слабые стороны.
Так, Домантас Сабонис, например, лидирует в НБА по «ассистам с заслонов», то есть количеству поставленных заслонов, после которых его партнер набирает очки. Трэй Янг – лучший по «потенциальным ассистам», а Джейлен Брансон – по среднему количеству ударов мячом об пол за владение и средней продолжительности своего владения мячом. Теперь можно узнать, на каком расстоянии в среднем от кольца берет свои подборы Майк Конли и сколько миль за игру в нападении пробегает Тайриз Макси.
Как весь этот ворох информации анализировать – каждый решает сам.
Уровень 6: персональные придумки
Хочешь выпендриться – создай свою статистическую категорию. Если повезет, то она станет общеиспользуемой. С другой стороны, мало кому интересно, кто именно придумал считать, к примеру, атакующий и защитный рейтинги.
Этим показателям всего 20 лет – в 2004-м их создал парень по имени Дин Оливер. В текстах аналитиков их можно встретить повсеместно, но мне кажется, что где-то здесь пролегает что-то вроде черты сингулярности баскетбольной статистики. То есть пользоваться циферками еще забавно, но разбираться в том, как они подсчитываются, уже тяжеловато.
Атакующий рейтинг формируется из соотношения т. н. индивидуальных владений и индивидуальных спродуцированных (не набранных) очков. Индивидуальные владения – это формула, где каждый элемент распадается на свою формулу, куда включены элементы, дополнительно состоящие из формул.
Каждый такой показатель очень разнится на вкус и цвет. Защитный рейтинг, к примеру, отчасти опирается на перехваты, то есть даже крутые оборонцы вроде Джо Дюмарса или Дага Кристи будут иметь заниженный показатель, поскольку давят на соперника и провоцируют потери, но недостаточно часто перехватывают мяч сами.
Бывают персональные формулы попроще, но они все равно не лишены субъективности. Джон Холинджер с ESPN вот создал показатель GameScore (GmSc), чтобы высчитать продуктивность игрока в отдельном матче. Очки плюсуются с умноженными на 0,7 передачами и блоками, вычитаются потери, умноженные на 0,4 фолы – в таком духе. Но все содержащиеся в формуле элементы можно трактовать по-разному. Преимущество «брендовых» статистик в том, что кто-то уже придумал формулу за вас и расставил внутренние коэффициенты по своему разумению.
Тот же самый Холинджер в 2007-м придумал PER, рейтинг эффективности игроков. Крис Рейна с RealGM ответил похожей метрикой FIC, и понеслось. Сегодня варианты высчитывания «эффективности» предлагают все кому не лень. Обывателю этими цифрами оперировать уже тяжеловато, поскольку получается детская каляка-маляка в духе «высокий PER это хорошо, а низкий – плохо».
Уровень 7: черт ногу сломит
По каждому такому показателю можно писать научную работу. Собственно, так люди и делают, презентуя свои варианты оценки баскетбола на специальных конференциях.
Зачастую в русском языке такие показатели легче оставлять не переведенными. Взять хотя бы Box Plus/Minus (BPM) – это лютая смесь статистических данных игроков в пересчете на 100 владений, эффективности командных действий, коэффициентов для каждого действия на площадке и еще много-много чего. Весь этот ворох математических манипуляций сравнивается с распределением значений в среднем по лиге. В той же части статистической вселенной обитает Value over Replacement Player (VORP), где сложные вычисления анализируются в сравнении со значениями, присущими низкокачественным игрокам. Насколько я понял, разница между ними в том, что в BPM диапазон идет от (+10) до сколь угодно низкий значений, где 0 считается игроком стартового состава, а (-2) представляет собой резервиста. В рамках VORP все вычисления анализируются в сравнении именно с игроков уровня (-2).
BPM изнутри выглядит внушительно, но ее оказывается сложно «продать». Поэтому неудивительно, что завидное место под солнцем занял показатель WS (Win Shares). Там безобидная забава окончательно скатывается в магические пляски с бубном и уравнениями. Но «маркетинг» вокруг WS выстроить легко – это просто циферка, означающая вклад игрока в победы! Плюс, шаманы от мира баскетбольной статистики одарили нас удобным разделением на OWS и DWS, то есть вклад в победу благодаря нападению/защите.
Уровень 8: смешные аббревиатуры
Суть суперпродвинутой статистики – выцедить самое полезное из имеющегося массива данных и при этом максимально его нормализовать, включив не только традиционные показатели, но также цифры по типу розыгрышей, информацию, полученную с помощью отслеживания игроков камерами. Самыми известными примерами такого подхода являются LEBRON (Luck-adjusted player Estimate using a Box prior Regularized ON-off) от издания BBall Index, плюс RAPTOR и CARMELO от FiveThirtyEight, где сокращенные названия открыто подмигивает отсылочкой.
Начинка таких показателей состоит из деталей, нюансов и моря подробностей. RAPTOR, к примеру, учитывает вклад игрока в начало быстрых атак и дистанцию, покрываемую при игре в защите, а внутри LEBRON нашли место для внедрения данных по роли игроков на площадке.
Если все это чудо можно еще использовать не для анализа уже случившегося, а для прогнозирования – создатель такой метрики здорово рискует оказаться в штабе команды НБА. В этой категории хороших отзывов удостаивается модель DARKO, создателем которой является некто Константин Медведовский. Насколько я могу понять, здесь речь идет уже о машинном обучении и скармливании нейросетям гигантских объемов данных с использованием фильтра Калмана. Можете оценить, поймете ли вы хотя бы 5% от вступления статьи на Википедии.
Уровень 9: закрытые данные
И вот я добрался до решающего момента, чтобы сказать: все перечисленные выше показатели и метрики сами команды НБА считают отстоем и не пользуются ими. Все, что действительно имеет ценность для профессиональных управленцев, либо закрыто пэйволом на подписочных сервисах, либо и вовсе засекречено.
К примеру, Джейкоб Голдштейн работал на Basketball Index и создал свою метрику PIPM. В итоге его позвали работать в «Уизардс», а все расчеты по PIPM оказались заблокированы.
Уровень 10: победы
Самая надежная метрика, лучше пока не придумали.
Фото: Gettyimages.ru/Stacy Revere, Marc Serota, Allsport, Maddie Meyer; Andreas Gora/dpa/Global Look Press
Что ещё можно отметить: разница в значимости этих циферок в регулярке и плей-офф.