Корсиканский Кармело. Обзор спортивных статистических ресурсов
Благодаря техническому прогрессу статистическое направление в спорте переживает невероятный бум. Футбольные мячи с электронным чипом, внедрение системы Data Mining, подписание НБА договора с SportVU - все это вехи того, что статистика распространяет свои высокотехнологичные щупальца в мир спорта все глубже и глубже.
Статистикой болеют все, даже спортсмены иной раз грешат игрой в цифры. Конечно, какой баскетболист откажется от трипл-дабла и не будет специально ловить подбор, если ему осталось всего один-два; или хоккеист не будет стремиться забить третью шайбу при имеющихся двух, иногда действуя в ущерб команде. Но голы, передачи, подборы - это все стандартная статистика, которая лежит на поверхности, и при должном внимании ее может фиксировать любой желающий.
Иное дело - статистика продвинутая. Подборка различных неоднозначных цифр сведет с ума неподготовленного человека. Описание некоторых статистических ресурсов, вкупе с выкладкой основных формул потянет на кандидатскую по математике. Нельзя в той или иной мере называть какие-то показатели безусловными, ведь какая математика не идет рука об руку с погрешностью? Но тем не менее, благами статистических данных пользуются все - от серьезного ГМ-а клуба, планирующего свою разрушительную деятельность в дедлайн обменов, до простого любителя фентези-спорта, который каждую неделю (а в хоккее/баскетболе - практически каждый день) строит свой состав, выискивая все мыслимые и немыслимые вехи того, что он сделал правильный выбор. Если дело касается отдельных фентези-лиг, то перед драфтом поклонение статистике может доходить до терминальной стадии.
Ниже мы рассмотрим несколько спортивных статистических ресурсов, где каждый может почерпнуть для себя какие-то новые данные и открыть для себя спортсменов с иной стороны. Но, как полагается в сказках (а статистика очень часто предсказывает сказочные цифры), необходимо начать с предыстории. А начать стоит с бейсбола.
Как уже многие знают, первыми магию цифр оценили адепты бейсбола. Только ленивый любитель спорта не смотрел фильм «Moneyball», некоторые пытливые умы дошли до прочтения одноименной книги Майкла Льюиса, которая воспела успех трудов Билла Джеймса. Джеймс начал писать серьезные бейсбольные статьи на тему статистики еще в 1975 году, успех приходил долго. «Moneyball» стал последней каплей, которой не хватало для убеждения консервативных менеджеров и тренеров в силе и адекватности цифр.
Бейсбольная статистика стала сверхпопулярной и даже получила особое наименование — «сейберметрика», образованное от сокращённого названия Общества исследования американского бейсбола.
Миграция статистической религии в другие виды спорта было делом времени. Сейчас мы имеем огромное количество статистических показателей в различных командных видах спорта, некоторые представляют собой целые организованные системы. Несколько таких систем мы сейчас и рассмотрим, начнем с хоккея.
Хоккей
Нильсон заставил переосмыслить классическую хоккейную статистику
Отец продвинутой хоккейной статистики - Роджер Нильсон, прославленный тренер и инноватор, член зала Хоккейной Славы. Классическая хоккейная статистика основывается на показателе «плюс-минус», который учитывает заброшенные и пропущенные шайбы. Но голевая статистика не может полностью отразить ситуацию на льду и вклад отдельно взятого игрока. В этом плане Нильсон сделал шаг вперед. Система Нильсона основывалась не на шайбах, а на создаваемых голевых моментах. С ее помощью можно аккуратнее анализировать происходящее на льду, к тому же можно учитывать владение шайбой. Правда, сразу же встает вопрос о том, что именно называть «голевым моментом», ведь даже выход один-в-один не всегда заканчивается броском и может быть потрачен впустую.
Современная статистика действует по тому же классическом принципу «плюс-минус». Только в качестве исследуемых показателей берутся не голы и не голевые моменты, а броски. Кратко разберем три наиболее известных системы - Corsi, FenClose и PDO.
Основы основ
Corsi
Свое название этот индекс получил в честь Джима Корси, голкипера и тренера, который первый начал использовать данную систему для оценки вратарей. В НХЛ также именуется системой SAT. По своей сути является суммой голов, бросков по воротам, бросков мимо ворот и заблокированных бросков. Соответственно, за каждое такое действие своей команды игрок, будучи на площадке, получает «+». Если такое действие совершила команда противника, то «-».
Джим Корси - вратарь, тренер, новатор статистики
Помимо всего вышесказанного, Corsi достаточно хорошо показывает время владения шайбой, а также оценивает время, которое команда или игрок проводят в определенной зоне (в зоне атаки или защиты). Игрок с высоким Corsi будет проводить больше времени в атаке, в то время как игрок с отрицательным Corsi тяготеет к защите. Так же это более предсказуемый и более повторяемый показатель, в отличие от классического «плюс-минус», который очень сильно зависит от вратаря и удачи.
Существует несколько разновидностей данного показателя, наиболее часто фигурирующие из них - Corsi, Corsi/20 - Corsi в пересчете на 20 минут игрового времени, Corsi/60 - за 60 минут игрового времени. Отдельно можно выделить CorsiRel. Это отношение Corsi игрока во время его нахождения на льду к Corsi команды в остальное время. Данный показатель считается лучшим из характеризующих индивидуальные способности игрока создавать преимущество во владении шайбой для своей команды. А как мы знаем, владение шайбой - важная часть «хоккея чемпионов».
Corsi-канское море хоккеистов
Противников у данной системы масса. Основной довод - индивидуальная статистика игрока очень сильно зависит от уровня игры партнеров, если игрок находится на льду с умелыми партнерами, его показатель Corsi может быть неоправданно завышен, и наоборот.
Так же существует факт, что некоторые игроки выпадают из статистики Corsi. Они могут отлично понимать и вести игру команды от своей до чужой зоны, но при этом не иметь навыков игры в атаке, необходимых для создания моментов и бросков для себя и товарищей.
В таком случае не нужно грешить на систему. Важно правильно делать выводы. Если взглянуть на статистику НХЛ сезона 2013-14, то видно, что Corsi Брэда Маршанда был выше, чем у Сидни Кросби. «Маршанд провел сезон лучше», скажете вы, и ошибетесь.
Но если вы скажете, что Маршанд - хороший «two-way» игрок, который очень полезен для команды как во время владения шайбой, так и в защите - тот тут вы попадете в точку.
FenClose
Чтобы говорить о FenClose, необходимо знать о таком показателе, как Fenwick. Ну а что же такое Fenwick? Ну это практически тоже самое, что и Corsi, только из подсчета удалены заблокированные броски. Почему именно они? Потому что блокировка - это индивидуальный навык игрока, на который он сам оказывает влияние.
Ну а FenClose - это процент незаблокированных бросков, которые совершила команда команда при минимальной разнице в счете (1 гол или ничья). К примеру, играют «Монреаль» или «Торонто». Команды на двоих совершили 100 незаблокированных бросков при минимальной разнице в счете, и из них 38 сделало «Торонто». Соответственно, процент FenClose у них будет равен 38.
Fenwick во всей красе. Просто и сердито
Почему рассматривается именно такая игра, с практически равным счетом? Потому что, когда команды отстают на две или более шайбы, они, как правило, начинают играть по-другому, причем не всегда намеренно, особенно в конце игры. Команда, у которой есть преимущество в 2-3 шайбы, в третьем периоде будет играть более пассивно и аккуратно, а отстающая команда - более рискованно. Когда идет равная игра, команды максимально следуют своим игровым схемам - что лучше отражает истинный уровень их таланта, а на выходе мы получаем более «чистую” статистику.
Статистика по FenClose собирается с сезона 2007-08. Если взять 6-летний отрезок, то 7 из 12 команд-финалистов Кубка Стэнли (включая 4 из 6 чемпионов) закончили регулярный сезон в топ-5 по FenClose. Только одна команда («Питтсбург» в сезоне 2007-08) по итогам сезона была ниже 14-го места (они были аж 27-ми и проиграли «Детроиту», который был на 1-ом месте!).
PDO
Помните, как я упомянул об удаче, когда мы говорили о Corsi? Так вот, PDO - это как раз попытка измерить показатель «удачливости» команды и хоккеиста. И вычисляется он довольно просто, чтобы узнать PDO команды, достаточно сложить показатели всех игроков - процент отраженных бросков (для вратарей) и точность бросков (для полевых игроков) при игре в равных составах. Оба показателя основываются на удачных действиях, потому на выходе получается настоящий «индекс удачливости»!
Что касается индивидуального индекса PDO для отдельного игрока - это та же вышеупомянутая командная сумма, при условии нахождения данного игрока на льду при игре 5 на 5. Да, даже самый лучший защитник в мире никак не сможет поправить ситуацию, если его вратарь сегодня встал не с той ноги. PDO в таком случае, естественно, будет низким. Но ведь и удача совсем не зависит от наших действий и способностей.
PDO команд плейофф НХЛ 2016. Удачливым везет!
К примеру, возьмем Райана Гецлафа, имеющего точность бросков 12% в среднем за карьеру. Сезон 2011-12 Гецлаф закончил с ужасающим показателем 5% точности бросков, с ним на льду «Анахайм» забивал лишь 7% всех своих бросков, это был худший сезон Райана по системе «гол+пас». Соответственно, это был его худший сезон и по PDO, всего 97.7%. Но если взять его следующих два сезона, то здесь он полноправно вернулся к показателям игрока Матча всех Звезд.
На командном уровне можно наблюдать очень маленькую разницу в точности бросков, когда дело касается лучшей и худшей команды. За последние шесть лет (суммарно) «Питтсбург» имел лучший процент точности бросков в лиге про игре 5 на 5 - 8,71% (что совсем не удивительно, взгляните на их состав!). Кто же был на дне? «Нью-Джерси» с 7.20%. Получается, за период в 6 лет разница между лучшей и худшей командой была меньше 2-х процентов. На каждую 1000 бросков фанаты лучшей команды увидят всего на 15 голов больше. Это определенно не огромный разрыв.
Поэтому, количество бросков (Corsi, FenClose) значат куда как больше!
Баскетбол
Оставим холодные скользкие поля и маленькие шайбы и перейдем к горячим ребятам с оранжевыми мячами!
По скромному мнению автора, пласт продвинутой статистики в баскетболе не настолько глубок, как в хоккее, то же самое касается и обычных статистических ресурсов, сайтов о перспективных молодых игроках и т.п. Многие представители баскетбольных СМИ и даже люди из баскетбольной индустрии зачастую имеют неправильное представление о том, на чем основывается продвинутая статистика и зачем вообще она нужна.
Я сейчас говорю не о таких корифеях, как Дэрил Мори, Сэм Хинки или Дин Оливер, об осведомленности этих людей в статистическом океане слагают легенды. Чтобы представить масштаб управленческой трагедии, достаточно посмотреть видео о том, как фронт-офис «Сакраменто Кингз» выбирал игрока на Драфте НБА-2014.
Как и в хоккее, в баскетбольной аналитике самое главное - правильно задавать вопросы и грамотно анализировать ответы. Начнем с самого известного показателя, а именно - PER.
PER.
PER (или Player Efficiency Rating) - это поминутная оценка продуктивности игрока. Для создания PER были определены формулы, которые задают значения для каждого отдельного действия игрока. Формулы включают в себя как положительные действия - попадание с игры и со штрафного, 3-очковые, передачи, подборы, блоки и перехваты - так и негативные - промахи, потери и персональные фолы.
Предок PER - шахматный рейтиг ELO. «Люк, я твой отец!»
Еще очень важно помнить, что PER скорректирован по минутам и темпу игры. С первым все предельно понятно - разные игроки играют разное время, а сравнить условного Маркуса Смарта и Рассела Уэстбрука иногда все же хочется.
По части темпа игры - коррекция сделана для того, чтобы не ущемлять игроков команд, играющих в медленном темпе - ведь владений в среднем за матч у таких команд будет явно меньше, чем у играющих развеселый «ран-н-ган».
PER, как и любую сложную статистику, нельзя считать истиной в последней инстанции - к примеру, он слабо отражает вклад добротных защитных игроков, если они при этом не собирают много подборов или блоков.
Вот что PER действительно может, так это обобщить всю статистику игрока в одно единственное число. Это позволяет объединить разрозненные данные по игроку и не держать тонну цифр в своей голове. Вместо этого можно перейти к оценке показателей, которые в данном индексе не учитываются - сплошная экономия времени!
Для примера, можно посмотреть на таблицу индеса PER по сезону 2015-16. Лучшим стал Стэф Карри с 31,56. Худшим - Рашард Вон из «Милуоки» с 4.25. Эталонным показателем настоящего «среднего» игрока во все сезоны берется PER 15.0.
Не всегда и не всем интересно рассматривать относительно старую статистику, ведь эти индексы уже изъезжены вдоль и поперек, а достоинства и недостатки известны всем. Давайте лучше обратимся к свежим продуктам статистической мысли. В мире НБА - это индекс CARMELO.
CARMELO.
Основы CARMELO очень просты. Для каждого из действующих игроков НБА CARMELO идентифицирует похожих игроков за всю современную историю лиги и на фоне их карьеры анализирует будущее выбранного действующего игрока.
Например, согласно CARMELO, разыгрывающий «Вашингтон Уизардс» Джон Уолл в данный момент своей карьеры похож на таких бывших игроков НБА, как Айзейя Томас, Джейсон Кидд, Стив Фрэнсис и Кенни Андерсон. Кидд развивался в качестве игрока практически до 30-ти лет, в то время как Томас очень долго был на пике и привел «Детроит» к двум чемпионствам. Оба являются очень благоприятными сравнениями для Уолла. А вот Фрэнсис и Андерсон - наоборот. Таким образом, хоть Джон Уолл и имеет хороший потенциал для развития в настоящую суперзвезду, до конца быть уверенным в этом нельзя.
CARMELO возник во время работы журналиста Нэйта Силвера (основателя портала FiveThirtyEight) над статьей об игроке «Нью-Йорк Никс»...Кармело Энтони. Отсюда и растут ноги названия, которое позже было превращено в дикий акроним Career-Arc Regression Model Estimator with Local Optimization (Регрессионная графическая модель оценки карьеры с локальной оптимизацией!) Но на самом деле ноги CARMELO растут из еще одного гигантского акронима - PECOTA.
PECOTA - это система, созданная тем же Нэйтом Силвером в 2003 году для прогнозирования карьеры игроков в бейсбол (куда же без него, родного). CARMELO значительно проще, чем PECOTA, по словам самого создателя, в нем гораздо меньше «наворотов». Он прогнозирует игровое время каждого игрока и его общее влияние на нападение и защиту команды, но не его конкретные статистические показатели (очки, блоки, подборы и т.д.). Простота в данном случае запроектирована не случайно. По мнению авторов, их детище имеет верные основы и будет «весело таким показательным образом исследовать НБА перед тем, как усложнять модель дальше».
Работа CARMELO состоит из трех шагов:
Шаг 1: определение способностей игрока.
Прежде, чем сравнивать игроков, необходимо получить данные, по которым и будет проводиться непосредственное сравнение. Начинается все с важнейшего атрибута - возраста. Игроки НБА (кстати, как и игроки MLB - Major League Baseball) прогрессируют в среднем до 27 лет, а потом наблюдается спад.
Следующие в списке - рост, вес и позиция на драфте. При прочих равных практически всегда игроку лучше быть повыше и побольше. Игроки, выбранные на драфте ранее, как правило имеют более высокий потолок возможностей (но из каждого правила всегда есть исключения).
Далее для каждого игрока показываются его статистические показатели - но не в виде конкретных цифр, а средние по лиге за три прошедших сезона относительно других игроков. Сюда входят такие показатели:
1) «коэффициент использования» - это процент владений команды, которые игрок брал на себя и которые вылились в бросок, потерю или штрафные броски. Так как на паркете находятся 5 человек, то среднее значение - это 20%.
2) «истинный процент попаданий» - по сравнению с обычным процентом, здесь еще учитывается процент 3-очковых и штрафных бросков.
3) «частота 3-очковых и штрафных бросков» - показатели того, какие виды бросков игрок совершает чаще других. Чем выше эти проценты, тем лучше.
4) «рейтинг передач/потерь»
5) «рейтинг блоков/перехватов»
6) показатель «плюс-минус»
Шаг 2: подбор схожих игроков.
Тут все довольно просто. У каждого «исторического» игрока изначально есть 100 баллов рейтинга схожести. Чем больше различается какой-либо показатель, тем больше баллов отнимется из этого рейтинга. CARMELO считает эти баллы по 19-ти категориям, какие-то значат больше, какие-то - меньше.
По аналогии со снежинками, нет абсолютно одинаковых игроков. К примеру, при теоретически идеальных 100 баллах, если сравнивать вышеупомянутых Джона Уолла и Айзейю Томаса, то Томас набирает 57 баллов. По меркам CARMELO это довольно много, у большинства игроков НБА нет прототипов в прошлом с 50 и более баллами. Схожесть в 60 и выше баллов - очень большая редкость.
Шаг 3: делаем прогноз.
В карточке CARMELO игрока отображаются топ-10 схожих игроков. Для каждого приведен мини-график прогресса карьеры игрока в следующие 7 сезонов. В таком же ключе CARMELO предсказывает прогресс выбранного игрока.
Такая статистика сделана по всем игрокам, даже любимец многих Мэтт Боннер там есть. Также составляется статистика для новичков и даже для целых команд!
Главный вопрос, можно ли бежать делать ставки, беря в расчет данные CARMELO. Хм..пожалуй что нет. Данная система, как и любой новичок лиги, пока что очень сыра и необходимо 2-3 сезона проб и ошибок, чтобы наладить процесс. Но CARMELO определенно очень интересна, чтобы следить за ней.
Заключение.
Как мы видим, ресурсов продвинутой спортивной статистики достаточно много, и чтобы разобраться хотя бы в одном, нужна неделя-другая, а то и несколько лет сравнительных исследований. Но тем не менее, пытливый ум, да и любой любитель фентези-спорта может с интересом окунуться в это статистическое море и почерпнуть для себя что-то новое. Это не просто сухие и скучные цифры, как может показаться на первый взгляд.
Спасибо за внимание!
Photo: twitter / FiveThirtyEight
Впрочем, ничего лучше на публике пока нет, а в качестве математической модели для развлечения - отличная система. Что же касается фэнтези - мне думается, более эффективно будет следить за текущей формой игроков на ежедневной основе, благо доступной информации сейчас очень много.
Самое же принципиальное - в случае использования такого количества субъективных переменных, неточность в результатах предсказаний слишком велика. Думаю, именно из-за этого до сих нет информации, что эта система используется каким-то из клубов.
В баскетболе же не только цифры крупнее, а значит им больше доверия, но и все четко: каждое владение может совершиться лишь определенными строго фиксируемыми ситуациями. Если ты бросил по кольцу, то ты или попал или промазал, нет никаких опасных моментов и прочей субъективности. Если какую то субъективность и можно найти, то возможно лишь в определении ассистов, да и то вряд ли. Поэтому баскетбольной статистике поверить гораздо легче, чем футбольной или хоккейной. Хотя конечно и у баскетбольной статистики масса недостатков. Она хоть и объективна, но многое упускает из виду. Вклад игроков в результат не ограничивается тем, что попадает в их статистику, особенно это касается игроков защитного плана. Поэтому любые продвинутые метрики, основанные на простой статистике (а PER лишь самый известный из них, но вовсе не самый продвинутый) многое упускают из виду. SportsVU может решить проблему лишь частично. Да и построить на основе (или с учетом) этих новых данных какой то all-in-one рейтинг, вроде PER сложно. Так что и в баскетболе пока не получится уйти от субъективности в оценке игроков.
Что касается этого CARMELO то в первый раз слышу. Метрикой это не назовешь. Это лишь проекция на будущее (есть и другие), ценность которой очень сомнительна. Если какой то игрок имеет тот же рост, вес, подбирает, ассистирует, бросает с той же точностью и частотой и т.п. как какой то игрок из прошлого, то почему он должен начать сдавать в том же возрасте, что и игрок из прошлого? Совершенно не понятно. Ресурсы организма в эту статистику вроде не попадают, а уж травмы это сугубо индивидуальное дело.