Иной взгляд на продвинутую статистику
В последнее время НХЛ захлестнул бум так называемой продвинутой статистики. Почему так называемой? Для ее расчета не требуется знания высшей математики и статистики, достаточно лишь математики в объеме пятого-шестого класса для расчета дробей и процентов. Ее можно считать скорее расширенной. После перевооружения и расширения статистических бригад, вызванного ростом вычислительных мощностей, с сезона 2007-08 гг. на сайте NHL.com стали выкладывать детализированные протоколы со всей информацией о ходе игры: броски, вбрасывания, потери-отборы, удаления, остановки игры, вбрасывания и т.д., а также обстоятельства, при которых это случилось, и кто находился в этот момент на льду.
Почившая в бозе Атланта Трэшерс доступна для анализа
Данная информация еще не может полностью рассказать о перемещении шайбы и игроков, за исключением сведений о дистанции бросков, что недостаточно для воссоздания тактического рисунка игры и роли игроков в нем. В том же футболе, для такого анализа уже давно распространены видеосистемы, по которым можно смотреть как игроки и мяч, словно фишечки, перемещаются по зеленому прямоугольнику в зависимости от ситуаций.
Система футбольного видеоанализа от компании Instat
Продвинутая статистика основывается на показателях бросковой активности. Она достаточно упрощенная и больше представляет хоккей как аэрохоккей ввиду того, что происходит мгновенный переход из обороны в атаку и наоборот, т.е. существу никак не обосновывает, за счет чего команда создает и развивает атаки и защищается. В свою очередь, блокированные броски – лишь один из элементов защиты, наряду с чистым отбором шайбы, хитами, помехам бросающим, не говоря о правильной расстановке перед воротами. Такая статистика лучше всего подходит для привязки к конечному очковому результату.
Stats hockey: Бросай-блокируй
Традиционные бросковые показатели теперь доступны, как и для команд, так и для игроков. Высчитываются при игре 5 на 5 дабы исключить специфичную игру в неравных составах.
Corsi For (CF)– общее количество бросков в створ, бросков мимо ворот и заблокированных соперником, нанесенных командой за матч.
Corsi Against (CA)– соответствующий показатель для соперника.
Corsi For Percentage (CF%) – процентное отношение бросков команды ко всем броскам в матче, вычисляется по формуле CF% = (CF/(CF+CA))*100.
Corsi Relative – разница междуCorsi For Percentage игрока и Corsi For Percentage команды без учета нахождения данного игрока
Quality of Сompetition (QoC) – качество соперника (средние бросковые показатели игроков выходивших играть против данного игрока)
Fenwick - Корси без учета блокированных бросков
PDO– это сумма процентов отраженных (SV%) и реализации бросков в створ (S%)
Так или иначе, сырых данных было собрано довольно много. На появившихся, как грибы после дождя, сайтах североамериканских гиков еще далеко не всё успели посчитать и проанализировать, но каждый раз появляются новые производные показатели. НХЛ предоставила благодатную почву для любителей взглянуть на любимую игру под другим углом и сравнить свои наблюдения с цифирью. Благодаря унификации протоколов, сбор данных осуществляется путем хитрого парсинга (разбора строк), что в дальнейшем позволяло высчитать всевозможные показатели для игроков.
Ну и так вернемся к самому сумасшествию. Продвинутая статистика изначально основывалась на гипотезе, что создание бросков вытекало из владения шайбой, а значит и контроля игры, давлении на ворота. А PDO якобы указывало на везучесть/невезучесть, если цифры корси не совпадали с реальностью в турнирной таблице. Дескать, команда в нужный момент ловит удачу за хвост при невысоком корси и попадает в ПО, а повторить такой подвиг не в состоянии. Ввиду регрессии значения PDO к 100, для подтверждения гипотезы работоспособности этих показателей указывается трендовый характер, их работа на дистанции, что позволяло стелить соломку прогнозистам и предполагать неминуемый крах/успех команды, если у нее показатель выше/ниже нормы. Отчасти, это верно при падении показателя со 105 до 102 к концу сезона, но на ранних этапах регулярного чемпионата статистическая связь (корреляция) между очковым результатом прослеживается крайне сложно. Многие конечно, сразу же припомнят успехи Колорадо-2013/14 и Калгари-14/15, которым якобы перло лишь благодаря высокому PDO, а на следующий сезон им все воздалось. Можно вспомнить экс-чемпиона Лос-Анджелес-2015, который не попал в ПО с лучшим Корси при PDO равном 99.8. Всплывает слишком много всяких "если", для того чтобы объяснить подобные казусы. Ну и как можно полностью класс игроков команды объяснять везучестью? Почему тот же Корси не проверяют на регрессию к 50?
Я решил разобраться в пригодности работы Корси и по возможности улучшить эту систему метрик. Часто приходится сталкиваться с такой логикой: что если команда превзошла соперника по броскам, то она должна была победить, а если еще по дополнительному показателю (блокированным), то тем более. Далее перебрасывание соперника стало заменять собой понятие владение шайбой Possession. Якобы, чтобы бросить, нужно завладеть шайбой, а число бросков пропорционально времени владения. По идее Корси – это всего лишь улучшенный старый добрый +/-, только вместо разности используется соотношение и учитывается только игра 5 на 5. Ничего революционного данный способ подсчета не принес, кроме улучшенной детализации. Считаются не сами моменты, приведшие к голу, а потенциальные угрозы. Мастерство бросающих игроков и вратаря учитывается отдельно в показателе PDO. Полагают, что эти показатели идут порознь, а у PDO лишь вспомогательная роль. На деле же, я не встречал графиков с достоверными оценками корреляции.
Сперва-наперво, я решил посмотреть, как работает традиционный корси в НХЛ при игре 5 на 5, построив график в Excel, где показан процент набранных очков и сам показатель, тем самым выявить их взаимосвязь и посчитать корреляцию (данные на 1 января).
Увиденное меня насторожило. Большой разброс относительно воображаемой прямой и низкий коэффициент корреляции (0,39), говорят, что связь между двумя величинами довольно слабая. Обратимся к понятию корреляции из википедии:
Корреля́ция (от лат.correlatio“соотношение, взаимосвязь”) или корреляционная зависимость — статистическаявзаимосвязь двух или более случайных величин(либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.
Математической мерой корреляции двух случайных величин служит корреляционное отношениелибо коэффициент корреляции.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
Коэффициент корреляции отражает «зашумлённость» линейной зависимости и не подходит для описания сложных, нелинейных зависимостей.
Облака данных
Из любопытства построил такой же график только относительно PDO.
Результат подсчета корреляции оказался на порядок выше (0,74). Характер расположения точек оказался явно линейным. Оказывается, PDO вовсе не показатель удачи, по сравнению с тем, что нам дает Корси. Следует рассматривать их по-иному: PDO отвечает за реализацию/нейтрализацию своих/чужих моментов, а Корси – за владение инициативой. Если оба этих компонента на высоте, то команда без проблем побеждает. А если нет? Часто бывает, что реализация хромает, но команда почти всю игру проводит в чужой зоне, забивает несколько и выигрывает, пропустив одну необязательную. Или играет и забивает на кинжальных контратаках, надеясь на вратаря, который позволяет их провести. То надо определить достаточный уровень этих показателей для победы. Поскольку обе составляющие вытекают одна из другой (математически это можно увидеть броски “for” и “against” в составляющих находятся в обратной связи числитель-знаменатель и наоборот), то уместнее взять их условную сумму. Точную пропорцию определить сложно, также, как и во многих инженерных методах берется упрощенная величина. Осуществив те же самые процедуры в табличном процессоре, получил результаты по корреляции несущественно, но лучше (0,75), чем были по отдельности. Это можно объяснить некой синенергичностью этих величин.
Корреляция суммарной величины не равна сумме корреляций по отдельности. Итоговый результат определится исходя из величины каждого из коэффициентов а также связи между ними (доли бросков в створ от общего числа).
Однако, в ходе наблюдений суммарный показатель не всегда обгонял PDO на ранних стадиях чемпионата, в то время как Корси лишь медленно подымался с нулевой отметки. Я проверял состоятельность моих предположений по предыдущим сезонам, начиная с 2007-08 по всем возможным комбинациям показателей. Результаты наблюдений показали, что показатели корреляции у Fenwick “All Situations” лучше чем “5 на 5”.
В этом мало чего, удивительного, поскольку “вакуумный” показатель “5 на 5” не совсем отражает ход игры, когда часто играют в неравных составах, зарабатывают возможность играть в них, снимают вратаря и т.д. В свою очередь блокированные броски могут вносить статистическую погрешность, поскольку блокировать приходиться, когда отдаешь инициативу (об этом чуть подробнее будет рассмотрено во второй части). Хоккей – игра во многом ситуативная, а беря за основу общее итоговое течение матча, сгладив такие специфичные ситуации, как игра в неравных составах, при равном счете и разрыв в одну шайбу. Последние, в свою очередь, встречаются относительно редко по ходу встречи, а “All Situations” у всех почти одинаковое по времени.
В текущем сезоне при расчете “All Situations” картина сложится таким образом :
Корреляция вышла такая: FF “All Situations” - 0,46; PDO “All Situations” - 0,87; FF+PDO “All Situations” - 0,84. Вполне вероятно, что суммарный показатель окажется точнее PDO. Будем следить за развитием событий.
Несомненными достоинствами данного метода являются его динамика, предсказательность помимо увеличения значения коэффициента корреляции по ходу сезона. Точную аппроксимацию данных можно произвести с помощью кривой полинома 6-ой степени, однако это математически неадекватно, поскольку слишком сложная функция, хоть и довольно точная, теряющая свою универсальность на другой выборке, зависима от входных данных и их равномерности. Распределение очков в турнирной таблице неоднородно от года к году. Поскольку корреляция подразумевает линейную связь и кривая полинома стремится выровняться, то гораздо удобнее использовать прямую и ее уравнение. Воспользовавшись, поиском линии тренда в Excel, найдем ее уравнение вида y=kx+b. Подставив, коэффициенты в таблицу можно оценить перебор/недобор очков команды, по сравнению с теоретически предполагаемыми значениями для данного качества игры. По ходу регулярного чемпионата, точки, так или иначе, будут перестраиваться вокруг прямой в угоду соответствия качества игры и процента набранных очков. Например, при дисбалансе, когда у команды перебор очков в следующих играх ожидается либо потеря очков при том же суммарном показателе, либо подтягивание этого показателя до должного уровня. Но чаще прослеживается взаимное сближение этих значений. При такой перестройке возникает дрейф самой прямой из-за того, что не всегда сразу точки стремятся к своему месту соответствия, и точки вне основных групп скопления сильнее влияют на перемещение прямой. Рост точности корреляции обеспечивается не только за счет увеличения числа игр, но и игр между командами разного стиля, разных скоплений на графике, что дает возможность перестройке и вытягиванию вдоль линии.
Если рассмотреть проблему регрессии к среднему Fenwick и PDO, то там можно обнаружить некоторые нюансы. При суммировании показателей за последние 9 сезонов, то можно проследить, как сокращается разрыв между лидерами и аутсайдерами по этим категориям.
Сезон 2015-16. Корреляции: FF "All Situations"- 0,53; PDO "All Situations" - 0,79; FF+PDO "All Situations" - 0,8.
Сезоны 2007-16. Корреляции: FF "All Situations"- 0,83; PDO "All Situations" - 0,77; FF+PDO "All Situations" - 0,93.
Сезоны 2014-16. Корреляции: FF "All Situations"- 0,65; PDO "All Situations" - 0,82; FF+PDO "All Situations" - 0,85.
С 8,7% FF “All Situations” и 3.6 % PDO “All Situations” для сезона 2015-16 до 7,7% FF “All Situations” и 2,3 % “All Situations” для сезонов 2007-2016. Коэффициенты корреляции вышли следующими: 0,83 - FF “All Situations”, 0,77 - PDO “All Situations”, 0,93 - FF+PDO “All Situations”. FF “All Situations” наконец-то обогнал PDO. Видно как работают эти показатели на длинной ситуации. В сухом остатке видим, что наверху обосновались обладатели Кубка Стенли последних лет, а также обладатели Президентского Кубка, а внизу осели фавориты преддрафтовых лотерей. Но период расчета слишком большой. За это время команды успевают не только выйти из грязи в князи и обратно, но и за те же 3-4 года почти полностью обновить состав. Суммарная выборка по сезонам становится все более и более независимой. Вспомните опыт по подкидыванию монетки, который является классическим, когда наступление текущих событий необусловлены предыдущими. Результат бросания-отбивания шайбы и есть то самое подкидывание монеты, когда на огромной выборке элементарных действий прослеживается стремление к той самой величине 100%. В свою очередь, чехарда с составом, тренерским штабом, менеджментом дает о себе знать, так что команды изменяются до не узнаваемости, теряют “пресловутую” химию, собственный стиль. В итоге имеет место быть медленное, но сглаживание по Фенвику. Но насколько быстро проявится эта закономерность утраты роли PDO? Проверим расчеты суммарной выборке двух последних сезонов. Разрыв по FF “All Situations”- 10,4 %, по PDO “All Situations” - 3,7 %. Корреляция следующая: 0,65 - FF “All Situations”, 0,82 - PDO “All Situations”, 0,85 - FF+PDO “All Situations”. Заметный, но недостаточный рывок корреляции по Фенвику с 0.53 до 0.65. Далее же усиливаются околоигровые факторы, усугубленные давящим потолком зарплат. Справедливость в отношении команд-выскочек не совсем работает. В любом случае использование Корси на дистанции сезона нежелательно, когда остальные критерии более состоятельны на том же отрезке.
Для КХЛ ситуация не оставляла никакого выбора кроме как ручного подсчета показателей “All Situations”. И здесь победил суммарный показатель FF+PDO “All Situations” c корреляция 0,9 против 0,87 у СF+PDO “All Situations” (данные на 1 января).
Данное исследование не только подставило под сомнение единоличную роль Corsi “5-on-5” в системе продвинутых метрик, но и помогло разобраться в их многообразии. На основе максимальной корреляции к проценту набранных очков был синтезирован суммарный критерий FF+PDO “All Situations”.
Если говорить об общем примени продвинутой статистики, то с ней нужно работать аккуратно. Вообще всякая статистика в спорте – это результат запроса на подсчет определенных событий. В данном случае основные категории бросков и голы. Как их подсчитывать и интерпретировать дело вкуса каждого. Но можно с определенной степенью точности привязать их турнирному положению всех команд (соблюсти условие общего баланса), а не только ориентироваться на чемпионов . Так или иначе, повышение показателей броской продвинутой статистики не самоцель игры в хоккее. Она лишь вытекает из него. Каждый теперь может, стуча по клавиатуре, лишь предложить “бросать больше, блокировать больше”, кто-то еще может добавить: “бросать из выгодных позиций”. Но подобные советы слишком уж очевидны и годятся лишь для дополнительного напоминания установок во время перерывов и тайм-аутов. Такая статистика хороша для мониторинга общей ситуации по ходу сезона. Правильно ли мы все делаем при отсутствии результата? Будет ли ожидаемый спад? Промедлить ли с отставкой тренера, когда на бумаге все хорошо?
Традиционный Корси при игре 5 на 5 возможно лишь демо-версия, верхушка айсберга продвинутой статистики, вброшенная хоккейной общественности для того же привлечения хардкорных фанов. Все недоработки Корси “допиливаются напильником” и после того система метрик готова к употреблению. Каждый может настроить по собственному вкусу и видению хоккея.
Дополнительная разбивка статистики по игрокам по данному методу может описать статистическое состояние, поскольку общая картина по командам вышла куда точнее, чем было прежде. Но слишком специфична игра постоянных участников спецбригад, слишком разнится игровое время внутри команды, нет четкого критерия, по которому надо делать привязку качества игры (в нашем случае это был процент набранных очков для команды). Пока это остается вопросом отдельной проработки.
Так или иначе, все происходящее на льду и вне льда объяснить на языке цифр не получится. Ну и зачем вообще будет смотреть хоккей, когда все вроде будет наперед известно? За то мы и любим спорт, что у каждого есть реализовать свой шанс несмотря ни на что.
Фото: instat.com; gumtree.com; milehighhockey.com;
ru.wikipedia.org/wiki/Корреляция; www.torontosun.com
Данные : hockey-reference.com
Благодарность в подготовке материалов Игорю Дралову.
Также вы можете читать все наши публикации в паблике «Новый Уровень» «ВКонтакте». Там они появляются на несколько часов раньше, чем в блоге. Хотите первыми узнать все самое интересное о хоккее по обе стороны океана — подписывайтесь на наши страницы в социальных сетях:
Ну, за корреляцию! :)
а пока плюсик за это всё дело))
Для реального отражения (или хотя бы для улучшения отражения) качества игры требуется не "продвинутая", а детализированная статистика, как в футболе или баскетболе. В футболе подсчитывают все передачи (при этом ещё и классифицируют их по нескольким категориям), подсчитывают все единоборства и тоже классифицируют их (а в хоккее считают только один вид единоборств - вбрасывания - да ещё почему-то придают им чуть ли не решающее значение). Но в хоккее из-за динамичности игры сложнее собирать всю эту статистику. Уже пару лет (а может, и больше) идут разговоры о том, что в НХЛ собираются внедрить системы, собирающие кучу информации об игре, но, похоже, качество их работы не достаточно высоко, раз всё никак не внедрят.
По сути очень слабо. Первый вопрос в любом исследовании - а что же требуется подтвердить или опровергнуть. Если то, "играет ли Corsi “5-on-5” единоличную роль в системе продвинутых метрик" - то никакое исследование не нужно, ответ очевиден - нет, не играет, и близко не играет.
Далее, вы очевидно не понимаете, что такое PDO. Это ФАКТИЧЕСКИЙ показатель, который рассчитывается исходя из фактически забитых и пропущенных голов. Искать корреляцию одного фактического показателя (PDO) с другим (% набранных очков) НЕ нужно, и так понятно, что это про одно и то же, корреляция будет близка к 1. Т.е. практического смысла в этом нет вовсе - простой пример - если весь сезон ваши киперы феерят и отбивают 93% бросков, а ваши напы монстры и забивают 11% своих бросков - то ежу понятно, что эта команда будет наверху в таблице. Это приблизительно то же самое, что посчитать корреляцию разницы забитых и пропущенных и набранных очков по итогам сезона. Что-то мне подсказывает, что она будет высокой )
Наконец, не нужно придумывать составные показатели, которые в реальной жизни вообще никак не объяснить, что это. Вот объясните мне, что такое "FF+PDO “All Situations”? Это же как скрестить ужа с ежом и так несколько раз.
А вообще совет - смотрите больше матчей, чистые цифры бесполезно без понимания почему они получены.
1. Корси 5-на-5 - показатель, который больше подходит для измерения индивидуального владения игрока, так как у игроков чаще всего есть четкое разделение ролей на ПП и ПК, которое делает их статистику менее точной. Для командных показателей большую точность имеет корси во всех игровых ситуация
2. Цифры Корси очень показательны на долгосрочной перспективе, где за последние 10 лет среди 7 лучших команд по владению в НХЛ - все 5 команд-чемпионов и Сан-Хосе, выпадает там только Каролина с достаточно слабыми вратарскими цифрами
3. ПДО с годами имеет довольно маленький разброс - за 10 лет у лучшей команды лиги Бостона 101%, у худшей 99%, при этом как раз в конкретных сезонах оно может скакать очень сильно (как у Калгари - 99% - 102% в их бомбовый сезон - снова 99%). У топовых команд за счет более высокго класса исполнителей ПДО постоянно будет немножко выше, на 0,5-0.6%, и главное слово здесь - постоянно. И очень интересным исследованием было бы рассмотреть те факторы, из-за которых у Колорадо 13/14 и Калгари 14/15 так скакнуло ПДО