NHL. Альтернативный взгляд на привычную статистику
Привет, дорогие друзья. На дворе глубокое межсезонье, вот уже миновали драфт и открытие рынка свободных агентов, клубы провели сборы для своих новобранцев и старых проспектов. Сайт NHL.com начинает нас баловать статьями в духе “Межсезонье. Фентези-хоккей рейтинг топ-200”, скрашивая томные летние вечера любителей фентези и хоккея в частности. И нашему блогу кажется, что самое время поднять какую-нибудь спорную тему, например, тему вторых передач (они же secondary assists, они же подсосы).
Совсем недавно команда нашего блога наткнулась на интересную статью 2011 года по этой теме - ссылка. Сейчас я представлю вам её вольный перевод приправленный щепоткой собственных мылей.
Далее primary assists будут именоваться A1, secondary assists - A2.
Скорринг для чайников: выбросьте A2 в форточку!
Думаю, многие любители хоккея в своё время задавались вопросом: какого чёрта, мы уравниваем A2 показатель с A1, а что ещё более жутко с забитыми шайбами? Но потом мы сами для себя находим этому оправдание: начинаем петь о том, что шайбы то и вовсе бывают мусорными, залетевшими после случайных рикошетов, чего и говорить о каких-то передачах. При этом, зачастую, ключевым элементом успешной атаки становится именно эта удачная, мастерская, талантливая, сверхточная передача от защитника из-за своих ворот в среднюю зону, которая в последствие была записана в статистику как A2.
Остановимся на этих двух примерах, 2 стороны могут бесконечно перебрасываться подобными роликами, но мы ни на йоту не приблизимся к ответу на главный вопрос: отражает ли показатель A2 хотя бы частично талант игрока?
Давайте подойдём в вопросу со стороны царицы наук, не зря же у нас слово smart в название блога затесалось. Проведём следующий анализ: рассмотрим как показатели G, A1 и A2 конкретного игрока изменяются от года к году. Мы ожидаем, что результаты игрока в следующем сезоне хоть частично зависят от результатов в текущем. Если это так, то мы найдём корреляцию между результатами игрока.
Мы не способны откинуть все случайные источники колебаний, будь то банальная удача при реализации момента, старение игрока, травмы, смены партнёров по звену, но попробуем отбросить то, что в наших силах. Введём следующие условия:
Как и при анализе продвинутой статистики, будем брать в расчёт только игру в равных составах, никаких очков заработанных при реализации численного преимущества;
Игроки имеют различное игровое время, будем использовать статистику приведённую к 60 минутами игрового времени (продуктивность игрока за 60 минут его нахождения на поле);
Будут сравниваться только сезоны, где игрок провёл по крайней мере 60 матчей. (При рассчётах используется только статистика сезонов с 07-08 по 09-10. Введение всех ограничений оставляет для анализа 460 точек данных.)
Все это должно снизить погрешности расчётов. Давайте перейдём непосредственно к числам. Первое, чему мы не без оснований уделяем наибольшее влияние, это забитые шайбы. Посмотрим, что цифры скажут о колебаниях по данному показателю:
Ось X - количество шайб игрока в первый сезон на 60 минут игрового времени.
Ось Y - количество шайб игрока во второй сезон на 60 минут игрового времени.
Теперь наш мозг откалиброван, мы знаем коэффициент корреляции (R^2 = 0.22) для голов, будем отталкиваться от этого. Колебания на самом деле небольшие, мы все верим, что забивать шайбы это большой талант.
Далее, посмотрим, какой результат нам даст подобный анализ для показателя A1.
Коэффициент корреляции упал до 0.18, чуть ниже чем для забитых шайб, но зависимость всё ещё сохраняется. Те парни, что забивают много шайб и раздают передачи A1, вероятно, имеют отличный шанс повторить это и в последующем сезоне. Но окончательные выводы делать рано, все эти цифры всё ещё могут ничего не значить, необходимо провести анализ для показателя A2.
Мы наблюдаем резкое падение коэффициента корреляции в сравнении с предыдущими показателями (R^2=0.05). Если таланты игрока значительно влияют на стабильность его показателей G и A1, то в случае с A2 более весомую роль играет лишь воля случая.
Сделаем ещё одно уточнение к анализу. Посмотрим, что скажут цифры, если игрок в межсезонье сменил команду. Узнаем насколько эта статистика связана с партнёрами. Сначала посмотрим для A1:
Выборка стала заметно меньше, но коэффициент изменился незначительно, будто бы не было никакой смены команд. Можем сделать вывод, что в большей степени всё зависит от способностей самого игрока.
Далее, вернёмся к А2:
Как мы видим, при смене команды теряется всякая зависимость по показателю A2.
Подведём итог
Можем сделать вывод, что по крайней мере для форвардов, показатель А2 не является отражением их игрового таланта. Слишком большой элемент случайности, слишком много шума в этой статистике. Хорошей новостью является то, что многие результативные моменты попросту не имеют вторых передач, снижая тем самым их влияние на конечную статистику игровых очков.
Что и говорить, лично я и раньше при анализа старался опускать A2, доверяясь больше первичному скоррингу.
PS. В дополнении ссылка на ещё один небольшой разбор того, что раньше и “небо было зеленее”, о том как менялся хоккей статистически.
Кроме того, в статье, на которую ссылается автор этой записи, на мой взгляд, не достает все-таки обзора на игру в большинстве, ведь знакомое дело - встали в зоне, жмем соперника, пасуемся меж собой и вот он - разящий бросок.
А так, радует, что больше подобных записей становится на спортсе.
1. Они там почему-то взялись искать линейную регрессию вида y = ax+b. Оно понятно, что в учебниках чаще всего рассматривают именно такую зависимость. Но надо же задумываться и о смысле. Какой смысл у константы b во всех полученных формулах? Давайте для примера глянем формулу для заброшенных шайб: y = 0.4681x+0.3865. Из этой формулы следует, что если хоккеист в некотором сезоне не забросил ни одной шайбы, то в следующем от него надо ожидать в среднем 0.3865 шайб за час игрового времени. Есть ли в этом какой-то смысл? Нет. Формулу регрессии надо искать, конечно, в виде линейной зависимости y=ax безо всяких свободных членов. Но тогда все формулы, весь анализ будут другими. То есть то, что нам показано, уже можно выбрасывать в помойку.
2. Претензия не к авторам анализа, а к вам как переводчику - пересказчику: через R^2 обычно обозначается коэффициент детерминации, а не коэффициент корреляции (коэффициент корреляции - это просто R, без квадрата). Сдаётся мне, вы это неграмотно перевели.
3. Вот вы пишете (или авторы пишут): "Колебания на самом деле небольшие". Какие колебания небольшие? Колебания чего? Числа забитых шайб? На каком основании сделан вывод, что "колебания небольшие"? Значение R^2 = 0.22 говорит как раз о том, что разнобой очень сильный. Это видно и по самой картинке - облако точек сильно разбросано и вдоль прямой не выстраивается.
Хватит пока этих трёх пунктов?
Сейчас почитаю чего там ниже есть. Спасибо.
Великолепный результат.
Вообще, кому интересно повертите здесь его статистику (ну или еще какого игрока):
http://www.extraskater.com/player/7/sidney-crosby
Так вот по Кросби. Ратио праймери/секондари за карьеру у него великолепное. Лучше Торнтона, Седина. Ну этим все сказано. Но ладно. Но куда больше впечатляет соотношение первых передач к вторым при игре 5-на-5. Там цифры сумасшедшие. А вот в большинстве секондари преобладают. Но тут смотреть нужно на лед, чего так. Я редко Пенс смотрю, к сожалению.
Авторы приводят ссылку на то, как они выполняют своё исследование, там идёт зависимость очков команды от дифференциала забитых и пропущенных шайб. В том случае к линейной регрессии вопросов нет, но зря они на эту задачу её перенесли.
Но в любом случае цифры по голам и A1 разительно отличаются от A2, что-то это да говорит нам, даже если в целом в исследование искусственно повышена погрешность.
2. Вот тут как раз ошибка от авторов пошла, они использовали не тот термин, а я уже не придал этому значения и оставил как есть. Сам бы я придумывать неверное обозначение не стал, но надо было быть внимательнее к авторским косякам.
3. Так же пошло из оригинальной статьи и мне самому это не очень нравилось. Видимо имеется ввиду, что небольшие относительно того что в итоге мы получим для других показателей в итоге. Заранее конечно глупо называть их небольшими при подобных значениях.
Я понял ваш посыл, но устранять все эти недочёты = проводить своё собственное расследование, для чего нужно иметь базу статистики. Я бы конечно мечтал о подобном, но пока у меня нет на это времени. А тут авторы затронули интересную тему, пусть и исполнив её с недочётами, но мне кажется, что их статья имеет место на существование.
Те, кто твердят про его "секондари подсосы", лишь показывают свою глупость и плохое знание хоккея .
--------------
Не нет, а да. Применительно к одному хоккеисту, забрасывающему 0 шайб - конечно нет, но коэффициент получен из данных, отличных от ноля.
2. Коэффициент назван не правильно, но эта придирка не имеет никакого отношения к смыслу. Смысл был в том, чтобы получить коэффициент, показывающий насколько кучно точки находятся у линии. Это R2 и есть.
3. Значение R^2 = 0.22 говорит как раз о том, что разнобой очень сильный.
-------------------------------
Очень сильный разнобой, относительно единицы, а относительно других графиков, к чем и был посыл статьи, "разнобой", как ты его называешь - вполне себе несильный. И нормально они выстраиваются вдоль прямой, по крайней мере, видно в какую сторону эту прямую следует проводить, чего нельзя сказать по последнему графику. Что и, повторюсь, доказывается в статье.