Динамика средних показателей в НБА или почему так сложно сравнивать игроков из разных эпох
В НБА очень любят сравнивать игроков из разных временных эпох. И каждый раз сделать это очень тяжело. Кто-то говорит, о том, что раньше медицина была хуже, перелеты опаснее, а сама игра быстрее/медленнее (нужное подчеркнуть в зависимости от эпохи). Этот материал призван осветить еще одну точку зрению на эту ситуацию со стороны математической статистики и средней температуры по больнице. Идея возникла после прочтения вот этого материала - http://www.sports.ru/tribuna/blogs/antarktida/1039302.html
Методика подсчета очень проста. Средняя результативность в НБА со временем менялась: в 60х в среднем команда могла забивать около 110 очков и подбирать сумасшедшее количество подборов - например - 73.3 подбора в среднем в сезоне 1960-1961, тогда как в засушливую середину 2000х - всего лишь около 100 очков и около 42 подборов в среднем за игру.
Было введено допущение, что среднее количество очков за матч равно арифметическому среднему за все сезоны лиги с 1946 года, и составляет примерно 102 очка за матч, среднее количество подборов - 46.7, а среднее количество передач - 22.4 . Затем с помощью пропорций были подтянуты основные показатели игроков за все сезоны.
Конечно, такой механический пересчет небезгрешен (учитывается среднее, а не, например, медиана), но зато прост по смыслу и общие тенденции так или иначе отражает. Так например, лидер по количеству набранных очков за всю карьеру - Карим Абдул-Джаббар играл в сезоны со средним равным 108.8, что намного превосходит средние показатели за всю историю лиги. Да, внимательный читатель может сказать, что среднее в период Карима была таковым во многом из за того, что и сам Карим был уникален и набирал настолько много, что сдвигал среднее, ну что ж, с таким допущением придется пока смирится.
Как это работает? Посмотрим на примере Карима. Для каждого сезона в котором он играл известно среднее количество набранных очков для всей лиги, например, для 1971-1972 это 110.2, число сыгранных игр во всем сезоне - 697, значит всего было набрано около 76809 очков за сезон, из них Карим набрал - 2822. Это составляет 3.67% от общего числа. Однако для усредненной модели сезона с результативностью в 102 очка - Карим должен был набрать 3.67% * 102 * 697 и это составляет около 2613 очков, которые мы и учитываем. Подсчитав статистику для всех сезонов, мы можем сложить ее и получить сумму за всю карьеру.
Наверняка кто то из игроков отсутствует (но я надеюсь, что они все находятся за границами Топ-25), потому что времени на анализ всех игроков, когда либо игравших в лиге, не хватило и пришлось ограничиться самыми известными, участниками Зала Славы и прочими такими же.
Рассмотрим топ-25 по количеству набранных очков уже по новой системе
Как мы видим, Карим Абдул-Джабар потерял очень много очков в связи с тем, что играл в результативную эпоху и уступил пальму первенства "Почтальону", а завершивший в этом сезоне карьеру Кобе Брайнт так и остался на третьем месте, но до второго места ему не хватило всего 600.
Проделаем такое же упражнение для подборов
И для передач:
Какие выводы можно сделать из этого исследования? Сравнивать эпохи очень сложно, ведь даже такой казалось бы математический подход не избавляет нас от кучи проблем будь то разница в подходе к самой игре, разница в инфраструктуре и качестве жизни. Так же, очень часто характеристики именно игроков прошлого заметно падают, после пересчета их статистик относительно среднего сезона НБА.
В дальнейших планах попробовать подсчитать другие числовые характеристики игроков, а так же попробовать заменить среднее на медиану и/или пытаться высчитать среднее для сезона без учета игрока для которого мы это исправленное значение подсчитываем (это позволит более корректно оценить крутость игрока в масштабах эпохи)
P.S. Все данные были подсчитаны с помощью технологии Apache Spark и конкретно бесплатной ее реализации на https://community.cloud.databricks.com/. В качестве источника данных использовался сайт - http://www.basketball-reference.com/
Для особо любопытных есть веб версия отчета - где можно будет покликать на графики, подвигать их, и вообще немного интерактивно поработать с данными - https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/5419907673756956/3303913894427681/6715794329776633/latest.html
P.P.S. Отдельное дополнительное спасибо за вот этот пост - http://www.sports.ru/tribuna/blogs/antarktida/1039302.html. Спасибо Александру Балабанову за создание того поста и конечно же автору RadMarchand97 с сайта https://www.reddit.com/