Не Пирло и не Роналду. Кто лучший исполнитель штрафных в Европе?
«Как рукой кладет» – если дело идет о штрафных, то с вероятностью, близкой к 1, это сказали о Пирло или Рональдиньо. Те, кто постарше, вспомнят фамилию Жуниньо, а отпетые олдфаги расскажут о фирменных крученых Платини, после которых у игроков в стенке появилась добрая традиция прыгать. Можно бесконечно восхищаться их мастерством, и определение сильнейшего , на первый взгляд, кажется задачей философской. Когда-нибудь ваш маленький сын спросит: «пап, почему Криштиану забил более 50 мячей со штрафных, но они все равно говорят про Месси?» – не надо идти за ремнем,просто покажите этот пост.
Самый простой способ ответить – посмотреть на процент реализованных штрафных. За последние 6 лет в топ-5 европейских лигах реализация штрафных (не считая рикошетов = голов в свои ворота) составила около 7.3%. У Роналду этот же показатель равен 11.7% (17 голов со 145 попыток). У Пирло 11.4%. Стоит ли заявлять о превосходстве Роналду?
Очевидно, что в каких-то ситуациях игрокам банально везет, взять хотя бы удар () Маты в ворота Сток Сити. Он и ударом не является, даром что залетел в ворота. С другой стороны, штрафные с расстояния более 30 метров до ворот имеют практически нулевую вероятность конвертации в гол. Не все штрафные удары одинаковы по сложности. Если мы хотим определить самого эффективного «фри-кикера» (а как сказать по-русски?), было бы разумно учитывать позицию, из которой наносится удар.
Определить лучшего исполнителя нам помогут данные по штрафным ударам, собранные на сайте WhoScored (Disclaimer: я не собираюсь их выкладывать или продавать). Немного терпения и концентрации, и у нас есть представление о том, откуда пробивались штрафные с 2009 года в сами знаете каких топ-5 чемпионатах. Всего около 12700 ударов. К сожалению, координаты ударов не точны на 100% (как я понимаю, собирала их компания Opta). Фактически, настоящее место удара может быть в метре или даже двух(редко) от заявленного.
Большинство ударов сконцентрировано вокруг штрафной дуги. Тем не менее, присутствуют удивительные точки, из которых не отважится пробить даже Роберто Карлос. Мячи, чьей первоначальной миссией было влететь в штрафную и найти там голову партнера по команде, но волей судьбы пролетевшие чуть выше перекладины или опробовавшие каркас ворот. Иногда они вводят людей в заблуждение и заставляют считать себя ударами, но не забросами. Именно поэтому, несмотря на свою редкость, такие точки все-таки присутствуют, и , более того, конвертируются в голы в полтора раза чаще (если «заброс» случайно залетает в ворота, он уже классифицируется как «удар»). Это слегка усложнит ответ (а вопрос: кто лучший исполнитель штрафных) но поскольку этих «полуударов» не более 5%, с этим можно смириться (или все-таки как-то бороться, не знаю). Иногда такие голы возникают из-за ошибок вратарей на выходе во время стандарта, так что часть ударов по этому признаку удалось отследить.
Так что же с реализацией? Очевидно, что чем ближе к воротам игрок, тем легче ему будет забить. Чтобы посчитать вероятность забить, например, с центра линии штрафной, существует простой способ – взять все удары в окрестности данной точки (например, в пределах двух метров) и рассчитать процент реализованных ударов. Если пройтись по всей половине поля соперника, можно обнаружить, что некоторые участки особенно располагают к голам:
Если нудные рассуждения вас пугают, можно пропустить следующие два абзаца, рекомендую этого не делать.
Важный момент: картинка показывает не вероятность забить, но лишь среднее долю реализованных ударов в той или иной точке поля. Настоящим графиком вероятности ей мешает стать как минимум вышеупомянутые случайные голы. Я бы не вручил эту картинку в качестве мануала для Роналду, когда он будет раздумывать о расчехлении своей пушки с дистанции более 30 метров . Тем не менее, для большинства точек это все равно лучшая аппроксимация, чем средние по больнице 7.3%. У линии штрафной, например, эта вероятность достигает 13%, а если сдвинуться еще на 15 метров назад к центру поля, то вероятность падает в 4 раза. Фиолетовое пятно является идеальным местом для правшей, коих большинство, и заработать штрафной в этой зоне можно считать большой удачей.
На больших дистанциях полуудары начинают доминировать, поэтому по краям поля возникают аномалии вроде растущей вероятности забить при отдалении от ворот. (график свнова становится синим). Еще раз оговоримся, что таких ударов меньшинство, и с этим можно бороться. Вряд ли в карьере какого-либо игрока будет больше одного-двух таких ударов. Поэтому мы ограничимся лишь теми, кто совершил достаточное число ударов.
Как нам использовать полученную информацию? Еще немного ненавязчивой математики: если нанести 20 ударов, каждый из которых залетает с вероятностью 7.5%, то ожидаемое число голов 20*7.5% = 1.5 Если игрок забил 1 или 2, вполне возможно, что его врожденная способность забивать находится примерно на уровне 7.5 голов на сто ударов. Если же он забил 4 или 5 (в три раза больше, чем мы ожидали), есть повод задуматься. С какой уверенностью мы можем сказать, что ему повезло? Если его талант определяется вероятностью 7.5%, то вероятность забить 4 или более голов с 20 попыток равна 5.8%. То есть с вероятностью 5.8% он просто везучий, и с вероятностью 94.2% этот паренек одарен гораздо сильнее, чем мы думаем.
Присваивая разную вероятность разным по сложности ударам и складывая их для каждого игрока, мы получаем некий эталон, относительно которого можно измерить его талант. Ожидаемое число голов в модных футбольно-аналитических кругах принято обозначать не менее модной аббревиатурой ExpG, что я и сделал. В роли исполнителя штрафных за эти 6 лет себя попробовали более 1500 игроков, из них лишь 54 совершили не менее 40 ударов или забили 7 и более мячей, поэтому они и попадут под наше пристальное внимание. Чтобы понять, насколько хорош футболист, надо проверить, насколько он превосходит наши ожидания в реализации. Каждому удару присвоим вероятность конвертации в гол ( в соответствии с графиком). Сложим эти вероятности для всех ударов игрока и получим ожидаемое число голов (т.е. сколько бы забил среднестатистический игрок). Если он забил существенно больше совокупного ожидаемого числа голов, то он должен быть наверху списка. Таким образом, мы ранжируем игроков по тому, насколько в среднем их процент реализации превосходит ожидаемый средний процент реализации. Пример: Роналду нанес 145 ударов, забил 17. Ожидаемое число голов: ExpG = 11.16. Тогда фактическая реализация составляет 17/145 = 11.7% Ожидаемая реализация: 11.16/147 = 7.7%. Роналду в среднем реализует свои моменты лучше чем типичный игрок на 11.7%-7.7% = 4.0%. Эту среднюю разницу обозначим как aDelta.
И в тройку призеров попадают…нет, не Пирло и не Роналду. Это Даниель Васс (Эвиан (Франция) –> Сельта(Испания)), Хакан Чалханоглу (Леверкузен) и Беньят (Атлетик Бильбао)
26 летний полузащитник наколотил в Лиге 1 8 мячей с 47 попыток. Правило большого пальца (7.3% мячей залетает) говорит нам о том, что в среднем с 47 ударов забьют 3.43 мяча. Модель ExpG дает еще меньшую оценку: 2.96, т.е. около трех мячей будет забито в среднем с позиций, с которых посчастливилось забить Вассу. Топ 15 ниже:
Также из известных фамилий здесь Ди Натале, Ибрагимович, Пьянич, Кабай, Хуан Аранго. Попасть в топ 15 им повезло лишь по причине, что выбирались они из 54 человек. Тем не менее, с огромной долей уверенности можно сказать, что они точно входят в топ 30%, т.к. абы кому штрафной удар не доверят ( а у них их больше 40 за 6 лет)
Разумеется, когда более полутора тысяч человек еженедельно пытают удачу в свободных ударах, ничего удивительного, что могут появиться несколько статистических выбросов вроде Васса или Беньята. Есть ли способ проверить, что это не удача, но годами отработанный навык?
Вернемся снова к занимательной математике. В математической статистике есть теорема, пользуясь которой, можно утверждать, что если футболист сделал достаточное число ударов, то число голов будет подвержено нормальному распределению. Зная вероятности конвертации в гол всех ударов, мы можем построить нижнюю границу для средней сверхрезультативности. Обычно берут 95% интервал, т.е. с вероятностью 95% настоящее значение навыка будет лежать где-то в окрестности aDelta, обозначенной вертикальным отрезком. Тогда если отрезок лежит целиком над нулевым уровнем, то можно быть уверенным (на 95%) в таланте футболиста. Из регулярных исполнителей штрафных таких игроков можно по пальцам посчитать (если у вас 6 пальцев на руке ):
Лишь 6 игроков смогли убедить нас, что их результативность – не простое везение (помните, отрезок выше нуля) . Мишел Бастос (Сан Паулу, когда то играл за Лион, Шальке и Рому) реализовал 6 из 45, и он замыкает шестерку лучших в списке 40+/7+. Роналду опустился чуть ниже нуля. Но, напомню, это 95% интервал, так что если вы не очень придирчивый, то на 90% уровне Роналду бьет точно лучше среднего. Его диапазон так узок, поскольку он единственный, кто нанес больше 100 ударов, и его оценка точнее.
Итак, за последние 6 лет Месси исполнял штрафные лучше Криштиану (по крайней мере в Ла Лиге). Но когда к мячу подходит Даниель Васс, они оба в компании Коэнтрау отходят в сторонку.
Для тех, кто будет возмущаться отсутствием Хуана Маты, публикую расширенную версию (25+ ударов)
Печалит тот факт, что здесь мало знакомых фамилий, а про Златко Юнузовича многие узнали только после 5 голов в этом сезоне. Вторая печальная вещь – отсутствие Рональдиньо и Жуниньо в данных, думаю, они бы поставили на место всех этих юношей вроде Чалханоглу (Боже, ему всего 21. 21, Карл! Сколько же он наколотит к 30 годам?!). Если все это было недостаточно убедительно, то вы хотя бы знаете, чьи имена вбивать в youtube. В будущем буду публиковать похожий стаф; вопросы, предложения, не стесняйтесь.
UPD.
Кто круче, Месси или Роналду? На данный момент статистическая гипотеза о том, что они одинаковы, не отвергается. Т.е. нельзя сказать, что кто-то круче. То же самое можно сказать о любой другой паре футболистов из топа. И, тем не менее, кто-то забивал чаще и из более трудных ситуаций, и, конечно, не без доли везения. Отсюда и соответствующий рейтинг.
________
А за материал огромное спасибо! Очень кропотливая работа, которую на удивление было легко и интересно прочесть (сначала изобилие цифр и математического анализа меня напугало)
1) "Вообще не значимы" звучит забавно. Предположу, что незначимы по сравнению со средним (3 из 45). Но у нас-то вероятность залететь не в районе 50%, чтобы шататься от 10 до 35 из 45, а в районе 7.3%, и болтается где-то от 1 до 7, и даже 2 случайных гола из 7, 8, 9 значат минимум 5,6,7 заслуженных голов. Учитывая, что сумма голов это сумма бернуллиевских величин, и она скошена в сторону нуля, около 23%, что это везение. Не самая значимая цифра, но сколько там залетело случайно, посчитать невозможно, да и надо ли. Доверительный интервал... а зачем еще его строить? Чтобы видеть, что почти все игроки незначимы. Замечание могло звучать следующим образом: у нас 95% доверительный интервал, тогда примерно 5% людей как раз и "выйдут за нулевую гипотезу". Но их вышло не 5%, а где-то 12-13%, так что мастерство все-таки разнится. Другое дело, что действительно мало данных.
2) Чтобы точнее всё оценить. На то, чтобы оценить вероятность в каждой точке, обычно получается несколько десятков степеней свобод - наблюдений, в самой гуще это несколько сотен, а трачу я 4 степени свободы. Я практически бесплатно пробежался по всему полю, и эти вероятности очень даже значимы.
Если били достаточно много, то игрок Б, возможно, более виртуозен, но возможно, что он, например, левша, этим я займусь, как-нибудь потом. Частично справедливо, но если игрок Б бьет с 30 метров или под дикими углами, а игрок А с 20 метров прямо перед дугой? Аффтар мог бы включить сюда ЛЧ, но, со скоростью схождения корень из н, еще 700-800 точек ничего не поменяют. Больше данных нет, я собрал 99% штрафных из Европы, раньше 2009 года тоже ничего нет.
3) Вытекает не из ЗБЧ, а ЦПТ, но это не важно. Важно, что я оперирую не 5-6 голами, а 40-80 ударами, которые конвертируются с вероятностью близкой к нулю, так что, пусть 40 и маловато для ЦПТ, это лучше, чем считать отдельно вероятность каждого исхода для этого не совсем биномиального распределения. Мне приятно, что вы напомнили про влияние 1 забитого/незабитого гола, но давайте чуть-чуть посчитаем. Васс забил на 11%*47 = 5.2 гола больше, чем ожидалось. Вычтем 1 незаслуженный гол. 4.2/47 =8.9%. Он откатился на третье место, что неудивительно, ведь два человека были почти на одном уровне с ним. А если шальных голов было два ? Вычтем еще 1: 3.2/47 = 6.8%. Пятое место – не третье, но все еще выше Месси. Вдруг он был невероятно везуч, вычтем еще один: 4.7% - 10 место, все еще выше Пирло и Роналду. Да, после четвертого гола он откатится в хвост. Все расчеты насмарку.
Насчет нудятины: ну значит это не для всех, беглым взглядом по тексту можно понять, что он будет довольно нудным, зачем себя мучить)
1. Такие цифры как 6 из 45 статистически вообще не значимы. Как и 7 голов, 8, 9. Эо клоунада. А уж высчитывать доверительный интервал
2. В чем смысл делить штрафные по сложности их исполнения? Цифр для каждого игрока и так немного. а их еще искусственно дробят делая еще менее значимыми. Да и где здравый смысл? Ну допусти игрок А бьет из позиции где забивают чаще, а игрок Б бьет с позиций где забивают реже. Забивают пусть одинаково и что? Типа игрок Б более виртуозный чем А? Бредятина. А что если игрок А забивает чаще игрока Б из позиции из которой забивают чаще, а игрок Б забивает чаще игрока А из позиций где забивают реже? По логике аффтора Б более виртуозен, а я не вижу в этом смысла. Лучше бы автор собрал побольше данных
3. Далее аффтор пишет о нормальном распределении. Омагад. Автор знает что это распредление вытекает из закона больших цифр, а он чем оперирует? Какими то 5-6 голами. Даже смешно напоминать что 1 забитый или незабитый гол (часто как удача) полностью меняет всю статистику и "лидер" откатывается в хвост этих графиков. А он доверительный интервал рисует.
Рассчитываю на продолжение)