Математическое доказательство уникальности серии Акинфеева
...но сначала перенесемся на 10 лет назад.
13 сентября 2006 года. «Порту» – ЦСКА
В том матче Андерсон покажет, за что его позже возьмет лучший тренер мира, но это не поможет португальцам забить Акинфееву – 0:0.
26 сентября 2006. ЦСКА – «Гамбург»
Дуду забьет после углового, затем Лаут умудрится схватить прямую красную через пять минут после выхода на замену. 1:0.
17 октября 2006. ЦСКА – «Арсенал»
В Черкизово канониры так и не смогут ответить на пушечный выстрел Карвальо (какая ирония), и при равной игре матч закочится со счетом 1:0.
1 ноября 2006. «Арсенал» – ЦСКА
...Фабрегас промахивается по пустым воротам, ван Перси не забивает с 6 метров, Анри не реализует выход один на один, Росицки мажет по пустым воротам С ПОЛУТОРА МЕТРОВ… постойте, как же Вагнер не забил, обыграв последнего защитника!?... ван Перси не достает до мяча в полуметре от пустого угла, ван Перси без помех бьет головой...
24 удара. 7 сэйвов. И нули на табло. На тот момент сухая серия Игоря Акинфеева в Лиге чемпионов составляла рекордные для российских вратарей 413 минут. До сих пор это достижение остается непревзойденным. И до сих пор Акинфеев не оставлял ворота сухими в ЛЧ.
Затем случится перечеркнувшее все геройства поражение от «Порту» в Москве, гениальный гол Жиркова «Гамбургу» и, как итог, вылет из Лиги чемпионов.
Перебьют ли когда-нибудь рекорд?
“Друзья, вы пытаетесь анализировать это с точки зрения цифр, но сейчас найти этому объяснение невозможно – это вне нашего понимания”
Нынче трудно найти человека, следящего за футболом и ничего не слышавшего о серии Акинфеева в Лиге чемпионов (давайте заранее условимся не включать в нее матчи квалификации). Помимо того, что она является неиссякаемым источником смешных шуток (нет), без всяких расчетов можно сказать, что эта серия – явление крайне нетривиальное.
К сожалению, сайт WhoScored.com начал обрабатывать матчи только с 2009 года, поэтому мы не сможем увидеть продвинутую статистику всех матчей Акинфеева в ЛЧ. Впрочем, в сезоне-2007/08 половину игр в группе отстоял Мандрыкин, а следующую осень ЦСКА провел в Кубке УЕФА. Таким образом, мы можем получить данные по 32 матчам серии из 37.
Так выглядит диаграмма пропущенных голов и допущенных xG (подробнее о том, что это такое, можно почитать здесь) по матчам:
Зная xG каждого удара, по формуле Бернулли можно посчитать вероятность не пропустить (подробнее здесь). Взглянем на график этой величины.
Сразу в семи матчах вероятность “сухаря” была близка к 50% - вероятность не пропустить хотя бы в одном из них будет больше 99 процентов.
Теперь оценим вероятность отстоять на ноль в 5 матчах, по которым у нас нет продвинутой статистики. Начиная с сезона-2009/10 Акинфеев пропустил 53 гола, не считая пенальти и автоголов, с 519 ударов. Получаем около 10% реализации. Из-за высокой неопределенности возьмем оценку выше вероятности забить с удара и будем считать ее равной 15% - тогда вероятность пропустить равна 1 – 0,85^N, где N – количество ударов в матче (его возьмем из официальных протоколов УЕФА).
Чтобы получить вероятность того, что серия, начавшись в ноябре 2006 года, продлилась 37 матчей, надо перемножить вероятности пропустить в этих играх: 0,858 * 0,988 * … * 0,961 = 0,000021 – то есть около двух стотысячных! Даже если обобщить условие, допустив, что серия могла начаться в любом из первых 10 матчей Акинфеева в ЛЧ и продлиться те же самые 37 игр, при грубом оценивании получится 10 * 0,000021 = 0,0002, то есть одна пятитысячная. К слову, перед началом прошлого сезона такой же коэффициент предлагали букмекеры на чемпионство «Лестера» в АПЛ.
Вероятность того, что серия дойдет до конкретного матча и прервется на нем. Внимание, масштаб по оси Y логарифмический, не линейный!
Вечен ли рекорд? Вероятно, да. Для того, чтобы побить его, во-первых, нужно играть в не самой сильной по меркам ЛЧ команде, при этом регулярно принимающей участие в турнире, а во-вторых, быть достаточно стабильным в течение нескольких сезонов для основного состава. Напомним, что предыдущий рекорд, установленный Роналдом Ватерресом, составляет 16 матчей.
Допустим, следующие 25 лет формат Лиги чемпионов будет неизменен. Вратари, имеющие хотя бы теоретическую возможность побить рекорд, проводят порядка 8 игр в ЛЧ за сезон. Значит, чтобы превзойти его, голкиперу нужно играть примерно 5 лет. В один сезон играют чуть больше 32 вратарей, из них около половины играет в турнире нерегулярно. Следовательно, каждые 5 лет около 20 вратарей будут иметь шансы отыграть достаточное число матчей. За 25 лет имеем порядка 100 киперов, отыгравших больше 37 матчей. Вероятность того, что у кого-то из них будет сухая серия, возьмем у Акинфеева – причем это будет завышенной оценкой, так как на одного вратаря из середняка будет приходиться вратарь из клуба-фаворита. Итак, 100 * 0,0002 = 2% - грубая прикидка сверху вероятности побить рекордную серию Акинфеева кем-либо в следующие 25 лет.
Кого обвинять в пропущенных мячах?
Длинная серия без сухих матчей сама по себе не поможет нам ответить на этот вопрос, потому как если бы Акинфеев непременно пропускал бы ровно мяч за игру, это можно было бы считать хорошим результатом (в реальности ЦСКА пропускает по 2 за игру). Нам интересна игра на ленточке, поэтому не будем рассматривать качество выходов из ворот и игру ногами. Из-за специфичности исключим из выборки пенальти.
Сравним игру Акинфеева с игрой некоторых вратарей, сыгравших в ЛЧ достаточное количество матчей с 2009 года. Для равенства условий будем рассматривать игры только группового раунда и 1/8 финала (матчи Акинфеева против «Интера» оставим). Методика схожа с примененной в этом материале. Оговоримся, что по каждому вратарю данные брались минимум за 3 сезона, то есть рассматривается средний уровень игры за довольно продолжительное время.
(Внимательного читателя наверняка заинтересует вопрос: почему у всех вратарей соотношение nPxG/nPG меньше единицы, ведь по крайней мере у лучших киперов это значение должно быть в районе 1,2-1,3 на дистанции. Проблема заключается в особенности любой xG-модели: она обрывается на моменте удара, когда достоверно неизвестно, пришелся этот удар в створ или нет.
Соответственно, если для оценки игры нападающего, ассистента или защитников она годится практически полностью – полетел мяч в створ или нет во многом зависит от случая, – то в случае вратаря, знание о том, что удар пришелся в створ несколько меняет картину, повышая вероятность гола. Если A – гол, B – удар в створ, то в теории возможно посчитать новое значение xG_for_goalkeeper: P(A|B) = P(A&B)/P(B) – формула условной вероятности. Вероятность A при условии B (гола при знании, что удар пришелся в створ, то есть, по сути, xG_for_goalkeeper) равна вероятности одновременности события A и B (то есть xG, получаемого обычным образом, поскольку удар мимо створа не может стать голом) разделить на вероятность B (того, что удар придется в створ). Проблема заключается в том, чтобы однозначно посчитать знаменатель – для этого необходима оценка огромной выборки ударов разных типов, провести которую пока не представляется возможной.
Предположение, что раз все вратари имеют коэффициент надежности меньше единицы, значит они играют плохо, отметаются, но оценить их как-то надо. Поэтому оценка проводится грубо в сравнении со средним показателем (среднее по всем вратарям из выборки) – если выше, то вратарь играет лучше ожидаемого, если ниже, то хуже – комментарий мой, Никита Васюхин)
Games – число сыгранных матчей
Shots – всего нанесенных ударов в створ (как было сказано, пенальти отбрасываются). Заметим, что такой удар может закончится либо голом, либо сэйвом – третьего на дано.
Sv – суммарное количество сэйвов
nPG (not penalty goals) – всего пропущенных голов
nPxG (not penalty expected goals) – всего допущенных xG с ударов в створ
xG – всего допущенных xG в том числе с ударов мимо створа
xG/90 – среднее число допущенных xG за 90 минут (иначе говоря, за матч. То малое число игр, в которых какой-либо вратарь отыграл не целый матч, было отброшено). Является характериситкой уровня всей обороны. Вратарь имеет слабое влияние на эту величину.
Sv/90 – среднее число сэйвов за 90 минут
Sv% = Sv / Shots * 100% - процент отраженных ударов. Сравнивать Sv% разных вратарей не имеет смысла, если не смотреть на среднюю сложность удара.
nPxG / nPG – ключевая характеристика игры вратаря на линии ворот. Показывает, с какого числа xG, нанесенных в створ, вратарь в среднем пропускает один гол. Голкиперы в таблице отсортированы именно по этой величине.
nPxG / Shots – средняя сложность удара в створ. Обратите внимание, что параметр зависит не от вратаря, а всей обороны в целом, причем величина не отражает уровень защиты, а только указывает на среднее качество наносимых ударов.
По воротам Акинфеева наносится приличное число ударов, что приводит к тому, что у него наибольшее число сэйвов за матч среди рассматриваемого множества вратарей. Отметим низкое суммарное количество ударов по воротам Малафеева, из чего следует с большей осторожностью относится к его цифрам.
Самый высокий процент сэйвов у Петера Чеха, но это во многом связано с тем, что удары по его воротам в среднем имеют меньший вес, чем у других киперов. По основному показателю xG на гол без учета пенальти с большим отрывом впереди Нойер. Неожиданно следом за ним идет вратарь «Олимпиакоса» в 2014-16 годах Роберто. Достаточно низко оказался Буффон, имеющий хороший процент сэйвов, но невысокую сложность ударов.
Качество игры вратаря по оси X, качество игры обороны по оси Y, сэйвы за матч (иначе, загруженность вратаря) как размер кружка. Пунктир показывает средние значения для взятой выборки голкиперов. Для вратарей, игравших за разные клубы (помечены фиолетовым цветом), показатель xG/90 нужно интерпретировать с осторожностью.
Из графика, показывающего качество вратаря и защиты, видно, насколько космически хорош Нойер. Положение Буффона в верхнем левом углу наводит на мысль о том, что он переоценен из-за очень качественной линии обороны «Ювентуса». Акинфеев, как и вся защита армейцев, не слишком впечатляет. Следовательно, их можно примерно в равной степени обвинять в пропущенных мячах.
И что же это все означает?
Несмотря на то, что кроме Акинфеева никто в Лиге чемпионов и близко не пропускал столько раз подряд, не стоит заострять внимание на самой серии, так как она во-первых, не отражает уровень голкипера и во-вторых, не определяет напрямую результат команды. Если имеется возможность для более глубокого анализа игры вратарей, стоит обращать внимание на продвинутую статистику. И вот она уже говорит нам, что Акинфеев не слишком хорош по сравнению с другими видными европейскими голкиперами, но, конечно, не настолько, чтобы пропускать вот уже 37 матчей подряд.
Подписывайтесь на паблик Блокнот со статистикой, тактикой и другими плюшками.
Соавторы: Андрей Кривоногов и Никита Васюхин.
Фото: Gettyimages.ru/Phil Cole; Global Look Press/imago sportfotodienst
Спасибо автору!
Прекрасно. Интегрально вы попадаете практически "в яблочко". Проблема в дисперсии - какова вероятность, что в одном матче xG сильно отклонится от результата и от вероятности? Как эта ошибка будет накапливаться после анализа, основанного на хG?
Показателен пример со "справедливой" таблицей - там ошибка накопилась так, что таблица, основанная на xG стала удаляться от реальной таблицы.
Любые вероятностные исследования нужно проводить аккуратно. У вас же ещё накладывается субъективный фактор при определении xG каждого момента (хоть вы и пытаетесь как-то регламентировать его определение). В общем-то вы замахнулись на довольно мощный математический аппарат, но в вычислениях его у вас нет
P.S. Не хотел никого обидеть. Никите написали про титанический труд. Вот я и подумал про отсмотр всех матчей. Обработка статистики WhoScored тоже классно. Спасибо!
Нет же. Автор продолжает сметать все логические стены между оценочным xG и реальной вероятностью. Есть модель, есть реальность. Хоть бы попытался написать "вероятность, согласно модели"...
А так да, для оценки порядка вероятности такой серии сойдёт. 10^-5 это сильно
А с утверждением в посте всё нормально и никакие понятия автор не подменяет, это просто вы немного недоразобрались с тервером.