Математическое доказательство уникальности серии Акинфеева
...но сначала перенесемся на 10 лет назад.
13 сентября 2006 года. «Порту» – ЦСКА
В том матче Андерсон покажет, за что его позже возьмет лучший тренер мира, но это не поможет португальцам забить Акинфееву – 0:0.
26 сентября 2006. ЦСКА – «Гамбург»
Дуду забьет после углового, затем Лаут умудрится схватить прямую красную через пять минут после выхода на замену. 1:0.
17 октября 2006. ЦСКА – «Арсенал»
В Черкизово канониры так и не смогут ответить на пушечный выстрел Карвальо (какая ирония), и при равной игре матч закочится со счетом 1:0.
1 ноября 2006. «Арсенал» – ЦСКА
...Фабрегас промахивается по пустым воротам, ван Перси не забивает с 6 метров, Анри не реализует выход один на один, Росицки мажет по пустым воротам С ПОЛУТОРА МЕТРОВ… постойте, как же Вагнер не забил, обыграв последнего защитника!?... ван Перси не достает до мяча в полуметре от пустого угла, ван Перси без помех бьет головой...
24 удара. 7 сэйвов. И нули на табло. На тот момент сухая серия Игоря Акинфеева в Лиге чемпионов составляла рекордные для российских вратарей 413 минут. До сих пор это достижение остается непревзойденным. И до сих пор Акинфеев не оставлял ворота сухими в ЛЧ.
Затем случится перечеркнувшее все геройства поражение от «Порту» в Москве, гениальный гол Жиркова «Гамбургу» и, как итог, вылет из Лиги чемпионов.
Перебьют ли когда-нибудь рекорд?
“Друзья, вы пытаетесь анализировать это с точки зрения цифр, но сейчас найти этому объяснение невозможно – это вне нашего понимания”
Нынче трудно найти человека, следящего за футболом и ничего не слышавшего о серии Акинфеева в Лиге чемпионов (давайте заранее условимся не включать в нее матчи квалификации). Помимо того, что она является неиссякаемым источником смешных шуток (нет), без всяких расчетов можно сказать, что эта серия – явление крайне нетривиальное.
К сожалению, сайт WhoScored.com начал обрабатывать матчи только с 2009 года, поэтому мы не сможем увидеть продвинутую статистику всех матчей Акинфеева в ЛЧ. Впрочем, в сезоне-2007/08 половину игр в группе отстоял Мандрыкин, а следующую осень ЦСКА провел в Кубке УЕФА. Таким образом, мы можем получить данные по 32 матчам серии из 37.
Так выглядит диаграмма пропущенных голов и допущенных xG (подробнее о том, что это такое, можно почитать здесь) по матчам:
Зная xG каждого удара, по формуле Бернулли можно посчитать вероятность не пропустить (подробнее здесь). Взглянем на график этой величины.
Сразу в семи матчах вероятность “сухаря” была близка к 50% - вероятность не пропустить хотя бы в одном из них будет больше 99 процентов.
Теперь оценим вероятность отстоять на ноль в 5 матчах, по которым у нас нет продвинутой статистики. Начиная с сезона-2009/10 Акинфеев пропустил 53 гола, не считая пенальти и автоголов, с 519 ударов. Получаем около 10% реализации. Из-за высокой неопределенности возьмем оценку выше вероятности забить с удара и будем считать ее равной 15% - тогда вероятность пропустить равна 1 – 0,85^N, где N – количество ударов в матче (его возьмем из официальных протоколов УЕФА).
Чтобы получить вероятность того, что серия, начавшись в ноябре 2006 года, продлилась 37 матчей, надо перемножить вероятности пропустить в этих играх: 0,858 * 0,988 * … * 0,961 = 0,000021 – то есть около двух стотысячных! Даже если обобщить условие, допустив, что серия могла начаться в любом из первых 10 матчей Акинфеева в ЛЧ и продлиться те же самые 37 игр, при грубом оценивании получится 10 * 0,000021 = 0,0002, то есть одна пятитысячная. К слову, перед началом прошлого сезона такой же коэффициент предлагали букмекеры на чемпионство «Лестера» в АПЛ.
Вероятность того, что серия дойдет до конкретного матча и прервется на нем. Внимание, масштаб по оси Y логарифмический, не линейный!
Вечен ли рекорд? Вероятно, да. Для того, чтобы побить его, во-первых, нужно играть в не самой сильной по меркам ЛЧ команде, при этом регулярно принимающей участие в турнире, а во-вторых, быть достаточно стабильным в течение нескольких сезонов для основного состава. Напомним, что предыдущий рекорд, установленный Роналдом Ватерресом, составляет 16 матчей.
Допустим, следующие 25 лет формат Лиги чемпионов будет неизменен. Вратари, имеющие хотя бы теоретическую возможность побить рекорд, проводят порядка 8 игр в ЛЧ за сезон. Значит, чтобы превзойти его, голкиперу нужно играть примерно 5 лет. В один сезон играют чуть больше 32 вратарей, из них около половины играет в турнире нерегулярно. Следовательно, каждые 5 лет около 20 вратарей будут иметь шансы отыграть достаточное число матчей. За 25 лет имеем порядка 100 киперов, отыгравших больше 37 матчей. Вероятность того, что у кого-то из них будет сухая серия, возьмем у Акинфеева – причем это будет завышенной оценкой, так как на одного вратаря из середняка будет приходиться вратарь из клуба-фаворита. Итак, 100 * 0,0002 = 2% - грубая прикидка сверху вероятности побить рекордную серию Акинфеева кем-либо в следующие 25 лет.
Кого обвинять в пропущенных мячах?
Длинная серия без сухих матчей сама по себе не поможет нам ответить на этот вопрос, потому как если бы Акинфеев непременно пропускал бы ровно мяч за игру, это можно было бы считать хорошим результатом (в реальности ЦСКА пропускает по 2 за игру). Нам интересна игра на ленточке, поэтому не будем рассматривать качество выходов из ворот и игру ногами. Из-за специфичности исключим из выборки пенальти.
Сравним игру Акинфеева с игрой некоторых вратарей, сыгравших в ЛЧ достаточное количество матчей с 2009 года. Для равенства условий будем рассматривать игры только группового раунда и 1/8 финала (матчи Акинфеева против «Интера» оставим). Методика схожа с примененной в этом материале. Оговоримся, что по каждому вратарю данные брались минимум за 3 сезона, то есть рассматривается средний уровень игры за довольно продолжительное время.
(Внимательного читателя наверняка заинтересует вопрос: почему у всех вратарей соотношение nPxG/nPG меньше единицы, ведь по крайней мере у лучших киперов это значение должно быть в районе 1,2-1,3 на дистанции. Проблема заключается в особенности любой xG-модели: она обрывается на моменте удара, когда достоверно неизвестно, пришелся этот удар в створ или нет.
Соответственно, если для оценки игры нападающего, ассистента или защитников она годится практически полностью – полетел мяч в створ или нет во многом зависит от случая, – то в случае вратаря, знание о том, что удар пришелся в створ несколько меняет картину, повышая вероятность гола. Если A – гол, B – удар в створ, то в теории возможно посчитать новое значение xG_for_goalkeeper: P(A|B) = P(A&B)/P(B) – формула условной вероятности. Вероятность A при условии B (гола при знании, что удар пришелся в створ, то есть, по сути, xG_for_goalkeeper) равна вероятности одновременности события A и B (то есть xG, получаемого обычным образом, поскольку удар мимо створа не может стать голом) разделить на вероятность B (того, что удар придется в створ). Проблема заключается в том, чтобы однозначно посчитать знаменатель – для этого необходима оценка огромной выборки ударов разных типов, провести которую пока не представляется возможной.
Предположение, что раз все вратари имеют коэффициент надежности меньше единицы, значит они играют плохо, отметаются, но оценить их как-то надо. Поэтому оценка проводится грубо в сравнении со средним показателем (среднее по всем вратарям из выборки) – если выше, то вратарь играет лучше ожидаемого, если ниже, то хуже – комментарий мой, Никита Васюхин)
Games – число сыгранных матчей
Shots – всего нанесенных ударов в створ (как было сказано, пенальти отбрасываются). Заметим, что такой удар может закончится либо голом, либо сэйвом – третьего на дано.
Sv – суммарное количество сэйвов
nPG (not penalty goals) – всего пропущенных голов
nPxG (not penalty expected goals) – всего допущенных xG с ударов в створ
xG – всего допущенных xG в том числе с ударов мимо створа
xG/90 – среднее число допущенных xG за 90 минут (иначе говоря, за матч. То малое число игр, в которых какой-либо вратарь отыграл не целый матч, было отброшено). Является характериситкой уровня всей обороны. Вратарь имеет слабое влияние на эту величину.
Sv/90 – среднее число сэйвов за 90 минут
Sv% = Sv / Shots * 100% - процент отраженных ударов. Сравнивать Sv% разных вратарей не имеет смысла, если не смотреть на среднюю сложность удара.
nPxG / nPG – ключевая характеристика игры вратаря на линии ворот. Показывает, с какого числа xG, нанесенных в створ, вратарь в среднем пропускает один гол. Голкиперы в таблице отсортированы именно по этой величине.
nPxG / Shots – средняя сложность удара в створ. Обратите внимание, что параметр зависит не от вратаря, а всей обороны в целом, причем величина не отражает уровень защиты, а только указывает на среднее качество наносимых ударов.
По воротам Акинфеева наносится приличное число ударов, что приводит к тому, что у него наибольшее число сэйвов за матч среди рассматриваемого множества вратарей. Отметим низкое суммарное количество ударов по воротам Малафеева, из чего следует с большей осторожностью относится к его цифрам.
Самый высокий процент сэйвов у Петера Чеха, но это во многом связано с тем, что удары по его воротам в среднем имеют меньший вес, чем у других киперов. По основному показателю xG на гол без учета пенальти с большим отрывом впереди Нойер. Неожиданно следом за ним идет вратарь «Олимпиакоса» в 2014-16 годах Роберто. Достаточно низко оказался Буффон, имеющий хороший процент сэйвов, но невысокую сложность ударов.
Качество игры вратаря по оси X, качество игры обороны по оси Y, сэйвы за матч (иначе, загруженность вратаря) как размер кружка. Пунктир показывает средние значения для взятой выборки голкиперов. Для вратарей, игравших за разные клубы (помечены фиолетовым цветом), показатель xG/90 нужно интерпретировать с осторожностью.
Из графика, показывающего качество вратаря и защиты, видно, насколько космически хорош Нойер. Положение Буффона в верхнем левом углу наводит на мысль о том, что он переоценен из-за очень качественной линии обороны «Ювентуса». Акинфеев, как и вся защита армейцев, не слишком впечатляет. Следовательно, их можно примерно в равной степени обвинять в пропущенных мячах.
И что же это все означает?
Несмотря на то, что кроме Акинфеева никто в Лиге чемпионов и близко не пропускал столько раз подряд, не стоит заострять внимание на самой серии, так как она во-первых, не отражает уровень голкипера и во-вторых, не определяет напрямую результат команды. Если имеется возможность для более глубокого анализа игры вратарей, стоит обращать внимание на продвинутую статистику. И вот она уже говорит нам, что Акинфеев не слишком хорош по сравнению с другими видными европейскими голкиперами, но, конечно, не настолько, чтобы пропускать вот уже 37 матчей подряд.
Подписывайтесь на паблик Блокнот со статистикой, тактикой и другими плюшками.
Соавторы: Андрей Кривоногов и Никита Васюхин.
Фото: Gettyimages.ru/Phil Cole; Global Look Press/imago sportfotodienst
Спасибо автору!
Прекрасно. Интегрально вы попадаете практически "в яблочко". Проблема в дисперсии - какова вероятность, что в одном матче xG сильно отклонится от результата и от вероятности? Как эта ошибка будет накапливаться после анализа, основанного на хG?
Показателен пример со "справедливой" таблицей - там ошибка накопилась так, что таблица, основанная на xG стала удаляться от реальной таблицы.
Любые вероятностные исследования нужно проводить аккуратно. У вас же ещё накладывается субъективный фактор при определении xG каждого момента (хоть вы и пытаетесь как-то регламентировать его определение). В общем-то вы замахнулись на довольно мощный математический аппарат, но в вычислениях его у вас нет
P.S. Не хотел никого обидеть. Никите написали про титанический труд. Вот я и подумал про отсмотр всех матчей. Обработка статистики WhoScored тоже классно. Спасибо!
Нет же. Автор продолжает сметать все логические стены между оценочным xG и реальной вероятностью. Есть модель, есть реальность. Хоть бы попытался написать "вероятность, согласно модели"...
А так да, для оценки порядка вероятности такой серии сойдёт. 10^-5 это сильно
А с утверждением в посте всё нормально и никакие понятия автор не подменяет, это просто вы немного недоразобрались с тервером.
Это как бы уже доказано, что система Мартингейла в рулетке не работает на дистанции, так что автор тут подменяет понятия и считать так неправильно.
Хорошая попытка, но нет. Серия - это настоящее явление в спорте. Кому бы он был интересен без нее? Люди массово смотрят матчи ЦСКА, чтобы стать свидетелями того, как на их глазах вершится История. А ты, автор, хочешь обесценить величие момента?
А может... ты и есть Акинфеев, спрятавшийся под этим невзрачным ником?
Бтв, Мартингейл ирл не работает из-за верхнего и нижнего лимита суммы ставки в казино, теоретически ему ничто не мешает работать.
Дальше я постараюсь понятнее изложить свои "но". Если вам интересно.
Это не научная статья, определения терминов, строгая модель - всё это не обязательно. Однако, при отсутствии всего этого, могут возникать неточности, которые в дальнейшем накапливаются и вместе с неточной терминологией дают почву неверным интерпретациям.
Рассмотрим, например xG, в какой-то момент подразумевается, что xG это почти вероятность забить, а потому будем далее проводить вычисления с xG, т.к. реальной вероятности у нас нет, а xG есть. И действительно, почему нет? Ведь усреднение xG очень хорошо соответствует забитым голам, что, естественно, равно "усреднению" вероятностей. Таким образом, если мы хотим точно определить какой-нибудь параметр, то вычисляем его величину через xG - после усреднения получим реальную величину... Так?
Но нет, не так. Допустим у нас есть параметр Y, он является функцией Y(p) от вероятности забить. При этом усреднение (по чему угодно) P равно усреднению xG - будем обозначать усреднение M. Т.е. M(P)=M(xG)... Верно ли, что M(Y(p))=Y(M(p))=Y(M(xG))=M(Y(xG))? Нет, конечно. Например для Y(x)=1/x. Другими словами, если перейти к языку статьи "параметр Y, вычисленный с помощью xG, не равен реальному значению параметра Y, зависящего от реальных вероятностей P". Даже несмотря на то, что xG довольно точно совпадает с вероятностью при усреднении.
Вот тут-то и настало время вспомнить о дисперсии и реальном распределении xG(P). Вы, видимо, хотели сказать, что у нас такого распределения нет, т.к. в каждом конкретном случае мы не знаем P. Конечно, это усложняет вашу задачу. Но и просто опускать этот момент, заменяя P на xG, вообще говоря, неверно.
До этого момента я воспринимал xG(P) как некую однозначно определённую функцию. На самом деле всё ещё хуже. P для каждого удара это всего лишь вероятность забития гола. Ударов с одинаковым P может быть очень много. xG у всех может быть разным. Т.е. у нас уже xG(P, w), где w - "вид" удара. Далее, каждый удар индивидуален - как определяется, какой xG у конкретного удара? Либо мы по формальным признакам делим все удары на категории, что вносит ошибку, т.к. не различаются удары из одной категории, либо каждый удар обрабатывает человек, что вносит ошибку его субъективного восприятия (именно это имелось в виду, когда я говорил о субъективности xG).
Таким образом, у нас есть некая модель, в которой вероятность P оценивается через xG. Однако ошибки определения xG и функцию его распределения мы тоже не учитываем. После чего мы проводим вычисления, на основании которых вычисляем некие параметры.
Правда ли, что эти параметры Y(xG) равны реальным параметрам Y? Нет. Более того, Y - это реальное значение параметра в конкретном случае. Y величина вероятностная. Можно постараться вычислить распределение Y, в зависимости от вероятностей P. Насколько я понимаю, в терминах статьи это будет ожидаемое значение Y(P). Напомню, что M(Y(p)) вообще говоря не равно M(Y(xG)). Т.е. в терминах нашей статьи ожидаемое значение Y не обязано равняться значению Y, вычисленному исходя из xG.
Всё это в полной мере относится к таблице по ожидаемым очкам. Просто даже аппелирование в самых общих терминах затруднено в виду отсутствия точных определений, модели и, собственно, доказательств. Ещё раз, это не критика, просто я хочу, чтобы меня правильно поняли... и оценили эту длиннющую простыню )))
Ну и, конечно же, самый тонкий момент всех прикладных статей это трактовка полученных данных. Она должна быть безупречной. Даже на sports’е недавно вышел поп-материал про это. В общем и целом, вывод о везении Спартака и Ниццы было бы неплохо серьёзно обосновать. Но это так, придирки. Основной вопрос, конечно, к полученным данным, вычислению возможных погрешностей этих данных.
P.S. Всё же не стоило писать про голословность. Наше обсуждение почти не формализовано, и, надеюсь, я смог донести суть тех рассуждений, которые побудили меня написать мои первые сообщения. При более формализованном описании ваших вычислений (например, при наличии математической модели), и мои замечания носили бы более формализованный характер (или бы их не было, т.к. любое упорядочивание рассуждений очень хорошо помогает вам самим находить в них неточности)