Ожидания = реальность? Как работает продвинутая статистика
Каждый из нас рано или поздно задается вопросом: «Как понять, что значат все эти ожидаемые голы, передачи, угрозы?» В этом посте вы узнаете, как именно работает современная статистика, не сходя с ума от горы формул и расчетов, совершенно необязательных для понимания сути.
Самое важное, что вам стоит знать при погружении в математические дебри - цифры не дают гарантий. Например, в финале Лиги Чемпионов 2022 Ливерпуль играл с Мадридским Реалом и на бумаге(сделаем вид, что вы не знаете, как закончилась та игра) Ливерпуль был сильнее, что подтверждалось теми самыми цифрами:
На картинке можно заметить преимущество номинальных(финал игрался в Париже) хозяев по XG в 4 раза в относительных значениях и в 2.17 гола в абсолютных. Что предполагает как минимум победу красных с вероятностью около 80%, как максимум - разгром. Но чуть выше горит итоговый счет, бескомпромиссный и равнодушный к описанным шансам, вероятностям и прочему шуму.
То, что случилось в Париже, можно назвать геройством, невезением или историей, но в нашем вопросе - это вероятностная аномалия. Ее существование связано с одной очень важной уязвимостью: модели ожиданий строятся на средних значениях, то есть оценка шансов(удара стать голом, команды - победить) производится так же, как при игре между двумя «середняками»(Например, в АПЛ 24/25 - Брентфордом и Манчестер Юнайтед).
Некоторые важные факторы практически невозможно запрограммировать так же, как и объяснить. И как можно догадаться, чем сильнее игроки, тем выше вероятность опередить ожидания, то есть обмануть математические расчеты, а чем меньше выборка, тем менее точными будут данные для анализа вероятностей. Мадридцы выиграли матч благодаря 2 ключевым событиям: великолепной игре вратаря Тибо Куртуа, совершившего 9 спасений и ставшего лучшим игроком встречи, а также отличной контратаке, позволившей бразильцу Винисиусу Жуниору забить победный гол.
В контексте одного матча все еще более-менее понятно, ведь всякое бывает, но что касается недели, месяца, сезона: хоть тут цифры будут давать ответы? Не отходя далеко от Англии и неудачников предыдущей истории, возьмем в качестве примера таблицу АПЛ сезона 19/20, ставшего для Ливерпуля праздником - первым за 30 лет чемпионством:
Заглянув в последний столбец, мы обнаружим ожидаемые очки - хитросплетение кучи более простых показателей, но в максимально емком и понятном формате - и удивимся. Важно знать, что на уровне сезона разброс между ожидаемыми очками(xPTS) и реальными в пределах нормы составляет +- 7 показателей, такой случай можно наблюдать с Манчестер Сити, набравшими 81 из 86(-5) прогнозируемых очков.
Но как объяснить, что Ливерпуль, который с 74 очками должен был серьезно отстать от Сити, забрав лишь серебряные медали, на деле набрал 99(+25)? Это на 33% больше ожиданий и наводит на серьезные вопросы к актуальности всех этих вычислений. Везение, характер, чудо, случайность? Стечение обстоятельств. Так зачем же вообще нужна статистика, если ни в одном матче, ни в одном сезоне она не может сказать, кто победит? Попробуем взглянуть масштабнее.
Из 20 клубов всего 7 имеют больше 7.00 в отклонении между ожиданиями и реальностью, значит для 13 статистика оказалась вполне верна. За 10 сезонов, в которым собиралась эта статистика, процент команд, сыгравших в пределах нормы ожиданий, сильно колеблется, но в конечном счете высматривается тенденция в 66% соответствия. Почти 2/3, что математика предскажет результат вашей команды - звучит неплохо и подтверждается и в других лигах: 63,5% в Ла Лиге, 65,5% - в Серии А.
И что же выходит?
Статистика, как и ничто другое, не может гарантировать результат, но она способна с немалой вероятностью предсказать его, определить и оценить качество игры и, в конце концов, хоть немного приблизить нас к пониманию того, что такое футбол с точки зрения шансов. А это на данный момент все, что человечество может предложить для прогнозирования будущего, футбол - лишь пример применения. Статистику нужно развивать, но не стоит возлагать все надежды. In xG we trust.