9 мин.

О недостатках моделей xG

Сегодня я опять отступлю от основной темы данного блога и поговорю про футбольную аналитику в целом, а именно про недостатки моделей xG. Но в то же время этот текст будет тесно связан с предыдущим, в котором речь шла об игре "Спартака" с точки зрения моделей xG, и в качестве примеров я буду использовать эпизоды из игр "Спартака".

Мой интерес к данной теме не случаен. Я учусь в аспирантуре на экономиста (с уклоном в статистические методы), а в современной экономической науке модели используются повсеместно (нет, предсказание кризисов - это не наука, так что это не ко мне). И есть широко известная среди ученых-экономистов поговорка: "Любая модель хороша настолько, насколько хороши ее предположения". Вот о предположениях модели xG и пойдет речь.

Начну я с упрощенного описания модели. Предполагается, что голы в футбольном мачте забиваются случайно, а для определения качества игры лучше подходят созданные моменты, а точнее, удары по воротам. Каждому удару на основе статистической модели присваивается определенный вес (вероятность забить гол), и для играющих команд подсчитывается ожидаемое число забитых голов. При этом сами удары принимаются за данность и никак не моделируются.

Прежде, чем перейти к критике, скажу, что лично мне в целом очень нравятся модели xG, и я считаю, что они несут в себе массу интересной информации. В то же время у них, как и у любой другой статистической модели, есть определенные недостатки, и слепо им доверять не стоит.

Я выделил бы две группы недостатков.

"Технические"

Сюда я отношу недостатки, касающиеся мелких аспектов модели, в основном невключение в модель факторов, которые потенциально могут быть важны.

Например, в модели 11tegen11 не учитывается число защитников между бьющим игроком и воротами, поэтому не учитывается вероятность того, что удар будет заблокирован. Из-за этого модель может недооценивать игру в обороне команд, которые дают наносить много ударов, но хорошо их блокируют. Вот здесь, например, утверждается, что именно так зачастую действуют команды Тони Пьюлиса.

Сюда же относится вопрос о том, нужно ли (и если да, то как) учитывать мастерство бьющего. Понятно, что Лео Месси бьет по воротам лучше, чем Женя Макеев, а многие модели xG это не учитывают; в то же время в футболе размер выборки (число ударов, нанесенных конкретным игроком) не так велико, чтобы достоверно оценить мастерство и отделить его от удачи.

При всей важности этих моментов, это все же детали. Любую статистическую модель можно улучшить, если добавить в нее дополнительные переменные, но даже переход от самой лучшей xG модели к простой модели, присваивающей всем ударам одинаковый вес, ухудшает качество прогнозов всего на 20%:

Сравнение моделей

(Этот рисунок я приводил в прошлом посте, взят он отсюда)

Другими словами, технические детали на самом деле не так уж и важны, и вряд ли включение лишних переменных в существующие модели xG серьезно повысит их качество. Поэтому от обсуждения мелких деталей я перейду к более существенным вещам, а именно к обсуждению некоторых базовых предположений, на которых основаны модели xG.

"Фундаментальные"

Напомню, что важнейшим предположением моделей xG является то, что голы случайны, а вот удары по воротам принимаются за данность и считаются прямым отражением качества игры команды.

(Для знающих математическую статистику: модели xG подсчитывают вероятность забить гол условно на созданные моменты, но не подсчитывают вероятность создать момент, условно на качество игры.)

С этим предположением возникают две проблемы.

1. Если результат удара (гол или нет) случаен, то почему мы принимаем сам удар за данность? Здесь, в свою очередь, есть два аспекта. Во-первых, одинаково хорошие удары могут возникать из разных ситуаций, и далеко не всегда к удару по воротам из хорошей позиции приводит именно хорошая игра. Во-вторых, одинаково хорошая игра далеко не всегда приводит к одинаково хорошим ударам. Обратимся к примерам.

а) Удар - следствие удачи или мастерства?

Вот гол ЦСКА в ворота "Спартака" в 2013 году (с 25-й секунды):

Этот момент имеет очень высокий xG, так как удар наносится с хорошей позиции с по пустым воротам. В то же время к голевому моменту приводит не хорошая игра ЦСКА, а грубая ошибка Реброва после случайного выноса вперед.

Вот гол Промеса в ворота "Рубина" в этом сезоне:

ВИДЕО

Опять видим удар по воротам из хорошей позиции, то есть высокий xG. В то же время момент стал следствием неудачной игры защитника "Рубина", который поскользнулся и промахнулся мимо мяча в достаточно рядовом моменте.

А вот противоположный пример: первый гол Зе Луиша в ворота ЦСКА в этом сезоне, который стал результатом хорошей комбинации и отличного разрезающего паса Глушакова:

ВИДЕО

Вот еще один пример из той же серии. Модели xG дают одинаковый вес всем пенальти, независимо от того, в какой ситуации пенальти был назначен. Скажем, модель xG не видит разницы между ситуацией, когда нападающий выходит один на один в результате хорошей комбинации, а защитник его сбивает, и ситуацией, когда защитник слышит голос свыше: "Хенде хох!" - и поднимает руки, в которые прилетает мяч, в безобидной ситуации, как Боатенг на Евро.

Вроде бы разумно считать, что голы, возникающие в результате удачи или индивидуальных ошибок, не являются отражением хорошей игры атакующей команды, и вряд ли можно рассчитывать такие голы забивать регулярно. И хотя некоторые модели xG и учитывают то, был ли последний пас перед ударом умышленным или нет, они далеко не в полной мере отражают развитие атаки в целом.

б) Всегда ли хорошая игра приводит к удару?

Вот пас Попова на Промеса в матче с "Тереком" (смотреть с 2:30):

ВИДЕО

В результате этого паса удар по воротам нанесен не был, но если бы мяч летел чуть слабее, то вратарь мог бы к нему не успеть, и Промес выходил бы один на один. В итоге получаем, что xG момента равен нулю, хотя, будь "Спартак" чуть удачнее, получил бы высокий xG. И наоборот, будь пас Глушакова на Зе Луиша в мачте с ЦСКА чуть сильнее (видео выше), Акинфеев забрал бы мяч, удара по воротам не было бы, и xG был бы равен нулю.

А вот выход Комолова один на один из матча "Спартак" - "Амкар" (смотреть с 1:10):

ВИДЕО

Комолов замешкался и удар по воротам не нанес, хотя такую возможность имел. В результате xG момента опять равен нулю, хотя потенциально это атака на высокий xG.

Другими словами, ожидаемые голы не являются непрерывной функцией качества игры; в зависимости от того, нанесен удар по воротам или нет (что зачастую определяется удачей), команда либо получает высокий xG, либо нулевой.

Чтобы решить проблемы, перечисленные в этом пункте, желательно смотреть не на вероятность забить при определенном ударе, а на вероятность забить в результате определенной последовательности действий (например, последовательности передач). Такие попытки уже делаются, но пока они еще недостаточно проработаны и не внедрены в модели xG.

2. Модели xG предполагают, что игра команды (и нанесенные ей удары) не зависят от счета. В реальности же многие команды, забив гол и поведя в счете, начинают играть более осторожно. Это может привести к тому, что модель xG будет систематически недооценивать игру команды, которая ведет в счете.

Вот теоретический пример. Допустим, что команда А способна создавать момент весом в 0,33 xG каждые 10 минут. Если она будет так играть весь матч, то она создаст 9 таких моментов общим весом в 3 xG, что очень много. Но если она решит, что ей достаточно двух голов, забьет два гола к 30-й минуте в результате 3 ударов, то наберет всего 1 xG. В результате мы увидим, что команда А выиграла 2:0 (предполагаем, что соперник не атакует вообще), а счет по xG 1:0, т.е. команде А повезло. Но если бы она играла в свою силу весь матч, что счет по xG был бы 3:0, т.е. на деле она забила меньше, чем могла бы.

А вот реальный пример.

Спартак - ЦСКА xG

Если смотреть на xG, то "Спартак" уступил ЦСКА в матче этого сезона. В то же время мы видим, что при равном счете (0:0 до гола Глушакова) "Спартак" не позволил сопернику нанести ни одного удара по своим воротам. Два серьезных шанса ЦСКА создал при счете 0:1 и 0:2, когда в лучшем случае была возможность сравнять счет, но было физически невозможно выйти вперед.

Мы не знаем, как сложился бы матч, если бы Глушаков не забил. Возможно, ЦСКА все равно создал бы свои моменты, а может быть, что ЦСКА продолжил бы играть осторожно, на ничью 0:0. Точно так же мы не знаем, как развивалась бы игра, если бы ЦСКА сравнял счет в конце первого тайма.

Получается, что модели xG хорошо описывают, какие шансы были у команд в реальности (например, мы видим, что у ЦСКА был хороший шанс сравнять счет в конце первого тайма), но не могут ответить на вопрос, как протекал бы матч в "альтернативной реальности" (например, мы не можем утверждать, был бы у ЦСКА шанс выйти вперед в конце первого тайма, если бы "Спартак" до этого не забил).

Поэтому, если игра команд действительно меняется в зависимости от счета (а разумно предполагать, что часто это именно так, то модели xG применять надо очень осторожно, и симулировать гипотетические исходы матча не имеет большого смысла. Как исправить эту проблему, мне пока не совсем понятно: видимо, надо по аналогии с хоккеем делать поправки на счет, но вот конкретных предложений у меня нет.

Заключение

Я повторю еще раз то, что написал в начале текста: мне нравятся модели xG, они очень полезны, из них можно узнать много интересного. Цель этого текста - вовсе не в том, чтобы доказать, что модели xG плохие; напротив, на мой взгляд, модели xG - самое важное нововведение в футбольной аналитике за последнее время. Но, как и с любой другой моделью (экономической, статистической или какой-то еще), важно помнить, что модели xG делают определенные упрощающие предположения, и эти предположения далеко не всегда выполняются в реальности.

Поэтому, используя модели xG, важно помнить об их возможных недостатках и не доверять слепо их результатам. В частности, стоит смотреть не только на то, сколько xG создает или допускает команда, но и на то, как (за счет мастерства или удачи) и при каком счете это происходит.