3 мин.

Что нужно знать о разных подходах и моделях xG

Модель ожидаемых голов идет в массы, даже не пишущие о тактике журналисты используют эти цифры. При этом у подавляющего большинства нет пониманию специфики разных подходов при расчете ожидаемых голов. Важно понимать какие существуют подходы, я бы выделил 3 категории.

1. Традиционные модели по Кейли (в том числе Теген). Расчет удара по статичной формуле где учитывается с какой передачи был нанесен удар, с какой точки, какой частью тела и другое. Все, критикуя модель ожидаемых голов, критикуют в основном этот подход, главные аргументы – не учитывается давление на бьющего, соперники между мячом и створом ворот, положение вратаря. При этом нельзя сказать, что давление не учитывается вообще, в формуле есть учет маркера «явный голевой момент» (удар в пустые ворота, выход 1 на 1 с ударом и другое) и учет дриблинга перед ударом (можно расценить как индикатор оказывающегося давления на бьющего). Но в целом, критика справедливая.

2. Еще один подход – нейросети. Нейросеть обучают на большом количестве ударов, ситуаций и голов, она сама корректирует и расставляет коэффициенты (основываясь на реальных событиях), чем больше выборка на обучение, тем точнее модель. Без сомнения, самый перспективный и прогрессивный подход, но есть нюансы. Модель будет плохо работать в скоротечных турнирах с малым количеством матчей, самый яркий пример – турниры сборных, особенно чемпионат мира. Причины просты, турниры сборных слишком специфичны, а чтобы адаптировать нейросеть под специфику не хватает выборки обучения, модели катастрофически не хватает матчей. Мы видим, как много голов забивается на ЧМ с пенальти, других стандартов и автоголов. Не последнюю роль здесь играет система видеоповторов, и в целом переменная судейства.

Известно, что в своих расчетах нейросети применяют в understat, это одна из причин почему вы никогда не найдете у них данные по скоротечным турнирам – еврокубки, турниры сборных, всякие полутоварищеские турниры.

3. Третий подход – смешанный подход по Кейли с информацией, собирающейся вручную. В этих моделях операторы вручную оценивают давление на бьющего по шкале (Stratabet оценивает по шкале от 1 до 5), вручную считают количество игроков между мячом и створом ворот (но автоматический трекинг расположения игроков не за горами), также учитываются опасные ситуации, не закончившиеся голом, например, обводки в опасных зонах. Этот подход более комплексный и интуитивно более верный, но…

При этом важно знать, на большой дистанции модель на данных Stratabet работает хуже, чем традиционные модели. Во-первых, потому что субъективная оценка ситуации, это всегда слабое место. Во-вторых, количество игроков между мячом и створом это больше про стиль обороны, чем про ее качество (то есть необходимы корректировки на команды типа Бернли). И тем не менее, подход выглядит перспективным, компания Opta со следующего сезона вводит аналогичные субъективные оценки давления на бьющего (но по другой шкале). Уже в ближайшем будущем Statsbomb будет оценивать моменты через расположение и движение всех игроков – своих, соперника и вратаря. Движение и расположение вратаря, это на мой взгляд прорыв индустрии, ранее никак не учитывались удары в противоход и ошибки расположения вратаря, что конечно является значимой темой при оценке некоторых эпизодов.

Еще пара важных моментов:

- Также зачастую критики говорят, что модели не учитывают фактор бьющего, то есть у условного Икарди, Харри Кейна и т.п. вероятность забить значительно больше чем у других игроков в этих же моментах. На самом деле в формулах Кейли (а также understat и tegen) есть переменная финишинга, то есть делается поправка о которой говорят критики.

- все аналитики и математики, занимающиеся темой ожидаемых голов, постоянно находятся в поиске, смотрят и сравнивают подсчеты других моделей, анализируют почему цифры отличаются, и кто ближе к истине. Индустрия быстро развивается, рабочие успешные идеи распространяются. По мере этих процессов многие аргументы критиков теряют актуальность.

Подведем небольшой итог. Наверное, будет правильно не просто описать нюансы, но и дать им нашу скромную оценку. Мы всегда придерживаемся простого консервативного подхода, при любом анализе, чем выше комплексность оценки, тем лучше. То есть надо смотреть и использовать все подходы, отвергать один полагаясь на другой, просто не разумно. НО, при этом важно понимать откуда и почему между цифрами появляются различия.

По ссылке для сравнения графики по подходам 1(Кейли, Теген) и 3 (Stratabet) по недавнему матчу Германии и Мексики. Можно самостоятельно оценить разницу в оценке ударов и итоговые цифры. Больше деталей чемпионата мира в ВК и телеграмм. Спасибо за внимание!