Как xG захватывает мир футбольной статистики
Блог Hello подробно рассказывает об одном из самых важных и недооцененных статистических показателей.
Эгил Ольсен – бывший тренер сборной Норвегии и автор одной из первых xG-моделей
Что такое xG?
xG («expected goals») – это модель ожидаемых голов. В основе такой модели лежит показатель (как правило, удары по воротам – это не всегда удары по воротам, но на данном этапе будем отталкиваться от того, что они и есть наш показатель), который помогает заглянуть дальше счета на табло и оценить, сколько голов при прочих равных должна была забить команда с ударами такой остроты.
Каждому удару каждой команды присваивается коэффициент опасности (в каждой xG-модели он присваивается по-разному, с конкретными примерами разберемся позже). Коэффициенты суммируются – мы получаем что-то вроде альтернативного счета матча, основанного на качестве созданных каждой из команд моментов. Следует оговориться, что в качестве базового показателя не всегда выступают удары по воротам (иногда это удары в створ, в одной из последних моделей и вовсе передачи в «убойной зоне»).
Еще не заснули? Тогда вот вам любопытный факт/полезный пример. Автором первой относительно известной xG-модели можно считать Эгила Ольсена, тренера сборной Норвегии на ЧМ-1994 и ЧМ-1998 (кстати, интересные рассказы о других его статистических опытах есть тут и тут). «Я не в состоянии доверять победе со счетом 1:0, если мы нанесли всего один удар, который стал голевым, а соперник бил по воротам 10 раз. Точно так же я никогда не стану зацикливаться на поражении со счетом 0:1, если у моей команды было 10 ударов, а у соперника – 1. В плане измерения того, насколько хорошо или плохо сыграла команда, удары по воротам даже более важный показатель, чем сами голы», – высказался однажды он.
Ольсен признавал, что не все удары равны, поэтому однажды он решил разделить удары по воротам на 3 категории: «очень большая перспектива гола», «средняя перспектива гола» и «гол практически исключен». Вооружившись этой простой моделью, Ольсен провел немало исследований и пришел к неожиданному для себя выводу – переход от простого подсчета ударов к модели с 3 категориями не оказал практически никакого влияния на его исследования. Как правило, на дистанции количество ударов разных категорий уравновешивалось.
Конечно, система и ключевой вывод Ольсена были далеки от идеала по банальной причине субъективности модели, которую, откровенно говоря, смешно сравнивать с современными аналогами, учитывающими в каждом ударе десятки объективных факторов. Но этот пример отлично олицетворяет простоту принципов, которые лежат в основе xG-моделей. Каждый из вас при желании может пройти путем Ольсена – хотя, используя только субъективные показатели, вы не получите ничего, кроме систематизированной версии вашего восприятия моментов каждой из команд (что тоже может быть полезно).
И действительно, несмотря на модную аббревиатуру и многочисленные попытки записать xG в «advanced stats», одно из главных достоинств показателя в его простоте. Сразу понимаешь, что перед тобой сумма остроты всех созданных командой моментов. Точно так же даже интуитивно без труда можно прийти к выводу, что, если команда выступает лучше, чем должна, исходя из xG-модели, то она… выберите определение, которое вам ближе – в отличной форме/дико эффективна/слишком удачлива.
Кто уже пользуется xG?
Мэттью Бенхэм (слева на фото) использует модель для управления «Брентфордом» и «Мидтьюлландом»
Однажды владельца «Брентфорда» Мэттью Бенхэма спросили, как он оценивает шансы клуба на промоушн. За несколько туров до финиша команда шла на 3-й позиции в Лиге 1, но вместо стандартной фразы аля-«Верю, что поборемся!» с предельно серьезным выражением лица Бэнхэм ответил: «На данный момент наши шансы на выход в чемпионшип – 42,3%».
История Бенхэма (по крайне мере, та ее версия, которую он сам предпочитает рассказывать) очень интересна и даже вдохновляюща. Мэттью сколотил многомиллионное состояние, регулярно обыгрывая футбольных букмекеров. Разумеется, свою систему он не думает раскрывать, но известно, что он исходил из тезиса, что «голы – очень ненадежный показатель истинного уровня игры команды в конкретном матче». Как следствие, используя другие показатели можно выявить недооцененные (в том числе букмекерами) команды. Среди показателей, которые он использовал, ключевую роль играла его собственная основанная на ударах по воротам xG-модель.
Теперь Бенхэм владеет не только «Брентфордом» (уже добравшимся до чемпионшипа), но и «Мидтьюлландом» (который, благодаря его аналитическим методам, стал чемпионом Дании и выбил «Саутгемптон» из Лиги Европы). Он также управляет компаниями SmartOdds (контора, предоставляющая данные профессиональным игрокам на ставках) и MatchBook (букмекерская контора).
***
«После каждого матча мы анализируем количество созданных командой моментов и количество ожидаемых голов, которые мы должны были забить с моментами такого качества. На данный момент существует дефицит между качеством наших шансов и количеством забитых нами голов», – сказал на одной из пресс-конференций этого сезона Арсен Венгер.
Цитата послужила не только подтверждением того, на каком уровне уже используется показатель, но и того, насколько хорошим индикатором качества игры он может быть. Вывод из модели, которую использует «Арсенал», вполне совпадал с данными общедоступных xG-моделей. Как и следовало ожидать, исходя из xG-данных, результаты команды резко улучшились. После той самой пресс-конференции «канониры» выиграли 7 из следующих 8 матчей АПЛ (до – 1 из 3).
Разумеется, каждому такому случаю нужен контекст, и причина такого контраста не только в регрессии к среднему, но это далеко не первый случай за последние годы, когда xG-данные успешно предсказывают ренессанс команды (несколько примеров из прошлого сезона – победная серия «Ньюкасла» при Пардью в первой половине сезона, «Арсенал» и «Барселона» во второй части сезона).
***
В октябре этого года глава статистической компании 21st Club Омар Шадхури сообщил, что минимум один владелец клуба АПЛ на еженедельной основе изучает данные модели ожидаемых голов.
***
В недавнем интервью Дамьен Комолли рассказывал, как во время его работы в «Ливерпуле» принималось решение о потенциальной смене вратаря. Он не называет используемую методику xG-моделью, но описывает очень схожие принципы.
***
Люди из футбольного мира крайне неохотно делятся настолько глубокой информацией о своих методах. Практически уверен, что скоро мы узнаем о новых случаях применения xG-моделей, но и этих примеров должно быть достаточно, чтобы показать растущую значимость метода.
Что xG может показать?
Модели ожидаемых голов можно сравнить с моделями предсказание итогов выборов. Не существует 0,21 гола или голоса, но, присваивая им основанные на определенных факторах коэффициенты, можно получить массу дополнительной информации о выборах и футбольных матчах.
Модели ожидаемых голов никогда не станут инструментом предсказания отдельных матчей (просто-напросто потому что 20-40 ударов, которые наносятся за матч, никак не соответствуют нескольким миллионам голосов, и их недостаточно для полноценной регрессии к среднему), но они несут важную информацию о качестве моментов команды в матче, следовательно, и об общем качестве ее игры.
Футбол – спорт очень низкой результативности. Вместе со значимостью отдельных эпизодов (как правило, голов) неизбежно растет значимость удачи/фактора случайности. При прочих равных можно утверждать, что хорошая модель ожидаемых голов отражает качество игры команд намного лучше турнирной таблицы и меньше зависит от случайностей.
Как уже упоминалось ранее, существенные расхождения в xG-результатах и реальных результатах нередко сокращаются на более-менее продолжительной дистанции. У случаев, когда этого не происходит, могут быть разные причины, например: 1. тренер команды, которая показывала результаты, но плохо играла, не игнорировал слабое качество игры и внес изменения. 2. команда – интересный пример для изучения, а модель недооценивает какой-то из аспектов ее игры. 3. даже на дистанции всего сезона команды наносят около 600 ударов, что не так уж много для регрессии к среднему.
Подытоживая, хорошая xG-модель в правильных руках может служить: 1. индикатором удачи/неудачи команды в отдельном матче (разумеется, только при значительном расхождении с реальным результатом). 2. базисом для долгосрочных прогнозов (слово «базисом», а не самим прогнозом, тут ключевое и, разумеется, с любыми прогнозами нужно быть острожными, но, пожалуй, xG – лучшая из доступных для футбольных прогнозов альтернатив).
Какие xG есть в открытом доступе уже сейчас?
Модель Майкла Кэйли
Основана на: ударах по воротам
Краткое описание модели: каждому удару присваивается коэффициент от 0 до 1 в зависимости от типа удара (прямой со стандарта, головой после навеса, ногой после обводки вратаря и т.п.), позиции нанесения удара, типа паса, который привел к удару (вразрез, навес и т.п.) и позиции с которой он был отдан, типа атаки, приведшей к удару (контратака, позиционная, стандарт и т.п), типа момента перед ударом (обводка, удар в касание и т.д.), дистанции, которую бивший футболист пробежал с мячом, положения команды в матче (проигрывает, выигрывает, играет вничью).
Полное описание модели на английском
Мой комментарий: пожалуй, лучшая из общедоступных моделей ожидаемых голов. Хорошо продумана, значимость практически каждого из факторов основана на серьезных статистических исследованиях; также постоянно совершенствуется автором.
Пример xG-карты матча:
Как следить: твиттер автора, время от времени обновляемые страницы с данными по АПЛ и европейским лигам.
Модель tegen11
Основана на: ударах по воротам
Краткое описание модели: каждому удару присваивается коэффициент от 0 до 1 в зависимости от типа удара, позиции нанесения удара, места начала атаки, приведшей к удару, типа паса, который привел к удару, типа момента перед ударом, скорости атаки, положения команды в матче.
Полное описание модели на английском
Мой комментарий: альтернатива модели Кэйли. Тоже использует данные от Opta и учитывает практически всю возможную информацию об ударе.
Расхождения между двумя моделями не так уж велики. Например, tegen11 включает пенальти в модель с коэффициентом 0.76, Кэйли считает нецелесообразным сравнивать их с остальными эпизодами и просто отдельно помечает, что во встрече был пенальти, но не включает их в модель. Или: tegen11 учитывает скорости атаки, Кэйли отражает схожую информацию в типе атаки.
Пример xG-карты матча:
Как следить: твиттер автора.
Модель Пола Райли
Основана на: ударах в створ ворот
Краткое описание модели: каждому удару в створ присваивается коэффициент от 0 до 1 в зависимости от позиции нанесения удара.
Полное описание модели на английском
Мой комментарий: слишком упрощенная модель. Упомянул ее только из-за удобных и оперативно обновляемых таблиц (см. ниже) и архива данных за последние сезоны АПЛ.
Как следить: таблицы Tableau с удобными фильтрами.
Каковы основные недостатки xG?
Этот раздел будет скучным (прямо очень, даже скучнее того, что вы прочитали проскролили выше) с кучей технических моментов. Я не обижусь, если вы его пропустите. Для тех, кто пойдет этим путем, отмечу: xG вполне работоспособная и даже крутая вещь, а речь пойдет о мелких недостатках, среди них нет критических огрехов, которые перечеркнули бы изложенную выше пользу от моделей.
Разберемся в недостатках на примере модели Майкла Кэйли, которой я пользуюсь чаще, чем остальными.
1. Ситуации, которые не завершаются ударом
Нет удара – нет увеличения xG. Но отдельные эпизоды, которые не завершаются ударом, выглядят острее большинства ударов (особенно дальних, которые засчитываются, пускай и с небольшим коэффициентом). В идеале такие моменты хотелось бы отражать, но делать это объективно и автоматически на данном этапе невозможно. Недостаток некритический, так как едва ли в мире есть команды, умышленно не бьющие из выгодных позиций.
2. Дальние удары
Есть тот тип дальних ударов, которые наносят только в том случае, если игрок заметил серьезный изъян в позиции вратаря и верит в значительную вероятность гола. Например, xG-вероятность голов Чарли Адама, Микеля Сан Хосе и Алессандро Флоренци стремилась к 0, что логично исходя из позиции удара, но на деле она должна была быть выше, так как игроки в 99% случаев не бьют из таких позиций, если не видят ошибку в позиции вратаря.
3. Модели все равно, кто бьет
Разумеется каждый из нас предпочел бы видеть Лионеля Месси, а не Джонни Эванса, выходящего 1 на 1 с вратарем соперника в футболке любимой команды. И, пожалуй, наоборот Эванса, а не Месси, в ситуации с ударом головой в борьбе после углового. Модель на данный момент не в состоянии учесть разницу в мастерстве игроков завершать атаки.
Проблема не в последнюю очередь в том, что эдакий скилл завершения атаки в футболе практически невозможно измерить: 1. в футболе наносится слишком мало ударов для того, чтобы объективно оценить даже тех нападающих, которые бьют чаще остальных (например, часто бьющие хоккеисты наносят порядка 800 ударов за сезон, у часто бьющих футболистов уходит 5-6 лет на аналогичное количество ударов). 2. из-за такого малого количества ударов цифры реализации ударов сильно разнятся у одних и тех же игроков от сезона к сезону.
Можно привести массу отдельных вопиющих примеров, подчеркивающих значимость скилла завершения атаки у отдельных игроков, но два важных момента, позволяющих не считать недостаток критическим: 1. в последние годы поддерживать уровень реализации, который был бы стабильно выше показателя голов, которые они должны были забить, исходя из xG, удавалось только 2 игрокам (да-да, Месси и Роналду). 2. статистика показывает, что при сравнении большого количества игроков значимость этого фактора уменьшается:
4. Практически невозможно полностью учесть расположение защитников
xG-модели пытаются обойти этот момент. Например, учитывая скорость развития атаки, наличие явной индивидуальной ошибки защитника, обводки футболистом противника перед ударом и т.п. Но все это не одно и то же с реальным осознанием того, сколько давления со стороны оборонительной стороны оказывается на игрока в момент удара. К сожалению, в рамках показателей, которые считает Opta, пока нет объективного способа это отразить.
5. Слегка недооцениваются команды, которые умышленно медленно атакуют
Утверждение, что при прочих равных быстрые атаки опасней и с большей вероятностью могут завершиться голом, правдиво и подтверждается статистикой. Разумеется, проще атаковать соперника, чьи игроки еще не успели вернуться в оборонительную схему. Разумеется, в большинстве случаев затянувшееся владение мячом будет означать просто-напросто то, что команда ничего не может поделать с обороной противника.
Но в отдельных редких случаях (здравствуй, Луи) такие затянувшиеся владения – часть тренерского умысла (философии) и необязательно значат несостоятельность в атаке. Команды, играющие в такой футбол абсолютно в каждом матче, могут слегка недооцениваться системой. Слово «слегка» тут важно – тип атаки оказывает не такое уж большое влияние на итоговый коэффициент, удар из убойной позиции после очень медленной атаки получит очень высокий коэффициент (просто чуточку меньший, чем после быстрой атаки).
6. Трудности с ситуациями с несколькими ударами за одну атаку
Допустим, команда наносит 4 убойных удара за одну атаку. Сумма их xG-коэффициентов составляет, например – 1,44. Но мы же отлично понимаем, что даже теоретически команда не может забить больше 1 гола за одну атаку. Следовательно, засчитывать ей 1,44 в корне неверно. А что верно? Засчитать только самый опасный из 4 ударов (на данный момент применяется именно это решение)? Логично, но тоже не до конца верно так, как вероятность забить гол в атаке с 4 убойными ударами выше, чем вероятность забить одним, самым опасным, из этих ударов.
7. Автоголы, пенальти
На данный момент они просто-напросто не учитываются, а помечаются отдельной строкой.
Итого
xG-модели – полезнейший инструмент для глубокого и достаточно объективного анализа, а также неплохой для долгосрочных прогнозов. Более того, как показывает практика, система может быть полезна не только аутсайдерам футбольного мира (нам), но и самим клубам. Вполне возможно настанет день, когда владельцы будут широко ее применять для решений о тренерских отставках/назначениях, а сами тренеры – для выбора момента смены тактики. Что станет существенным шагом вперед от текущий ситуаций, в которой большинство решений принимаются на основе общественного мнения/давления и рэндомных факторов (конечно, при условии, что она будет не единственным ориентиром таких решений, а только одним из).
Если мне удалось заинтересовать вас, но у вас остались вопросы – велкам в комментарии. Если вы не согласны с ключевыми выводами по моделям – аналогично, буду рад обсудить с вами их критику.
Топовое фото: Global Look Press/Carmen Jaspersen/dpa
Успешно можно решить формулами условной вероятности.
Например, первый удар с вероятность 0,8, второй с вероятностью 0,4.
Получаем вероятность 0,8+0,4*0,2=0,88
Ноу криминалити как говорится
Справедливости ради, в баскетболе меньше игроков, в американском футболе больше статичных ситуаций. Это очень сильно упрощает процедуры анализа.
2) Вывод про регрессию к среднему очень точен, на мой взгляд. На бирже есть нечто похожее - так называемая скользящая средняя. То есть как бы цена не скакала, то она рано или поздно вернется к скользящей средней. За исключением, если наблюдается очень серьезный разрыв в цене (скачок или спад), что на футбольный язык можно перевести как "тренер начал работать над атакующим компонентом, и команда серьезно прибавила, установив для себя новую планку".
3) Добавил бы еще сайт deepxg.com, где много интересного анализа проводится на основе этой всей истории. Но ты и сам его знаешь, просто я удивился, что ты его не скинул.
4) На эту же тему есть такая личная история - почему в России пока малореально то, что происходит на Западе с точки зрения спортивной статистики. Хотел вот я взять на кафедре своего вуза тему, которая бы позволяла высчитывать ожидаемое количество угловых. Назначение этой модели в том, чтобы на дистанции обыгрывать букмекеров в ставках на угловые, поскольку те выставляют тотал на матч, исходя из того, сколько угловых эти команды подавали ранее. Но при этом не учитывается, что команда делает много кроссов, много лонгболлов и много бьет по воротам, например, и ожидаемое количество угловых от этого должно быть выше. Если эту модель развить, то можно буков на дистанции очень серьезно чесать. Но ни одного научрука мои аргументы о том, что это действительно полезная штука с практической точки зрения, не убедили и в выборе такой темы было отказано. Понятно, что отказ в помощи в разработке этой темы от хороших математиков не может служить отмазкой от неразработки формулы, но все-таки при их поддержке итоговый результат был бы достигнут быстрее. А в той же Англии и США даже в MIT и Оксфорде люди защищают выпускные работы на тему "13 новых позиций в баскетболе". Надеюсь, скоро и у нас состояние дел изменится.
5) Кстати, думаю, что скоро и для футбола будет придумана такая история, как в баскетболе, когда программа с помощью записанных алгоритмов оптимизирует позиции всех остальных 9 игроков на площадке, когда мяч находится у десятого в определенной точке. И в зависимости от движения владеющего меняется оптимальное расположение остальных. И если в футболе это будет реализовано, то для оценки xG это будет иметь решающее значение.
6) Вадим, а напомни еще, в чем суть той истории, когда ты вручную заносил явные голевые моменты? Ты, в отличие от этих ребят, считал разницу явных допущенных и явных созданных внутри конкретного матча (вместо забитых и пропущенных голов), и на основании этого распределял очки?
У Юве, например, наоборот. Одни из лучших показателей. Улучшится реализация, грубо говоря, вернуться отличные результаты.