26 мин.

Метрика VAEP - эффективный способ оценки действий футболистов на основе машинного обучения и основной конкурент xT

Впервые метрика VAEP была представлена в работе “Действия на поле говорят значительно больше чем голы: оценка действий игроков в футболе”, которая победила в номинации – лучшая работа по прикладным решениям в области data science на международной конференции по анализу данных KDD 2019. В разработке метрики принимали участие сотрудники компании scisports и сотрудники Левенского университета.

На sports.ru я нашел только пару упоминаний о данной метрике и то как-то вскользь: в одной статье говорилось, что эта метрика поможет наконец-то определить кто лучше – Месси или Роналдо (130 слов, больше похоже на новостную заметку с провокационным названием), в другой Кирилл Серых рассказал, что данная метрика обсуждалась на выставке Statsbomb Innovation в 2019 г и дал общее вводное определение и ряд технических деталей.

Несмотря на то, что данная метрика не на слуху у широкой аудитории в данный момент, футбольные аналитики уделяют ей большое внимание и рассматривают ее как довольно эффективный способ оценивания действий футболистов на поле. Мне стало интересно познакомиться с данной метрикой чуть ближе и заодно осветить ее основные особенности в отдельной статье, которая получилось довольно объемной, поэтому, если вы за сегодня уже переработали большое количество контента или просто не готовы погружаться в технические детали, то смело можете переходить к пункту - Демонстрация работы VAEP.

Here we go.

Как известно, большинство стандартных подходов для оценки действий футболистов сталкиваются со следующими ограничениями:

  • Существующие подходы зачастую игнорируют действия, кроме голевых пасов, ударов по воротам и непосредственно голов

  • Существующие подходы склонны присваивать фиксированное значение каждому действию, безотносительно обстоятельств в которых данное действие было совершено (например, метрики, считающие количество передач, одинаково оценивают пасы между защитниками на своей половине в отсутствии прессинга и между нападающими, находящимися под плотной опекой защитников противника)

  • Большинство подходов оценивает мгновенный эффект от действия и не могут оценивать эффект, который будет достигнут через некоторый промежуток времени в будущем

Данные ограничения не позволяют проводить качественную объективную оценку эффективности всех действий футболистов на футбольном поле. Решить эту проблему может метрика VAEP (Valuing Actions by Estimating Probabilities), которая оценивает каждое действие футболиста с мячом на поле, вычисляя то, как изменились вероятности забить и пропустить гол, в результате совершенного действия. В качестве примера: оценка действия +0.05 означает, что в результате совершения действия вероятность забить гол увеличилась на 0.05 и наоборот, оценка -0.05 означает, что совершенное действие увеличивает шансы противоположной команды забить гол на 0.05.

Авторы VAEP помимо самой формулы, по которой вычисляется данная метрика, разработали и предложили футбольному сообществу новый формат описания действий на футбольном поле SPADL (Soccer Player Action Description Language), который, возможно, станет унифицированным стандартом в индустрии футбольной аналитики.

SPADL – язык для описания действий футболистов

В одной из предыдущих работ о пространственных метриках я уже описывал типы данных, которые применяются в футбольной аналитике. Как вы наверняка помните, все существующие футбольные метрики в основном базируются на двух типах данных – данные о событиях и трекинговые данные. Ввиду ограниченной доступности последних, более широкое применение все еще получают аналитические инструменты на основе данных о событиях.

Метрика VAEP работает с данными о событиях, которые доступны почти для всех профессиональных футбольных клубов и значительно дешевле трекинговых данных в данный момент, но несмотря на это, метрика VAEP может быть использована в будущем и для трекинговых данных с незначительными модификациями. Работа с данными о событиях, предоставляемых поставщиками данных (Opta, Wyscout, Statsbomb), сопровождается некоторыми сложностями для футбольных data scintist-ов, которые строят модели на основе машинного обучения, для оценки различных игровых показателей и метрик. Данные трудности заключаются в следующем:

  • основное назначение данных – предоставление информации компаниям, транслирующим футбольные матчи, медиа и непосредственно клубам, это означает, что данные не всегда представлены в удобной форме для аналитиков, т.е. некоторая важная информация может быть упущена (в качестве примера приводится тот факт, что Wyscout не предоставляет точные координаты точки, в которую попал мяч после удара – актуально на момент написания работы по VAEP)

  • некоторая информация может быть не совсем значима для анализа и может наоборот только зашумлять данные, увеличивая сложность дополнительных шагов по их предобработке (например, тот же Wyscout определяет такое событие как Duel (которое включает подгруппы событий: борьба за мяч, обводка, подкат) между двумя игроками как два отдельных события, вместо одного, тогда как более правильно с точки зрения последовательности действий с мячом фиксировать только одного участника – того, кто выиграл эпизод)

  • Каждый поставщик данных имеет свою уникальную терминологию для описания действий на поле, что заставляет писать различные модели для анализа действий футболистов в зависимости от поставщиков данных.

  • Почти все поставщики данных предлагают дополнительные подкатегории событий, например, Opta предоставляет несколько типов фолов. Также существующие способы описания событий постоянно модифицируются и со временим появляются новые способы определять события (новые подкатегории). Данное разнообразие информации делает очень сложным возможность использовать такие источники данных а автоматизированных аналитических инструментах.

  • Требование обусловленное спецификой построения моделей машинного обучения: большинство алгоритмов требуют использования векторов признаков фиксированной длины и не могут эффективно работать с векторами переменной длины. Вектор признаков в первом приближении - это набор действий футболистов, которые фиксируются поставщиками данных и далее подаются на вход модели (признаки = действия игроков), т.е. если вы построили модель машинного обучения, которая рассчитывает рейтинг футболиста на основе набора данных, в котором есть только один тип действий, описывающих фол, а завтра поставщик данных добавить еще несколько дополнительных способов описания фола, то построенная ранее модель будет уже иначе рассчитывать итоговую оценку или же вовсе не будет работать (в зависимости от архитектуры и способов реализации). Следовательно, сейчас разработчикам приходится писать сложные этапы предобработки данных для получения признаков, которые используются для обучения моделей.

Перечисленные сложности привели к тому, что появилась необходимость создания единого стандарта представления данных о событиях для удобной работы. Авторы метрики VAEP создали framework (набор программных библиотек) на языке python, который позволяет легко преобразовывать сырые данные от поставщиков в единый формат – SPADL.

Предложенная авторами концепция описывает всю игру как последовательность действий с мячом, каждое действие футболиста представляется набором 9 атрибутов (признаков или полей), представленных ниже.

Для описания типов действий выделили 21 уникальный тип.

Далее перейдем непосредственно к самой метрике.

Описание метрики VAEP

Метрика VAEP основывается на предположении, что любое действие футболиста на поле так или иначе выполняется с намерением либо увеличить шансы забить гол, либо понизить шансы пропустить гол в свои ворота. Данная метрика реализуется путем построения модели машинного обучения, которая рассчитывает изменение этих вероятностей после каждого действия.

Для каждого действия изменения вероятностей забить или пропустить гол рассматриваются отдельно, т.к. эффект от одного и того же действия может быть ассиметричным по своей природе в зависимости от контекста игры (т.е. если вероятность забить гол после какого-то действия увеличилась на 0.2, то это не значит, что вероятность пропустить гол в свои ворота в результате действия уменьшилась также на 0.2).

Весь матч разбивается на эпизоды (состояния игры). Каждое состояние игры представляется в виде набора действий (текущее действие и два предыдущих = 3 действия). Для каждого состояния игры для обеих команд можно рассчитать вероятность того, что гол будет забит или пропущен в течение следующих действий (по умолчанию = 10 действий, но для расчета можно изменять этот параметр и подбирать иные значения).

Далее отдельно оценивается изменение вероятности забить гол командой, владеющей мячом, в результате конкретного действия. Данное изменение вычисляется как разность между вероятностью забить гол в текущем состоянии игры и вероятность забить гол в предыдущем состоянии игры. Полученная вероятность обозначается как атакующая оценка действия и будет положительной, если действие увеличивает вероятность того, что владеющая команда забьет гол.

Также отдельно оценивается изменение вероятности пропустить гол командой, владеющей мячом, в результате конкретного действия. Данное изменение вычисляется как разность между вероятность пропустить гол в текущем состоянии игры и аналогичной вероятность в предыдущее состояние игры. Полученная вероятность обозначается как оборонительная оценка действия и будет отрицательной, если действие игрока снижает вероятность пропустить гол.

В итоге VAEP для каждого конкретного действия определяется как сумма атакующего и оборонительно действий. Ниже приводится формулы, которые отражают все то, что было описано словами ранее.

Таким образом, модель, которая считает VAEP, оценивает текущее действие футболиста, рассматривая совершенное действие и два предыдущих действия, которые определяют контекст (состояние) игры, и рассчитывает вероятность забить и пропустить гол в течение следующих 10 действий. Далее модель оценивает то, как изменились вероятности забить и пропустить гол относительно предыдущего действия (которые было рассмотрено аналогично) и складывает эти изменения, в результате чего получается финальная оценка.

Применение машинного обучения

Реализация метрики VAEP включает в себя два основных этапа. Первый этап - этап подготовки данных и обучения моделей на тренировочной выборке из исторических данных. Данный этап нужен для того, чтобы получить обученную модель на основе алгоритмов машинного обучения, которую далее уже можно использовать для получения оценок VAEP на тестовой выборке из исторических данных. Реализация данного процесса происходит следующим образом:

  • собираются сырые данных о событиях от одного из поставщиков (Opta, Wyscout, Statsbomb), в данной работе рассматривалась история с сезона 2012-2013 по сезон 2017-2018 для высших дивизионов чемпионатов Англии, Германии, Испании, Италии, Франции, Голландии и Бельгии.

  • Далее эти данные преобразуются в SPADL формат с помощью framework-а, который реализовали авторы работы. Полученные данные представляют собой таблицу, состоящую из строк, каждая строка которой соответствует определенному действию, а колонки - характеристикам, описывающие данное действие.

  • Далее проводится разметка данных, которая заключается в том, что для каждой строки мы создаем еще две колонки с целевыми метками. Первая метка = 1, если в течение следующих 10 действий был забит гол, 0 - если не был забит, вторая метка = 1, если в течение следующих 10 действий был пропущен гол, 0 - если гол не был пропущен.

  • Следом идет процесс генерации дополнительных признаков, которые идут в дополнение к 9 SPADL признакам. Это очень важный момент, потому что от того, какие признаки будут использованы для обучения модели зависит итоговая способность модели делать хорошие предсказания и обобщения на новых данных. Для построения VAEP метрики используются признаки, которые учитывают расстояние до ворот и соответствующий угол для начальной и конечной точки, описывающей данное действие, а также расстояние между двумя этими точками и время, за которое действие было совершено. Последние признаки помогают оценить текущий темп игры. Также в модель в качестве признаков добавляется информация о текущем количестве забитых и пропущенных голов командами в момент совершения действия, т.к. мы знаем, что команды могут адаптировать свой стиль игры в зависимости от текущего счета.

  • Далее проводится разбивка всей выборки данных на тренировочную, на которой будет обучаться модель, и тестовую, на которой модель будет тестироваться и делать свои предсказания. В рассматриваемой работе авторы оставили для тренировки сезоны с 2012-2013 по 2016-2017, а тестировали модель и делали расчеты VAEP уже для сезона 2018-2019.

  • Финальным аккордом является процесс обучения моделей. Одна модель строится для предсказания вероятности забить гол, вторая - для предсказания вероятности пропустить гол. Сам процесс обучения заключается в том, что модели показываются совершенные футболистами действия (описанные набором признаков) и соответствующие целевые метки, в которых отражается то, что гол был забит или не был забит (описанные ранее 1 и 0), в результате чего, если показать очень много примеров различных последовательностей действий с различными исходами, модель сможет научится довольно точно определять вероятность того, что в результате той или иной последовательности из трех действий, в течение следующих десяти действий будет забит гол. (для второй модели - что будет пропущен гол)

Вторым этап является процесс тестирования модели и расчет метрики VAEP на основе вероятностей, которые предсказывает обученная модель на новых данных, которые она не видела в процессе обучения. В нашем случае это - сезон 2017-2018 для перечисленных ранее лиг.

Я прекрасно понимаю, что большинству читателей могут быть не особо интересны приведенные выше детали, относительно процесса машинного обучения, но я считаю важным привести верхнеуровневое описание данного процесса и изложить основные этапы, чтобы показать, что за довольно популярными словосочетаниями типа "искусственный интеллект" или "машинное обучение" нет никакой магии и это довольно понятная последовательность операций, которая позволяет решать в том числе такие задачи - как расчет метрики, оценивающей действия игроков на футбольном поле. Так или иначе с данными словосочетаниями придется сталкиваться в ближайшее время все чаще, как в индустрии спорта так и в повседневной жизни, поэтому, когда в следующий раз вы услышите о новой метрике, в которой применяется машинное обучение, вы будете иметь общее представление (надеюсь), что там под капотом и как это принципиально работает.

Демонстрация работы VAEP

В качестве основного примера предлагается рассмотреть концовку матча между Реалом и Барселоной в декабре 2017 года, для которой приводится оценка 6 действий по метрике VAEP, после которых был забит последний гол в матче.

  • Атака начинается с паса Бускетса на правый фланг. В момент, когда Месси получает мяч вероятность забить гол 0.03 – это вероятность забить гол после паса Бускетса, мы видим, что модель оценивает действие Бускетса как нейтральное (т.е. атакующая оценка действия = 0), это значит, что в момент, когда Бускетс получал мяч от другого игрока (предыдущий пас, не указан в примере), вероятность гола также равнялась 0.03. Т.е. пас Бускетса никак не повлиял на вероятность забить гол.

  • Следующий пас от Месси назад на Бускетса завершается с вероятностью забить гол 0.02. Т.е. Месси своим действием снизил вероятность гола и модель дает атакующую оценку данному действию –0.01 (минус).

  • Далее Бускетс снова делает пас на открывающегося Месси, в результате паса вероятность гола равна 0.03, следовательно прирост вероятности забить гол и атакующая ценность данного действия равны +0.01.

  • Следующее действие - Месси обыгрывает защитника, тем самым увеличивает вероятность гола до 0.08, следовательно ценность действия +0.05

  • Следующее действие Месси, который отдает передачу назад на границу штрафной в свободную зону под удар набегающему Видалю, демонстрирует его гениальность. В результате данного действия вероятность гола увеличилась до 0.17, а Месси получил атакующую оценку действия +0.09. Данный пример демонстрирует эффективность разработанного решения, т.к. действие Месси было награждено достаточно высокой положительной оценкой, несмотря на то, что мяч был отправлен назад относительно линии ворот соперника. Мы видим, как чистый data-driven подход позволил оценить данный вид действия как довольно хорошее решение в существующих обстоятельствах (в текущем контексте игры). Авторы подчеркивают, что насколько им известно на момент написания статьи не существовало метрики на основе данных о событиях, которая дала бы положительную оценку данному действую Месси (это обусловлено тем, что альтернативные метрики склонны оценивать любой пас в направление, противоположном воротам соперника, как нейтральное действие или в большинстве случаев - отрицательное)

  • Последнее действие – удар Алеша Видаля в створ, в результате чего был забит гол. Т.е. в результате удара вероятность гола равна 1, следовательно модель оценила действие Видаля как +0.83. Если бы Видаль промахнулся, то модель бы оценила его действие как -0.17.

 

Стоит отметить, что в данной демонстрации рассматривается изменение вероятности забить гол и приводится только атакующая оценка действия (в реальной модели, когда считается полный VAEP , – каждому действию добавляется оценка оборонительного действия, т.е. вероятность того, что команда пропустит гол после каждой передачи). В данной атаке для каждого действия вероятность пропустить гол довольно мала, поэтому этой составляющей пренебрегают, чтобы не перегружать пример информацией.

Ниже приведен пример полноценного расчета метрики VAEP на примере одного действия Дзюбы (dribble - ведение мяча) в матче чемпионата Европы 2016 года против Англичан. Можно наблюдать, что перед этим действием Дзюба получил пас от Кокорина, столбец scores отражает, как изменилась вероятность забить гол после действия Дзюбы, столбец concedes - как изменилась вероятность пропустить гол. Столбец offensive value - атакующая оценка действия - разница двух последних вероятностей забить гол - вероятность возросла на 0.03 (3%), столбец defensive value - оценка оборонительного действия - разница двух последних вероятностей пропустить гол со знаком минус (т.е. вероятность возросла на 0.0015 (~ 0.2%), для того чтобы получить итоговое значение VAEP мы должны вычесть из вероятности забить гол - вероятность пропустить, поэтому добавляется знак минус). Последний столбец - итоговое значение метрики VAEP.

 

Рейтинг игроков на основе VAEP

На основе оценки действий с помощью VAEP можно сформировать рейтинг игроков, сложив все оценки за рассматриваемый период времени и разделив на соответствующее количество сыгранных минут. Полученную оценку далее нужно умножить на 90 минут - в результате получится средняя VAEP за матч.

Ниже приведены 3 таблицы, в которых составлены рейтинги футболистов для АПЛ сезона 2017-2018 по базовым метрикам – количество голов за матч, количество ассистов за матч и количество голов + ассистов за матч. Для каждой из метрик приведены 10 лучших футболистов. Также в таблицах представлены соответствующие рейтинги по метрике VAEP (номер футболиста в рейтинге) и трансферная стоимость по окончанию сезона.

По полученным результатам можно сделать вывод, что в каждом топе футболистов по базовым метрикам присутствуют игроки из TOP-10 рейтинга по метрике VAEP (4-5 игроков, выделены зеленым цветом) и в том числе присутствуют футболисты, для которых рейтинг VAEP выходит далеко за пределы десятки, например, Жезус с 204 местом в VAEP рейтинге входит в TOP-10 по голам за матч и по системе гол + пас за матч, Мхитарян, ставший лучшим по голевым за матч - в рейтинге VAEP только на 114 месте и Чарли Остин, попавший на 8 место по количеству голов за матч (выходивший в основном на замену и забивший 7 мячей в том сезоне) был поставлен в рейтинге VAEP только на 117 место.

В таблице ниже приводится рейтинг TOP-10 футболистов по метрике VAEP. Можно выделить 3 звезд АПЛ, которые не попали ни в один из предыдущих рейтингов, но получили высокую оценку по метрике VAEP – Азар, Марез и Сон Хын Мин. Также стоит обратить внимание на 3 футболистов, которые оказались только в одном из рейтингов с базовыми метриками, но получили высокие оценки по показателю VAEP - Де Брюйне, Марсьяль и Погба. Качественно оценить эффективность метрики VAEP можно в том числе сравнив результирующую суммарную трансферную стоимость базовых рейтингов с рейтингом составленным по метрике VAEP, который на 17% выше, чем рейтинг по метрике гол + пас, являющийся самым объемным в деньгах из базовых рейтингов.

Выявление молодых талантов с помощью VAEP

С помощью метрики VAEP был составлен рейтинг молодых футболистов (были оценены игроки с датой рождения после 1 января 1997, сыгравшие в течение сезона не менее 900 мин). Идея была в том, чтобы сравнить VAEP метрику для лучших молодых игроков из топ европейских дивизионов, в которых игроки находятся в сильной конкуренции, и зачастую не имеют много игрового времени, и ту же метрику для лучших молодых игроков из лиг с более низким рейтингом. В качестве топ лиг были рассмотрены АПЛ и Ла Лига. В качестве лиг второго эшелона – чемпионаты Франции, Бельгии, Голландии. Полученные результаты приведены в таблицах ниже.

Маркус Рэшфорд, чей потенциальный трансфер в Реал Мадрид оценивался в 110 М евро в январе 2019 г и Усман Дембеле, перешедший в Барселону в августе 2017 за 120 М евро, были отмечены авторами как наиболее заметные игроки данного рейтинга. Но здесь нельзя не отметить ТАА, который получил 2ое место в рейтинге наиболее перспективных игроков по окончанию сезона 2017-2018, в котором его статистика в традиционных метриках была не особо впечатляющей (всего 2 очка по системе гол + пас при 19 играх и 1577 игровых минутах), но все мы знаем, какой прогресс он показал в следующие 2 года (13 и 17 очков по системе гол + пасс), став важной фигурой в Ливерпуле Клопа и внеся значительный вклад в победы в Лиге Чемпионов (2019) и Чемпионате Англии (2020).

Также стоит отметить, что Джонджо Кенни, попавший на 4 место в данном рейтинге, имеет значительно более низкую оценку трансферной стоимости, относительно других игроков приведенного рейтинга. Здесь можно выделить две причины, первое - Джонджо Кенни игрок с явно оборонительными функциями (правый защитник), которые обычно оцениваются клубами и фанатами несколько ниже чем атакующие игроки (здесь складывается двоякое ощущение,  с одной стороны в словах автора есть правда, с другой – 2 строчками выше находится ТТА, играющий номинально на той же позиции и получающий высокие оценки как от профессионалов, так и от любителей футбола).

Второе – Джонджо играет за клуб из середины турнирной таблицы, в составе которых обычно не так много игроков топ-уровня, что в том числе влияет на возможности проявлять себя в игре. В любом случае, рейтинг на основе VAEP для него значительно выше, чем его место в рейтинге на основе трансферной стоимости.

Давид Нерес, ставший самым дорогим трансфером голландского чемпионата летом 2017 года, когда Аякс приобрел его ща 15 М евро, занял 1ое место в рейтинге молодых футболистов во второй группе лиг. По окончанию сезона 2017-2018 он был одной из ключевых трансферных целей грандов АПЛ (Арсенал, Челси и Ливерпуль участвовали в переговорах по этому трансферу). У Давида действительно получился хороший сезон в 2017-2018, когда он отыграл 32 матча и по системе гол плюс пас набрал 25 очков (14 + 11), следующий сезон оказался чуть менее успешным, но дальше начались травмы. В итоге в прошлом сезоне только 12 игр и 7 очков в активе (6 + 1).

Мэйсон Маунт в сезоне 17-18 отправился в аренду в голландский Витесс, в котором забил 9 мячей и стал лучшим игроком года в Витессе по версии болельщиков. Далее была еще одна годичная аренда в Дерби и 37 игр за сезон 2019-2020 в футболке Челси. Как сложится дальнейшая судьба с приходом Тухеля, увидим в текущем сезоне.

Килиан Мбаппе стал лучшим молодым футболистом чемпионата мира 2018 забив гол в финальном матче против Хорватов, в то время как и Малком (2018) и Френки де Йонг (2019) с разницей в один год оказались в стане сине-гранатовых. Да, все мы знаем, что у Малкома в Барселоне не задалось и на данном этапе своей карьеры он оказался в нашем чемпионате, но на конец 2018 года он подавал большие надежды и после 12 + 7 очков по системе гол + пас в Бордо получил свой шанс в Барселоне.

Приведенные таблицы демонстрируют, как разработанная метрика VAEP может служить эффективным инструментом для скаутинга талантливых игроков. Разработанный авторами программный инструмент позволяет генерировать аналогичные рейтинги почти для любых профессиональных и полупрофессиональных чемпионатов по всему миру, информация по которым собираются ведущими поставщиками футбольных данных.

Определение игровых стилей футболистов с помощью VAEP

Помимо общей оценки эффективности игрока метрика VAEP может давать более детальную характеристику, в которой будет отражаться стиль игрока, что является немаловажным для скаутинга при подборе футболиста под какую-то определенную игровую моделью. В настоящее время скаутам приходится самостоятельно просматривать большое количество материалов для оценки некоторых характерных игровых особенностей футболистов в поисках подходящих трансферов и зачастую не хватает времени посмотреть и оценить все варианты. Разработанная метрика может быть перенастроена под оценку только определенных типов действий (или комбинаций типов), что позволит выделить из всего многообразия игроков с наивысшим рейтингом только тех, у которых преобладают интересующие параметры, чтобы сузить диапазон для последующего визуального анализа материалов по выбранным игрокам.

Ниже приведены конкретные примеры, в одном из которых предлагается сравнение ряда игровых характеристик по метрике VAEP для Дембеле и Коутиньо, которые были приобретены Барселоной после ухода Неймара на его позицию.

По метрике VAEP для пасов можно наблюдать, что и Коутиньо и Дембеле превосходят Неймара. В то же время с точки зрения ведения мяча (dribble), Неймар оказывается на 1ом месте. С точки зрения футбольного стиля, приведенный анализ говорит о том, что оба игрока и Дембеле и Коутиньо являются приемлемыми кандидатами на замену Неймару, принимая во внимание, что в футбольном мире непросто найти полноценную замену Неймару, чтобы полностью закрыть его функционал (по факту, как мы знаем, полностью заменить Неймара все же так и не удалось).

На другом примере сравниваются характеристик Роналду с соответствующими параметрами для Рэшфорда и Азара, которые рассматривались в качестве потенциальной замены Рону в 2018. Видно, что по количеству ударов за 90 минут по метрике VAEP Роналду превосходит Азара и Рэшфорда вместе взятых, при этом мы помним, что в случае промахов VAEP штрафует игрока, отнимая у него балы, т.е. в данном случае показатель VAEP для ударов характеризует не только количество ударов за матч, но и их качество.

По приведенному сравнению видно, что Азар превосходит Рэшфорда по всем рассмотренным параметрам, оцениваемым по метрике VAEP, однако с точки зрения стиля игры Рэшфорд ближе к Роналду по показателям VAEP по пасам и VAEP по ведению мяча на дриблинге. Авторы делают вывод, что с точки зрения долгосрочной перспективы 21 летний (на 2018 г) Рэшфорд подходит лучше в качестве замены Роналду, чем 28 летний Азар, но с точки зрения мгновенного укрепления команды более предпочтительный выбор – Азар (конечно, мало кто из нас сегодня назовет трансфер Азара успешным, но из Челси после последнего сезона он уходил с топовой статистикой, набрав 16 + 15 по системе гол + пас).

Оценка игроков по балансу между количеством и качеством действий с помощью VAEP

Между количеством и качеством действий в футболе существует противоречие – чем больше игрок совершает действий, тем труднее сохранять высокий уровень качества совершаемых действий. На графиках ниже по вертикальной оси (ось y) приводится среднее количество действий, совершенных игроками за 90 мин (количество), а по горизонтальной оси (ось x) – средние оценки данных действий по метрике VAEP (качество). Общий рейтинг футболиста получается путем перемножения среднего количества действий на соответствующую среднюю оценку VAEP.

Для данного анализа рассматриваются только игроки АПЛ и Ла Лиги, которые имели игровое время более 900 мин за сезон 2017-2018. На первом графике рассматриваются все игроки, на втором – ТОП-10 игроков АПЛ по метрике VAEP, на третьем – ТОП-10 игроков Ла Лиги по метрике VAEP.

Пунктирная линия (изолиния или линия уровня) на первом и третьем графиках показывает какой отрыв имеет Месси по рейтингу VAEP от других игроков как внутри Ла Лиги, так и относительно игроков АПЛ и в тоже время отражает то, что Месси демонстрирует удивительный баланс между количеством и качеством действий.

Пунктирная линия на втором графике показывает, что в Англии по рейтингу VAEP первое место занял Коутиньо. Также можно отметить, что в АПЛ в сезоне 2017-2018 Коутиньо демонстрировал очень хороший баланс между количеством и качеством. Если взять Салаха, который находится в рейтинге топ-10 футболистов АПЛ по VAEP на 2ом месте, то можно наблюдать, что он совершает меньше действий чем другие игроки из ТОП-10, но по среднему значению качества они превосходят действия всех других футболистов.

Сложности использования VAEP

  • VAEP оценивает только действия с мячом, в то время как оборонительные действия зачастую заключаются в правильном выборе позиции игроком без мяча (ограничение обусловлено спецификой данных – используются данные о событиях)

  • VAEP дает несимметричные оценки для лиг разного уровня, из чего следует, что на основе рейтинга VAEP сложно сравнивать игроков из разных чемпионатов, т.е. в более слабых чемпионатах легче получать высокие оценки действий, чем в топ лигах (данная особенность наблюдается на сравнении молодых игроков в чемпионатах разного уровня – в чемпионатах Бельгии, Голландии и Франции игроки получили более высокие оценки, чем игроки из Ла Лиги и АПЛ)

  • VAEP дает несимметричные оценки для клубов разного класса внутри одной лиги, в результате чего, сложно проводить точное сравнение игроков из клубов, которые находятся вверху турнирной таблицы, и клубов с нижней части турнирной таблицы, т.к. в наиболее сильных клубах игроки обычно окружены партнерами более высокого класса, и им легче выполнять качественные действия

Сравнение VAEP и xT

В качестве заключения хочется отметить, что на сегодняшний день метрика VAEP является одним из самых эффективных способов детальной оценки всех действий игроков на футбольном поле на основе данных о событиях. Основным конкурентом данной метрики является метрика xT (Expected Threat/ожидаемая угроза), о которой подробно писалось здесь. Если провести сравнение этих метрик, то можно выделить следующие основные различия:

  • Обе метрики основаны на описании состояний игры, подход используемый в xT, привязан к конкретному расположению игроков на поле (все поле разбито на зоны, состояние игры определяется зоной, в которой находится мяч), в то время как VAEP описывает состояние игры на основе трех последних действий и лучше охватывает игровой контекст (в модели учитываются общее кол-во голов, оставшееся время матча, разница в счете и темп игры). По качеству описания состояний игры – метрика VAEP оценивается более высоко.

  • Метрика xT легче интерпретируема в отличие от VAEP из-за того, что в ней состояния описываются на основе привязки к зонам. Оценки VAEP основаны на алгоритмах машинного обучения, которые учитывают большое количество параметров и в большинстве случаев не дают возможности простой интерпретации получаемых результатов (т.е. нельзя объяснить, почему та или иная последовательность действий получила какую-то определенную оценку).

  • Метрика VAEP оценивает не только изменение вероятности забить гол (атакующая оценка действия), но и изменение вероятности пропустить гол в свои ворота в результате действия (оборонительная оценка действия), чего не учитывает xT. Это приводит к тому, что VAEP дает сбалансированную оценку действия с учетом риска потерять мяч и пропустить гол в результате совершенного действия.

  • Метрика xT учитывает только действия по продвижению мяча (пасы, кроссы, ведение мяча и т д) и игнорирует оборонительные действия, такие как подкат или перехват мяча, что уменьшает охватываемый ею игровой контекст, в сравнении с VAEP, которая учитывает широкий спектр игровых действий (21 действие из SPADL)

  • При сравнении рейтингов футболистов (ТОП-25 футболистов АПЛ сезона 2018-2019 с 900+ минут на поле) на основе xT и VAEP с базовыми рейтингами – голы за 90 мин (g/90) и ассисты за 90 мин (a/90) наблюдается следующая картина – VAEP сильнее коррелирует с g/90 (k = 0.41, против k=0.26 для xT), в то время как xT сильнее коррелирует с a/90 (0.53, против 0.33). Т.е. VAEP чаще дает более высокие оценки голам, в то время как xT – голевым и обостряющим передачам. Но рейтинг на основе xT является более надежным с точки зрения повторяемости результатов в течение сезона (проводился эксперимент, в котором все действия игроков за сезон разбивались на две выборки и далее для каждой метрики составлялся рейтинг игроков для обеих выборок, после чего сравнивались корреляции рейтингов для одной и той же метрики между двумя выборками действий для одних и тех же футболистов, оказалось, что оценки xT хорошо согласуются в обеих группах, в то время как VAEP демонстрирует некоторый разброс оценок между группами, что объясняется техническими особенностями реализации данной метрики, более подробную информацию о сравнении указанных метрик можете найти здесь)

 

Уважаемые читатели, наличие подписок, репостов и плюсов является дополнительным мотиватором на освещение новых тем, так что не стесняйтесь. Также интересно ваше мнение относительно перспектив и потенциала VAEP в качестве широко используемого инструмента для анализа, поэтому пишите комментарии.

P.s. Если интересно следить за обновлениями, но вы не зарегистрированы на sports.ru, то подписывайтесь на инстаграм блога.

Пространственные метрики в футболе, теория зон, модель автономного игрока и симуляция игровых моментов

3.