8 мин.

Знакомство с метрикой OBV от StatsBomb. Сравнение с конкурентами

В футбольной аналитике существуют различные инструменты для измерения эффективности действий игроков и команд. Помимо широко используемых базовых метрик, таких как xG, xA, xGbuildup и многих других, существует отдельный класс метрик, в основе которых лежат так называемые Possession value модели.

В таблице ниже представлены наиболее популярные на сегодняшний день PV-модели с описанием их специфики (больше деталей можете найти здесь).

Некоторые из представленных моделей ранее уже были описаны в моем блоге, в частности, модели на основе цепей Маркова (Markov chains) и более сложные модели на основе алгоритмов машинного обучения, например, модель VAEP.

В данной статье будет разобрана метрика OBV (On-Ball Value), которая была впервые представлена широкой публике на конференции StatsBomb Evolve в марте 2021. До недавнего момента технические детали относительно подходов, используемых для построения OBV, были доступны только клиентам StatsBomb.

Основные особенности OBV

1. OBV рассчитывается на основе модели xG от StatsBomb (на основе собственной модели xG)

Для расчета OBV используются алгоритмы машинного обучения (по аналогии с метрикой VAEP), но в отличие от большинства других аналогичных PV-моделей, StatsBomb при обучении своей модели использует в качестве признака значение метрики xG, а не фактические значения забитого или пропущенного гола. Данная особенность позволяет избавиться от несбалансированности исходной выборки, что в свою очередь позволяет получать более точные оценки (прогнозы).

Также стоит отметить, что StatsBomb позиционирует свою модель xG - как наиболее точную модель на рынке (пример исследований на эту тему можно найти здесь). Опираясь на этот тезис, StatsBomb постулирует следующие - если сравнивать OBV с другими PV-моделями, в которых также используется xG (а не чистые значения голов), то OBV все равно оказывается более качественной, чем у конкурентов.

2. При расчете OBV строятся отдельные модели для вычисления вероятности забить и пропустить гол для каждого действия футболиста

StatsBomb указывает на то, что данный подход применяется не всеми в индустрии. Но если обратиться к модели VAEP, например, то можно увидеть, что в ней применяется аналогичный подход. Поэтому указанная деталь навряд ли нуждается в особом акцентировании.

3. StatsBomb не оценивает в явном виде успешность приема мяча игроком при построении OBV

Кажется очевидным, что индикация успешности (неуспешности) приема мяча несет в себе полезную информацию о качестве действий игрока, принимающего мяч. Принял - хорошо, не принял - плохо. Данная информация может быть использована для более точной оценки вероятности забить или пропустить гол в результате такого действия. При построении метрики VAEP используется специализированный формат данных SPADL, в котором есть маркер (атрибут) bad touch, созданный именно для этой цели.

StatsBomb решили не использовать эту информацию в явном виде. Дело в том, что в большинстве случаев определяющим фактором, влияющим на прием мяча, являются действия соперников, находящихся без мяча. Такие действия почти невозможно оценить, опираясь на данные о событиях (event data). Иными словами, используя данные о событиях, ситуации, когда игрок постоянно теряет мяч в отсутствии давления из-за низкой технической подготовки и ситуации, когда игрок теряет или не может принять мяч из-за высокого давления со стороны соперников, оказываемого в момент приема, будут оцениваться почти одинаково. Таким образом, сам факт успешности приема мяча или потери в отсутствии дополнительных данных о игровом контексте не позволяет проводить однозначную оценку и, как следствие, не добавляет пользы при обучении модели.

Специалисты StatsBomb руководствовались следующим - если игрок способен располагаться в удобных для приема позициях, то это позволит ему продолжить владение и совершить следующие полезное действие, продолжив тем самым владение своей команды. Таким образом, успешность приема мяча отражается в неявном виде в последующем после приема действие, которое просто на просто не произойдет, если игрок не сможет принять мяч.

4. Для вычисления OBV используются специальные Possession state характеристики

Possession state характеристики - параметры, которые максимально подробно (насколько это возможно с event данными) описывают каждое состояние владения мячом. Под данными характеристиками StatsBomb подразумевает:

  • Pitch location - параметры, характеризующие положение игрока с мячом на поле (x, y координаты, расстояние до ворот и соответствующий угол)

  • Action context - параметры, отражающие игровой контекст (штрафные, выбросы из аута, угловые и т д)

  • Индикация части тела, которой совершается действие (голова, нога и т д)

  • Использование информации о расположении соперников, которые находятся в непосредственной близости к игроку на мяче - позволяет оценить степень давления игроков противоположной команды. Данная информация (StatsBomb 360) сегодня доступна только пользователям StatsBomb и представляет собой чуть более расширенный источник данных в сравнении с обычными данными о событиях.

5. OBV не учитывает историю владения

Наверное основным отличием от все той же метрики VAEP, на которую я периодически ссылаюсь в данной статье, является то, что специалисты StatsBomb решили не использовать информацию о прошлых действиях (possession history) для оценки вероятности забить или пропустить гол при совершении текущего действия. Основная причина - стремление оценивать действия игроков независимо от стиля команды или, что более важно, от ее силы.

Специалисты StatsBomb указывают на то, что модели, учитывающие предыдущие действия, склонны переоценивать пасы, которые делаются в длинных цепочках владения, нежели чем пасы при цепочках из небольшого количества передач. Зачастую, как мы знаем, более сильная команда владеет мячом большее кол-во времени, поэтому оценки для игроков в таких командах будут получаться более высокими, чем для игроков из противоположных команд.

Ниже представлены графики, которые отражают тезисы из последнего абзаца. Приведенная визуализация предназначена для того, чтобы придать больше уверенности в правильности именно такого подхода. Это становиться особенно актуальным, если вновь вернуться к первой таблице и посмотреть на основных конкурентов для OBV - модели VAEP, PV от Stats Perform и g+ используют для оценки вероятности possession history.

На левом графике можно наблюдать корреляцию между силой команды, определенной через разницу в xG за матч, и средним процентом владения.

На правом графике отражается тот факт, что чем сильнее команда, тем более длинные цепочки владения она демонстрирует. В левой части графика видно, что для сильных команд (синяя линия) процент цепочек владения, когда совершается несколько действий (до 10) несколько ниже, чем для средних и самых слабых команд. И наоборот, в правой части графика видно, что синяя линия находится выше остальных, что свидетельствует о том, что длинные цепочки владения чаще соответствуют более сильным командам.

Сотрудники StatsBomb провели еще один эксперимент, в рамках которого построили две модели OBV и посчитали суммарное значение для всей команды. В одной они использовали информацию о предыдущих действиях, в другой - нет. Полученный результат говорит о следующем - чем сильнее команда, тем более высокая разница в итоговых оценках между двумя типами моделей. (правда у меня есть сомнения в корректности подписей для данного графика, такое ощущение, что OBV с possession и c no-possession перепутаны местами)

Примеры применения OBV

Ниже приведен сквозной рейтинг лучших футболистов за 5 сезонов с 2016/2017 по 2020/2021 для Top-5 европейских лиг. В таблице представлена двадцатка лучших. Лионель Месси ожидаемо оказывается на вершине и забирает целых четыре строчки, хотя, возможно, удивление может вызвать второе место, полученное за сезон 2020/2021. Килиан Мбаппе также оказывается в числе рекордсменов с четырьмя строчками в рейтинге.

Серия А в данном рейтинге представлена четырьмя строчками, причем три из которых забирают игроки Аталанты. Дважды Йосип Иличич и один раз Луис Муриэль. Первым представителем Бундеслиги оказывается Хамес Родригес, играющий в сезоне 2018/2019 за Баварию. АПЛ же представлена всего тремя игроками, лучшим из которых по метрике OBV является Джек Грилиш прошлого сезона 20-21.

Дополнительно отмечу, что данный рейтинг учитывает оценки, полученные для всех действий игроков на футбольном поле.

Но OBV можно также использовать для оценки одного или нескольких конкретных действий. Ниже представлен рейтинг, в котором оцениваются лучшие футболисты (Top-15) по значениям OBV для двух действий - продвижение мяча (carries) и дриблинг (dribbles). Данный рейтинг приводится для Top-5 чемпионатов сезона 2020/2021.

Лучшим игроком в приведенном рейтинге с явным отрывом оказывается Грилиш. Также в данный рейтинг попали два его одноклубника - Де Брюйне и Стерлинг. И если первые места в чемпионатах Франции и Испании довольно предсказуемы, то позиция Силаса Мвумпа из Штутгарта, представляющего Бунеслигу, может удивить тех, кто не наблюдает пристально за чемпионатом Германии.

Таким образом можно проводить оценки и составлять рейтинги футболистов для любого чемпионата, по которому StatsBomb собирает свои данные. Описанная метрика может быть использована как для комплексной оценки, так и для оценки какого-то конкретного навыка. Также StatsBomb предоставляет возможность получать аналогичные оценки в разрезе конкретного игрового амплуа или же вовсе оценивать всю команду целиком.

Оригинал работы, которая обозревалась в данной статье - здесь.

P.s. подписывайтесь на Telegram-канал Кирилла Серых, в котором обозреваются самые актуальные новости индустрии. Кирилл вместе с коллегами будет выступать через пару дней на конференции StatsBomb в качестве спикера, так что он как ни кто другой в курсе самых актуальных тенденций в мире футбольной аналитики.