Знакомство с метрикой OBV от StatsBomb. Сравнение с конкурентами
В футбольной аналитике существуют различные инструменты для измерения эффективности действий игроков и команд. Помимо широко используемых базовых метрик, таких как xG, xA, xGbuildup и многих других, существует отдельный класс метрик, в основе которых лежат так называемые Possession value модели.
В таблице ниже представлены наиболее популярные на сегодняшний день PV-модели с описанием их специфики (больше деталей можете найти здесь).
Некоторые из представленных моделей ранее уже были описаны в моем блоге, в частности, модели на основе цепей Маркова (Markov chains) и более сложные модели на основе алгоритмов машинного обучения, например, модель VAEP.
В данной статье будет разобрана метрика OBV (On-Ball Value), которая была впервые представлена широкой публике на конференции StatsBomb Evolve в марте 2021. До недавнего момента технические детали относительно подходов, используемых для построения OBV, были доступны только клиентам StatsBomb.
Основные особенности OBV
1. OBV рассчитывается на основе модели xG от StatsBomb (на основе собственной модели xG)
Для расчета OBV используются алгоритмы машинного обучения (по аналогии с метрикой VAEP), но в отличие от большинства других аналогичных PV-моделей, StatsBomb при обучении своей модели использует в качестве признака значение метрики xG, а не фактические значения забитого или пропущенного гола. Данная особенность позволяет избавиться от несбалансированности исходной выборки, что в свою очередь позволяет получать более точные оценки (прогнозы).
Также стоит отметить, что StatsBomb позиционирует свою модель xG - как наиболее точную модель на рынке (пример исследований на эту тему можно найти здесь). Опираясь на этот тезис, StatsBomb постулирует следующие - если сравнивать OBV с другими PV-моделями, в которых также используется xG (а не чистые значения голов), то OBV все равно оказывается более качественной, чем у конкурентов.
2. При расчете OBV строятся отдельные модели для вычисления вероятности забить и пропустить гол для каждого действия футболиста
StatsBomb указывает на то, что данный подход применяется не всеми в индустрии. Но если обратиться к модели VAEP, например, то можно увидеть, что в ней применяется аналогичный подход. Поэтому указанная деталь навряд ли нуждается в особом акцентировании.
3. StatsBomb не оценивает в явном виде успешность приема мяча игроком при построении OBV
Кажется очевидным, что индикация успешности (неуспешности) приема мяча несет в себе полезную информацию о качестве действий игрока, принимающего мяч. Принял - хорошо, не принял - плохо. Данная информация может быть использована для более точной оценки вероятности забить или пропустить гол в результате такого действия. При построении метрики VAEP используется специализированный формат данных SPADL, в котором есть маркер (атрибут) bad touch, созданный именно для этой цели.
StatsBomb решили не использовать эту информацию в явном виде. Дело в том, что в большинстве случаев определяющим фактором, влияющим на прием мяча, являются действия соперников, находящихся без мяча. Такие действия почти невозможно оценить, опираясь на данные о событиях (event data). Иными словами, используя данные о событиях, ситуации, когда игрок постоянно теряет мяч в отсутствии давления из-за низкой технической подготовки и ситуации, когда игрок теряет или не может принять мяч из-за высокого давления со стороны соперников, оказываемого в момент приема, будут оцениваться почти одинаково. Таким образом, сам факт успешности приема мяча или потери в отсутствии дополнительных данных о игровом контексте не позволяет проводить однозначную оценку и, как следствие, не добавляет пользы при обучении модели.
Специалисты StatsBomb руководствовались следующим - если игрок способен располагаться в удобных для приема позициях, то это позволит ему продолжить владение и совершить следующие полезное действие, продолжив тем самым владение своей команды. Таким образом, успешность приема мяча отражается в неявном виде в последующем после приема действие, которое просто на просто не произойдет, если игрок не сможет принять мяч.
4. Для вычисления OBV используются специальные Possession state характеристики
Possession state характеристики - параметры, которые максимально подробно (насколько это возможно с event данными) описывают каждое состояние владения мячом. Под данными характеристиками StatsBomb подразумевает:
Pitch location - параметры, характеризующие положение игрока с мячом на поле (x, y координаты, расстояние до ворот и соответствующий угол)
Action context - параметры, отражающие игровой контекст (штрафные, выбросы из аута, угловые и т д)
Индикация части тела, которой совершается действие (голова, нога и т д)
Использование информации о расположении соперников, которые находятся в непосредственной близости к игроку на мяче - позволяет оценить степень давления игроков противоположной команды. Данная информация (StatsBomb 360) сегодня доступна только пользователям StatsBomb и представляет собой чуть более расширенный источник данных в сравнении с обычными данными о событиях.
5. OBV не учитывает историю владения
Наверное основным отличием от все той же метрики VAEP, на которую я периодически ссылаюсь в данной статье, является то, что специалисты StatsBomb решили не использовать информацию о прошлых действиях (possession history) для оценки вероятности забить или пропустить гол при совершении текущего действия. Основная причина - стремление оценивать действия игроков независимо от стиля команды или, что более важно, от ее силы.
Специалисты StatsBomb указывают на то, что модели, учитывающие предыдущие действия, склонны переоценивать пасы, которые делаются в длинных цепочках владения, нежели чем пасы при цепочках из небольшого количества передач. Зачастую, как мы знаем, более сильная команда владеет мячом большее кол-во времени, поэтому оценки для игроков в таких командах будут получаться более высокими, чем для игроков из противоположных команд.
Ниже представлены графики, которые отражают тезисы из последнего абзаца. Приведенная визуализация предназначена для того, чтобы придать больше уверенности в правильности именно такого подхода. Это становиться особенно актуальным, если вновь вернуться к первой таблице и посмотреть на основных конкурентов для OBV - модели VAEP, PV от Stats Perform и g+ используют для оценки вероятности possession history.
На левом графике можно наблюдать корреляцию между силой команды, определенной через разницу в xG за матч, и средним процентом владения.
На правом графике отражается тот факт, что чем сильнее команда, тем более длинные цепочки владения она демонстрирует. В левой части графика видно, что для сильных команд (синяя линия) процент цепочек владения, когда совершается несколько действий (до 10) несколько ниже, чем для средних и самых слабых команд. И наоборот, в правой части графика видно, что синяя линия находится выше остальных, что свидетельствует о том, что длинные цепочки владения чаще соответствуют более сильным командам.
Сотрудники StatsBomb провели еще один эксперимент, в рамках которого построили две модели OBV и посчитали суммарное значение для всей команды. В одной они использовали информацию о предыдущих действиях, в другой - нет. Полученный результат говорит о следующем - чем сильнее команда, тем более высокая разница в итоговых оценках между двумя типами моделей. (правда у меня есть сомнения в корректности подписей для данного графика, такое ощущение, что OBV с possession и c no-possession перепутаны местами)
Примеры применения OBV
Ниже приведен сквозной рейтинг лучших футболистов за 5 сезонов с 2016/2017 по 2020/2021 для Top-5 европейских лиг. В таблице представлена двадцатка лучших. Лионель Месси ожидаемо оказывается на вершине и забирает целых четыре строчки, хотя, возможно, удивление может вызвать второе место, полученное за сезон 2020/2021. Килиан Мбаппе также оказывается в числе рекордсменов с четырьмя строчками в рейтинге.
Серия А в данном рейтинге представлена четырьмя строчками, причем три из которых забирают игроки Аталанты. Дважды Йосип Иличич и один раз Луис Муриэль. Первым представителем Бундеслиги оказывается Хамес Родригес, играющий в сезоне 2018/2019 за Баварию. АПЛ же представлена всего тремя игроками, лучшим из которых по метрике OBV является Джек Грилиш прошлого сезона 20-21.
Дополнительно отмечу, что данный рейтинг учитывает оценки, полученные для всех действий игроков на футбольном поле.
Но OBV можно также использовать для оценки одного или нескольких конкретных действий. Ниже представлен рейтинг, в котором оцениваются лучшие футболисты (Top-15) по значениям OBV для двух действий - продвижение мяча (carries) и дриблинг (dribbles). Данный рейтинг приводится для Top-5 чемпионатов сезона 2020/2021.
Лучшим игроком в приведенном рейтинге с явным отрывом оказывается Грилиш. Также в данный рейтинг попали два его одноклубника - Де Брюйне и Стерлинг. И если первые места в чемпионатах Франции и Испании довольно предсказуемы, то позиция Силаса Мвумпа из Штутгарта, представляющего Бунеслигу, может удивить тех, кто не наблюдает пристально за чемпионатом Германии.
Таким образом можно проводить оценки и составлять рейтинги футболистов для любого чемпионата, по которому StatsBomb собирает свои данные. Описанная метрика может быть использована как для комплексной оценки, так и для оценки какого-то конкретного навыка. Также StatsBomb предоставляет возможность получать аналогичные оценки в разрезе конкретного игрового амплуа или же вовсе оценивать всю команду целиком.
Оригинал работы, которая обозревалась в данной статье - здесь.
P.s. подписывайтесь на Telegram-канал Кирилла Серых, в котором обозреваются самые актуальные новости индустрии. Кирилл вместе с коллегами будет выступать через пару дней на конференции StatsBomb в качестве спикера, так что он как ни кто другой в курсе самых актуальных тенденций в мире футбольной аналитики.
Это можно оценить по двум игрокам (я могу по двум, так-то, может быть, и по большему числу игроков) - Месси и Грилишу.
1. По тому, как сейчас играет в МанСити Грилиш, невозможно представить, что этот игрок куда-то там продвигает мяч. Если и продвигает, то по большей части к своим воротам, а не к чужим. Но при этом нет сомнений, что МанСити явно сильнее Астон Виллы. Но в то же время команда Гвардиолы явно играет в другом стиле, игрокам приходится гораздо больше действовать в условиях плотной обороны соперника на последней трети поля (а значит в условиях дефицита пространства и времени). Естественно, в таких условиях развивать атаку намного сложнее, и на данный момент Грилиш показывает, что не готов к этому уровню сложности. Тут вся надежда на то, что Гвардиола научит его.
2. Из таблицы можно подумать, что Месси на мяче в последние пару-тройку сезонов лучше, чем в сезонах 16/17 и 17/18. На деле это, конечно, не так - Месси тот же самый. Но в последние три сезона при постоянном ухудшении состава на Месси сваливалось всё больше и больше ответственности за развитие атаки и создание моментов.
а. Продвижение мяча вперед - к концу сезона Грилиш занимал первое месте среди вингеров (в среднем за матч около 300 метров)
б. Продвижение мяча вперед на половине соперника - второе место среди всех представителей АПЛ (с среднем за матч чуть больше 200 метров)
в. Количество заработанных фолов - 4.7 фолов за матч с среднем (входил в 1% лучших за последние 5 лет по ведущим европейским лигам). Если предположить, что частота фолов связанна с попытками обыгрыша и попытками продвижения мяча, то данный показатель в дополнение к двум нижеперечисленным, косвенно также будет указывать на то, что Грилиш очень часто передвигал мяч вперед.
Данные из статьи - https://statsbomb.com/2021/04/carrying-loads-a-look-at-ball-carrying-in-the-premier-league/
Опираясь на сухие цифры можно безусловно спорить о величине опасности, которую он создавал в результате продвижения и дриблинга, но отрицать, что он демонстрировал феноменальные показатели в АВ по продвижению - очень сложно.
Поэтому не могу согласиться с вами, относительно неадекватности данной метрики относительно Грилиша в прошлом сезоне.
Другой вопрос, что в текущем сезоне в МС Грилиш пока не демонстрирует аналогичных значений и навряд ли будет, что опять же никак не указывает в сторону качества метрики.
Как мы знаем процесс интеграции игрока и адаптации под новую команду - довольно сложная штука и далеко не всегда футболисту удается сохранить стат. показатели при смене чемпионата и/или команды.
Отдельно еще раз отмечу, что создатели данной метрики как раз таки старались получить максимально независимые оценки действиям игроков, безотносительно стиля команды и ее силы.
2. По поводу значения суммарного OBV для Месси сезона 20/21 - мне тоже показалось, что положение в рейтинге выглядит несколько завышенным, относительно интуитивных ожиданий, основанных на редком просмотре матчей Барселоны в прошлом году и знакомством только с базовыми стат. цифрами. Но для того, чтобы критично оценивать указанное значение OBV нужно более детально изучать данные.
Я не ставлю под сомнение то, что насчитали Грилишу. Я постарался указать на то, что, видимо, сам параметр не настолько хорошо отражает класс игрока, как хотелось бы представить статсбомб.
О чём речь.
Очевидно, что Астон Вилла не является доминирующей командой, то есть создаёт свои моменты в основном в быстрых атаках на разреженном пространстве. То есть Грилиш получил профит от стиля команды.
МанСити контратакует мало. И потому что сам не делает ставку на контратаки (хотя при случае с удовольствием бежит), и потому что в первую очередь соперники не дают разбежаться, чтобы не нахватать много голов. Попросту выставляют автобус. И вот в таких условиях Грилиш совсем не выглядит крутым игроком, который продвигает мяч, создаёт моменты и собирает на себе фолы. На 100 млн он сейчас точно не играет.