Карты передач на основе event данных. Разбираемся с тонкостями построения. Добавляем доп слой с оценкой эффекта пасов
Passing network map или Pass map - карта передач на футбольном поле. Это популярный в индустрии способ визуализации успешных передач между футболистами одной команды. Чаще всего строится на основе данных одного конкретного матча, но также может использоваться для анализа паттернов передач на более длительном периоде.
В данной статье мы разберемся с тем, как правильно читать такую инфографику и какие есть нюансы при построении. Также на основе данных от opta построим свой шаблон карты передач, чтобы в дальнейшем использовать его для послематчевого анализа. Поехали.
Ниже представлен базовый дизайн карты пасов.
Основные особенности такой инфографики:
1. Ориентация поля. В данном примере используется горизонтальная ориентация. Атакующая команда находится слева. Существует альтернативный вариант с вертикальным расположением футбольного поля, при котором атакующая команда располагается снизу.
2. Узлы (Nodes). Каждый футболист на поле представлен в виде точки или узла. Положение узла - «среднее» положение футболиста на поле из которого он совершал передачи за некоторый период времени матча. Здесь есть несколько нюансов, которые обязательно нужно иметь в виду.
1) Отображаемая координата является агрегированной статистикой, которая может не совсем верно передавать реальную картину. Если представить, что футболист совершал передачи только из своей штрафной и штрафной соперника по ходу матча, то его среднее положение будет соответствовать центральной части поля, хотя он мог ни разу не получить мяч в данной зоне и тем более не сделать из нее ни одной передачи. Понятно, что это умозрительный пример, но тем не менее, это важное ограничение данного типа визуализации.
2) Другая особенность при оценке средних значений заключается в том, что такие оценки очень чувствительны к выбросам. Если игрок преимущественно совершал передачи на своей трети поля, но эпизодически несколько раз оказался в финальной трети и сделал одну или две передачи, то его средняя координата может оказаться в центральной части поля, что не будет отражать реальное «характерное» положение игрока на поле по ходу матча.
Для того чтобы нивелировать данный эффект во многих программных реализациях вместо среднего используется медианная оценка координаты, которая более устойчива к выбросам.
3) Для построения карты передач обычно используют данные для состава из 11 игроков, который находился на поле в течение самого длительного интервала времени по ходу матча. Для большинства матчей это период времени между началом матча и моментом первой замены, которая зачастую происходит во втором тайме (например, Манчестер Сити на картинке ниже в матче текущего сезона АПЛ против Брайтона). Также может рассматриваться период до получения первой красной карточки.
Для ситуаций, когда замена или красная карточка были получены в начале матча, обычно рассматривают следующий самый продолжительный интервал времени (например, карта передач для Брайтона на картинке ниже)
Но при желании можно построить такие карты для произвольного числа интервалов по ходу матча (рисунок игры команды может измениться без проведения замены или получения красной карточки для рассматриваемой команды).
3. Ребра (Edges). Узлы соединяются ребрами, которые изображаются в виде простых линий или линий со стрелками. Каждое ребро - это успешные передачи между двумя футболистами. Обычно толщина линии пропорциональна количеству передач между игроками. В самом простом варианте направление передач может не учитываться. Для такого варианта вы не сможете понять без предоставления дополнительной статистики кто из пары сделал больше или меньше передач.
При добавлении стрелок на ребра инфографика становиться более репрезентативной, хотя по прежнему отсутствует возможность качественно оценить распределение передач между каждой парой узлов. В примере выше можно выделить пары, между которыми преимущественно были передачи в одном направлении либо же имели место передачи в оба направления. Однако в данном случае нельзя визуально оценить, было ли примерное равенство в передачах или же все таки преобладали передачи от одного футболиста другому.
Также можно заметить, что в примере выше между некоторыми узлами отсутствуют ребра. Это может соответствовать как отсутствию передач между двумя футболистами, так и наложенному фильтру, который используется в данном конкретном примере. Обычно устанавливают фильтр на 5-15 передач. Если между игроками количество передач меньше некоторого порогового значения, то такие ребра не отрисовывают на карте, чтобы не зашумлять визуализацию.
На картинке ниже изображен еще один способ визуализации ребер. Для каждого футболиста в соответствующей паре используется две линии или стрелки. Такая методика является более информативной в сравнении с рассмотренными ранее.
На приведенной карте видно, что в паре Ван Дейк - Кейта большая часть передач была сделана голландцем. В паре Ван Дейк - Робертсон незначительный перевес у шотландца. К сожалению, при данном подходе приходится жертвовать читабельностью.
Стоит отметить, что на последней инфографике появляется еще одно изменение в сравнении с двумя предыдущими. На данной карте размер узлов пропорционален количеству передач. Такой способ визуализации позволяет легко сравнить между собой игроков по количеству успешных передач в течение матча.
Промежуточный итог:
В базовой конфигурации на карте передач регулируются только размеры узлов и толщина ребер. Такой способ визуализации безусловно содержит в себе полезную информацию, однако не является оптимальным.
Добавление дополнительной информации на карту
При анализе передач игроков помимо общего количества и процента точности важной характеристикой является их эффективность. Первыми метриками, позволяющими оценивать вклад любого игрока на поле в созданную опасность у ворот соперника были xGChain и xGBuildup.
xGChain была разработана для того, чтобы научиться оценивать не только эффективность бьющих игроков (xG) и игроков, отдающих голевые (xA), но и других футболистов, участвующих в комбинации.
Чтобы рассчитать xGChain для каждого игрока рассматриваются все цепочки владения мячом, в которых он принимал активное участие (т.е. совершал действие с мячом) и после которых были нанесены удары по воротам.
Внутри каждой цепочки владения всем игрокам, которые принимали участие в продвижении мяча, присваивается одно и тоже значение метрики, равное xG итогового удара в данном владении.
Далее для каждого игрока суммируются все заработанные xGChain внутри каждой цепочки владения, в которой он принимал участие. В результате получается итоговое значение метрики.
Т.е. по-другому можно сказать, что результат каждой атаки в виде финальной оценки xG транслируется на всех игроков, участвовавших в комбинации, и далее для каждого игрока суммируются все атаки, в которых они были задействованы, в результате чего получается xGChain.
Именно xGChain стала первой метрикой, которую начали добавлять на карты передач в виде цветовой шкалы, раскрашивая узлы и ребра в соответствии со значениями, полученными по ходу матча. (в статье по ссылке можно найти пример с цепочкой владения, размечанной метрикой xGChain)
Пример карты с метрикой xGChain
Рассмотрим шаблон passing map от StatsBomb. Оригинал взят из статьи.
На инфографике выше представлены две карты передач для двух матчей Манчестер Сити в сезоне 2020-2021. По размеру узлов мы можем понять, кто выделялся в соответствующих играх по количеству набранных успешных передач на поле. По толщине ребер можем оценить, в каких парах и в каком направлении отдавалось наибольшее количество передач. Но также теперь мы можем оценить:
какой вклад в итоговую создаваемую опасность у ворот соперника внесли передачи каждого конкретного футболиста в целом (цвет узла)
через какие пары футболистов строились наиболее опасные цепочки владения (цвет ребра)
Также важной деталью и хорошей практикой является нормирование цветовой шкалы. StatsBomb нормирует свою карту следующим образом: самый холодный цвет (темно синий) соответствует 5 перцентилю значений метрики на некотором историческом промежутке (вероятно, по аналогии с радарами используется распределение метрики за последние 5 лет в TOP5 Европейских чемпионатах). Самый теплый цвет (ярко красный) соответствует 95 перцентилю значений метрики (те самым высоким оценкам).
Стоит отметить, что такая нормировка проводится отдельно для узлов и отдельно для ребер. В случае с узлами рассматривают распределение метрики xGChain по игрокам относительно 90 сыгранных минут. В случае ребер - считают значения метрики между каждой парой футболистов и далее строят итоговое распределение. (про нормировку говориться в оригинальной статье от StatsBomb)
На левой карте для матча между Вест Хэмом и Манчестер Сити можно наблюдать отсутствие ребер и узлов, окрашенных в красный цвет. Самый яркий окрас (желтый, переходящий в оранжевый) имеет Эрик Гарсия, что говорит о том, что он своими передачами набрал самое высокое значение по xGChain в матче, которое, судя по цвету, соответствует «средним» значением для данной метрики.
При анализе цветового окраса передач можно выделить связки Диаш - Гарсия, Гарсия - Гюндоган и Канселу - Гюндоган и сделать вывод, что наиболее эффективные атаки по xG начинались с доставки мяча Илкаю.
Безусловно, метрика xGChain является довольно грубой. Кажется очевидным, что некорректно оценивать в рамках одного владения передачу поперек на своей половине между центральными защитниками и предголевую передачу в непосредственной близости ворот соперника одинаковым значением метрики.
Но добавление даже такой метрики в качестве дополнительного слоя на карту передач уже позволяет получить более комплексную картину.
Сегодня более информативные карты передач в качестве дополнительного слоя используют метрику xT на основе цепей Маркова или же метрики на основе машинного обучения, такие как OBV, VAEP или другие possession value модели.
Пример карты с метрикой xT
О том, что из себя представляет метрика xT можно прочитать в моей предыдущей статье. На карте передач ниже более яркий (светлый) цвет узла соответствует более высокому суммарному значению по метрике xT. По карте видно, что среди всех футболистов наибольшую опасность через передачи создал Бен Уайт.
Однако при раскраске ребер здесь не используются значения какой-либо метрики. Цвет ребер, как и толщина, зависит от количества передач между соответствующими игроками. Чем больше передач, тем толще стрелка и тем ярче зеленый цвет.
Пример карты с метрикой OBV (модель StatsBomb)
На визуализации ниже изображена обновленная версия карты передач от StatsBomb. Теперь вместо xGChain используется их флагманская метрика OBV, рассчитываемая на основе модели машинного обучения (познакомиться с OBV можно в этой статье).
Основной принцип чтения карты сохраняется. Однако есть одно дополнение - на шаблон добавили пороговые значения метрики для узлов (5 и 95 перцентили), чтобы было несколько легче читать карту. При этом остается вопрос относительно того, как нормируется цветовая шкала для передач между игроками (задал вопрос сотрудникам StatsBomb, если ответят - дополню).
Также стоит отметить, что при работе с данной картой очень сложно выделить пары игроков с большим количеством передач. Дело в том, как нормируется толщина ребер. Если взять довольно большую выборку матчей (5 сезонов, 5 Топ лиг) и посчитать количество успешных передач между каждой парой футболистов, то 99 перцентилю будет соответствовать только 16 передач. Исходя из данной оценки, кажется, что верхняя граница выбрана излишне высокой. (на своей карте я использовал как раз таки 99 перцентиль)
Пример карты с метрикой PV (модель от StatsPerform)
Ниже приводится карта передач на шаблоне от the Athletic. Здесь в качестве дополнительного цветового слоя используется метрика PV (Possession value), разработанная компанией Stats Perform в 2019 году.
Данная метрика является прямым конкурентом OBV и VAEP. Также построена на основе модели машинного обучения. По своей сути она позволяет для каждого действия на футбольном поле оценить то, как изменяется вероятность забить и пропустить гол через следующие 10 секунд игры. Разница этих вероятностей и есть итоговое значение метрики (если в результате передачи вероятность забить увеличилась на 5%, а вероятность пропустить на 1%, то PV = +0.04)
Цветовая шкала на данной инфографике также нормируется как для узлов, так и для ребер. Вместо стрелок используется градиент прозрачности - более светлая часть линии у дающего игрока и более темная у принимающего.
На предлагаемой карте рассматриваются передачи Барселоны в рамках последнего эль-класико. Ярко выделяются Лопес и Канселу по создаваемой опасности по метрике PV. Также по эффективности передач можно выделить связку Лопес - Гави и Лопес - Конселу (передачи Фермино в оба направления окрашены зеленым).
Еще один пример использования pass map - анализ игровых формаций и эффективности передач игроков на разных позициях по ходу длительного периода времени. На картинке ниже сравниваются карты передач для всех клубов АПЛ в сезоне 2022-2023. При этом рассматривается схема, которая чаще всего использовалась по ходу сезона. Картина получается очень «усредненная», но тем не менее может быть использована при верхнеуровневом анализе.
Я не погружался в подробности построения данной визуализации и не перепроверял результаты, но выглядит интересной карта для Челси. Самая частая формация и состав наблюдались, если верить автору, только для 251 игровой минуты по ходу сезона (рассматриваются минуты до первой замены).
Если учесть, что в сезоне 2020-23 каждая команда в среднем провела 3578 чистых игровых минут (94 минуты на матч), при этом первая замена в среднем проводилась на 62 минуте, то для анализа карты передач по стартовой схеме оставалось бы 66% от 3578 или 2362 минуты в среднем. Получается, что самая стабильный состав и схема у лондонцев соответствовали только ~10% игрового времени. Большую часть сезона команда была подвержена ротации и поиску оптимальной структуры, что, конечно же, не удивительно, если вспомнить, что синими за сезон руководили три разных тренера.
С другой стороны в качестве оплотов стабильности выделяются - Фулхэм, Ньюкасл и Арсенал.
Построение собственной карты передач
Я решил взять в качестве примера шаблон от the Athletic и построить аналогичную карту передач для матча Барселоны против Реала. В качестве провайдера данных использовалась разметка от opta, которую я собрал путем парсинга whoscored.com.
Ниже полученная карта для передач Барселоны в сравнении с исходным шаблоном.
Несколько комментариев:
Вместо цветового градиента я решил использовать стрелки. По моему мнению такой способ более репрезентативен.
В качестве минимального значения количества передач между игроками я использовал значение равное 5. Нижняя граница нужна, чтобы не зашумлять график, как было указано ранее. В качестве максимального - 16 передач. Данное значение соответствует 99 перцентилю для распределения всех успешных передач за 5 последних лет среди Топ5 европейских чемпионатов.
Для нормирования максимальной границы количества успешных передач, отданных одним футболистом, я использовал также 99 перцентиль, которому соответствует значение равное 88 передачам.
Также я сделал более широким интервал размеров для узлов. На исходной карте от the Athletic может сложится впечатление, что Ферран Торрес и Гави сделали примерно одинаковое количество передач, однако по факту у Гави пасов в 2 раза больше.
В качестве дополнительного цветового слоя я использовал метрику open-play xT. Индивидуальные суммарные оценки для каждого из игроков нормируются 5 и 95 перцентилями (сами значения метрики были получены на основе матрицы перехода из статьи).
Парные оценки (цвет стрелок), отражающие суммарную OP xT для передач от футболиста А футболисту Б, ограничены сверху 95 перцентилем, равным 0.09.
Еще одно важное дополнение. На моей карте приводится схема, полученная на медианных значениях координат, соответствующих передачам с 1 по 60 минуту (до первой замены). Однако, при расчете суммарного количества передач и суммарной созданной опасности с игры (OP xT) рассматривается весь матч.
Авторы визуализаций обычно не поясняют данный момент. Если рассматриваются сразу несколько карт для одного матча, то тогда очевидно, что нужно использовать фактическую статистику на каждом временном интервале. Но если используется только одна карта, которой хотят описать основной игровой рисунок по ходу матча, то могут поступать также, как реализовано у меня.
Различия в раскраске метрик являются ожидаемыми. xT оценивает игроков, которые совершают много успешных передач из «неопасных зон» в зоны с высокой вероятностью гола через несколько последующих действий.
PV же оценивает игроков безотносительно привязки к зонам футбольного поля, опираясь на игровой контекст, который для данной модели получают из последних 10 действий, совершенных перед текущим игровым эпизодом.
Ниже приводится аналогичная карта, только уже для обеих команд.
Для сравнения также привел аналогичную карту из твиттера канала футбол в цифрах (markstats). В целом карты по расположению игроков на них довольно похожи, однако есть некоторые различия. В частности если посмотреть на Джуда Беллингема, то можно увидеть более высокую позицию на нижнем графике. Вероятнее всего автор использует средние значения координат.
Карта передач - еще один полезный инструмент в футбольной аналитке. Данную визуализацию можно использовать в рамках предматчевого анализа соперников.
По анализу карты передач последних нескольких матчей можно определять игроков, с которыми нужно играть персонально или оказывать максимальное давление в рамках прессинга. Также можно определять связки игроков, через которые создается наибольшая опасность, для того чтобы разорвать их.
В том числе такая карта может быть полезна для оценки изменения игровой формации команд в зависимости от наличия в обойме тех или иных ключевых игроков.
Данная визуализация безусловно не может заменить просмотр матчей, однако она может помочь видеоаналитикам сузить область поиска матчей или конкретных игровых отрезков в рамках подготовки к сопернику.
Ну и конечно же такая карта может быть интересна обычным любителям футбола для того чтобы лучше разобраться с тем, как построена игра у той или иной команды.
Две просьбы только: не частите пожалуйста в жирным шрифтом, слишком много важных моментов получается. И не используйте жирный г=шрифт и выделение цветом вместе, это чересчур)
Ну и может чуть упростить? Рассмотреть, как построена игра у "Реала" или "Барселоны" на основе этих карт? Так простому читателю точно станет интереснее)