7 мин.

Как найти уязвимость обороны соперника с помощью математической оценки созданного пространства

В последнем туре лиги чемпионов я особенно обратил внимание на то, как тренеры готовят команду взламывать оборону соперников и как принимают решения по ходу матчей, если изначальный план не работает. Например, Локомотив смог удивить Сарри своей схемой, благодаря которой его план оказался непригоден, но он нашел свободные зоны и поменял план в перерыве, что изменило игру. Если чуть углубиться, то подбор игроков в центр и атаку Юве подразумевал забегания и нацеленность на фланги, Локо же к этому варианту подготовился, но оставлял зоны в опорной, чем воспользовался Сарри.

Мне давно хотелось найти способ, который поможет найти уязвимости в обороне и прессинге команд. Идея пришла, когда в моем списке для чтения подошла очередь статьи Wide Open Spaces: A statistical technique for measuring space creation in professional soccer. Модель была представлена в 2018 году на конференции Sloan и написана Luke Bornn (он же выпустил EPV в этом году). Разобравшись, у меня сложилось представление, что это исследование значит для футбола не меньше, а, может, и больше чем та самая статья про EPV, которая обошла все предыдущие результаты по ноншоту (хотя на форуме StatsBomb Том Лоуренс выступил с похожей моделью, но его выступление еще не доступно). 

Свой пост я разделил на две части: в первой постараюсь максимально просто и коротко описать модель по измерению созданного пространства, а во второй в теории опишу свою идею для поиска уязвимости в обороне команд. К сожалению, мне проверить идею на практике прямо сейчас невозможно, т.к. для этого нужен доступ к трекинговым данным.

Подробнее о статье

Основная идея автора состояла в том, чтобы получить модель, оценивающую создание пространства игроками для себя и своих партнеров. Сама модель делится на несколько частей, о которых я буду говорить по мере из использования, т.к. многое зависит от предыдущих шагов.

1. Pitch Control. В первой части создается инструмент для разделения поля на зоны, которые контролирует атакующая и оборонительная команда. Возможно, многие видели пример такого разбиения поля с помощью диаграммы Вороного (в блоге Тактический Борщ когда-то была статья про оценку качества обороны команды через диаграмму Вороного):

Однако, у этого способа есть много недостатков, например, полное игнорирование движения игроков и дискретизация. Поэтому автор создал модель с помощью многомерного нормального распределения, учитывающую позицию игрока, его скорость и направление. В итоге этот вариант не только учитывает движение игроков, но и, как бонус (далее мы поймем, насколько это важный бонус), для каждого игрока для каждой точки футбольного поля вычисляется число, описывающее степень его контроля над этим небольшим пространством. Далее берется сумма по всем игрокам для каждой точки поля и получается своего рода тепловая карта по владению территорией.

Изображение из оригинальной статьи

2. Pitch Value. Следующим этапом необходимо построить модель, определяющую важные зоны относительно положения мяча и игроков. Например, в билдапе наиболее важная зона – опорная зона атакующей команды и центр для продвижения – эту же зону должна перекрывать / прессинговать обороняющаяся команда.

Тут вступают нейронные сети, пусть и с простейшей архитектурой (всего один скрытый линейный слой). Но вся красота и сложность в том, как построить датасет для обучения. В результате обученная модель должна по координатам мяча и заданной точке на поле вычислять значение, описывающее важность этой точки. Для этого автор выдвигает гипотезу о том, что в большинстве случаев оборонительная команда пытается занять наиболее важную зону относительно положения мяча. Действительно, в это легко поверить – конечно, будут исключения в виде позиционных ошибок или ошибок / допущений в структуре обороны, но в среднем на большом объеме данных скорее всего это так и есть. Далее для каждого элемента в датасете (положение мяча в конкретный момент времени и точка на поле) нужно определить target значение – то, к чему будет приближаться нейронная сеть. Тут нам и поможет бонус из предыдущей части: в каждом эпизоде будет считаться сумма Pitch Control среди оборонительных игроков в заданной точке.

Изображение из оригинальной статьи. Пример работы сети при разных координатах мяча (белая точка).

Также после и на этапе обучения были проведены некоторые улучшения, вроде нормализации по количеству игроков на одну точку и по расстоянию от ворот. Но я на этом останавливаться не буду, т.к. это не влияет на общее понимание – в комментариях будет ссылка на статью.

3.Occupation and Generation of Spaces. Теперь, когда есть все необходимые инструменты, можно приступить к самой оценке.

3.1.Space Occupation Gain. В первом подпункте речь пойдет о создании пространства для самого себя. Для этого автором были введены два понятия: Space Occupation Gain и Space Occupation Loss, отвечающие за сумму зон, которые контролировал игрок (все те же значения из бонуса) помноженные на важность этих зон за все время матча и сумму отрицательных зон (потерянной территории) игроком. В основном, такой вид создания пространства – это рывки в опасные зоны и забеги с мячом по флангам.

3.2. Space Generation Gain. Тут немного сложнее, как минимум, потому что в создании пространства участвуют не менее двух игроков (тот, кто создает и те, для кого создает). Идея в том, что игрок, создающий пространство, выдергивает на себя соперника, в зону которого врывается затем один из напарников создающего. Математически это записывается вот так:

Изображение из оригинальной статьи. SG – качество созданного пространства между i и i’ игроками в момент времени t. j – оппонент, d – расстояние между игроками альфа и бетта – постоянные коэффициенты, подобранные автором.

В результате получилась очень наглядная и полезная модель со своими недостатками, но безусловно делающая прорыв и предоставляющая огромное количество вариантов для использования, один из которых я предложу далее.

Изображение из оригинальной статьи. Таблица с игроками барселоны создающими (ось y) и использующими (ось x) пространство.

Что с этим делать клубам?

Вполне логичный вопрос, который многим должен придти в голову после прочтения этой статьи. Конечно легко сразу использовать модель для помощи скаутам в оценке игроков, но намного интереснее и менее очевидно использование этой модели в предматчевой подготовке.

Я уже говорил, что у команд возникают позиционные ошибки при обороне и проблемы со структурой прессинга / позиционной обороны, но эти недочеты нивелируются другими командами и огромным количеством матчей при обучении. Но что, если специально взять только 5 последних матчей одной команды? Скорее всего, полученная модель будет нести в себе многие «оборонительные косяки».

Фактически, мы можем переопределить для себя действие модели, т.к. она выбирает важные зоны только если работает гипотеза, введенная автором. Но в случае с одной командой и ограниченной выборкой из матчей, модель просто будет описывать вероятность того, что в конкретной зоне при конкретном положении мяча окажется игрок обороняющейся команды.

В принципе, можно остановиться на этом, но вряд ли по такой модели можно визуально оценить – в чем заключается слабость обороны команды. Будет логично взять несколько (чем больше, тем лучше) точек с положением мяча и для них посчитать разницу по всем точкам (фактически L1 норму) между получившейся моделью и моделью из статьи (т.е. обученной на всем датасете). Получившийся набор положений мяча с разницей между моделями будет как раз тем отклонением от нормы, которое мы ищем.

Если к этому моменту все работает, то стоит кластеризовать полученный набор положений мяча с разностью между выходом моделей. В таком формате уязвимости видны намного лучше, можно оценить плотность кластеров и выбрать лучшие из них (например, по оценке силуэта).

Выбрав топовые кластеры (или их центры) легко восстановить игровые ситуации по датасету для проверки гипотетических оборонительных провалов и анализа игровых паттернов, в которых возникают проблемы.

В принципе, звучит очень логично, было бы интересно опробовать все на реальных данных. Гипотетически можно адаптировать модель и к анализу после тайма с учетом изменения оборонительной схемы соперника под конкретную команду, что должно помочь с матч менеджментом. Или даже использовать модель для непосредственной оценки матч менеджмента. В комментариях с радостью отвечу на вопросы и выслушаю предложения по тому, как лучше это использовать или какие могут быть альтернативы.