Freeze Frame как новый способ количественной оценки решений. Дополняем xG новыми данными
Не так давно прошла Statsbomb Innovation in Football Conference, где традиционно были представлены свежайшие аналитические разработки, охватывающие самые разные направления. Ребята из компании уже поделились частью докладов на своем сайте, и я решил перевести тот, который трогает особо важную для меня область игры: принятие решений. На практике каждый день приходится анализировать тонны решений футболистов и большой пласт из них занимают решения нанести удар вместо передачи партнеру. Бенжамин Ларрус в своем докладе на конференции дал свежий взгляд на то, в каком направлении нужно двигаться, чтобы систематизировать оценку решений футболистов при ударах по воротам. Этот пост является переводом именного его доклада, ссылку на который я прикрепляю ниже. Все дальше будет написано от лица автора. Погнали!
Абстрактно
Идея, стоящая за этим материалом, состоит в том, чтобы анализировать решения, принятые при ударах во время матчей. В данный момент, такой разбор ударов еще не нашел множество применений, несмотря на его огромный потенциал. Далее мы используем его, чтобы понять был ли удар лучшей опцией, рассматривая позиции всех игроков. Такая количественная оценка может иметь целый ряд применений, от макроанализа ударов до более конкретных разборов того, как работает интуиция игроков. Здесь мы покажем несколько вариантов применения, после моделирования “лучших опций” при ударах.
Вступление
В сердце революции футбольных данных лежит метрика xG, измерение качества ударов (нанесенных и пропущенных) во время игры. Эта метрика, несмотря на свою полезность, имеет некоторые ограничения:
Она не берет в учет прессинг обороны, который очень влияет на качество удара;
Не смотрит на позицию вратаря.
Вот почему в 2018 Statsbomb выпустили в свет новые данные: freeze frame (стоп-кадр). Эти данные уже включают в себя позиции всех игроков вокруг мяча для каждого нанесенного удара, включая вратарей. Смотри пример:
Это позволяет нам анализировать удары более точным путем и дает нам улучшенную модель ожидаемых голов. Такой подход поможет нам в ряде практических применений в футболе, например анализе позиции обороны или оценке вратарей.
Какая бы ни была цель (скаутинг, анализ команды, анализ игроков итд), в конечном итоге знания, полученные из этих данных, будут служить одной цели: делать более умные решения. Они могут сыграть в пользу поиска недооцененных игроков, выбора тактики на следующую игру, повышения общего уровня каждого игрока.
Методология
Как уже объяснили, мы хотим понять были ли у игрока более выгодные опции вместо нанесения удара. Здесь имеем в виду то, что передача на партнера повлекла бы удар с большим весом xG. Это может быть измерено подсчетом ожидаемого гола удара от этого конкретного партнера. Для этого мы должны быть способны делать две вещи:
Подсчитать была ли передача на партнера возможной;
Для этого партнера получить его xG после передачи, если он будет бить с текущего места. Конечно, обязательно, чтобы конкретный игрок ударил сразу. Может он будет использовать обводку, пас на кого-то еще, или потеряет мяч. Но, начиная с простых вещей, мы можем только предполагать то, что партнер сразу нанесет удар с его локации.
Именно эти два больших вызова мы должны осилить. В следующих абзацах мы получим больше деталей о том, как мы с ними справляемся.
Вычисляем ожидаемые голы
Чтобы быть способным сравнить реальный удар с гипотетическим ударом партнера мы должны иметь приблизительный xG каждого партнера, зависимо от его локации. Дело в том, что в Statsbomb информация о стоп-кадрах учитывается при расчете xG, поскольку она дает более точную модель. И, конечно, у них нет стоп-кадр данных для гипотетического удара, так что посчитать xG таким же способом невозможно. Тем не менее, возможно примерно подсчитать xG значение по локации, имея усредненные данные из похожих ударов. Мы выбрали поделить поле на зоны и подсчитать усреднения или медианы в каждой зоне. У нас есть данные только по двум сезонам, так что эта статистика могла бы быть более точной, но это достаточно хорошо для старта. Размер зон, которые мы берем: 5 на 5. Имея данные, которые у нас есть, это хороший компромисс между достаточным количеством ударов в каждой зоне и достаточно маленькими зонами. Вы можете увидеть распределение на следующей таблице. Более маленькие зоны могли бы дать большую точность, если бы у нас было больше данных.
Нужно подметить, что мы используем только удары с игры. Далее мы выбираем использовать медианы, не средние значения. Они не так сильно отличаются друг от друга, так что разница не столь велика. Но поскольку медиана наиболее устойчива к отклонениям, мы считаем, что это лучший выбор здесь. Для графического отображения мы отрисовали statsbomb_xg распределение вместе с распределением медианы в зависимости от зоны.
Имея приблизительные xG, следующей проблемой становится определение возможных передач.
Возможные передачи
Мы используем два способа узнать по стоп кадру, возможна ли передача. В любом случае, мы не будем брать в расчет партнеров, передача на которых невозможна.
Первая идея – это использовать Диаграмму Вороного, чтобы расчертить поле по дистанциям между игроками. Одна клетка ассоциируется с одним игроком. Мы можем понять кто из партнеров соединен с бьющим линией передач, но этого недостаточно, потому что мы можем упустить некоторые возможные передачи, где клетки не соединяются, но пас возможен.
На следующей иллюстрации мы можем заметить, что у нас есть партнер на левой стороне штрафной, но его клетка Вороного не связана с бьющим, так что пас на этого конкретного игрока будет проигнорирована моделью.
Нам нужно было подумать над другим способом решения задачи. Мы хотим знать есть ли оппонент на пути бьющего и партнера. Математически, мы могли бы посчитать, находится ли локация оппонента в сегменте между бьющим и партнером. Если да, то в таком случае передача была бы невозможна. Проблема в том, что в реальности игрок не является точкой c нулевым значением.
Таким образом, на что мы должны смотреть: пересекается ли зона вокруг расположения оппонента с сегментом “бьющий-партнер”. Эта зона могла бы относиться к возможному перехвату игрока. Так как стоп кадр не дает нам скорость и направление игроков, лучшей зоной для нас является круг. Мы берем радиус 1.5 метра, кажущийся нам эмпирически обоснованным, но значение может быть усовершенствовано в будущем. Этот метод ведет к разделению на партнеров с возможными линиями передач и без.
Лучшие опции
Последний, но не менее важный момент состоит в том, что у нас теперь есть список возможных передач и xG для каждой локации партнера, но нам нужно знать вероятность того, что пас пройдет. Таким же образом, как мы сделали для xG, мы можем подсчитать среднюю вероятность прохождения передачи из одной зоны поля в любую другую. Эта вероятность будет процентом в нашем наборе данных.
Мы не считаем средний процент по игроку. Усредняя каждый пас игрока мы не отображаем реальную возможность в конкретной зоне (с фланга в центр, дистанция от ворот, итд.) и для конкретного типа передачи (вперед, назад, короткий, средний, итд.). Так же, как и для xG, количество имеющихся данных относительно маленькое и больше данных дали бы нам более точную оценку.
В конечном итоге, передача на партнера является лучшей опцией, если:
Передача возможна от бьющего на партнера;
Гипотетический xG от удара партнера выше, чем xG актуального удара.
В некоторых случаях у нас будет более, чем одна опция, но если нам нужна только лучшая опция, мы можем брать только того партнера, у кого значение xG самое высокое. Ну или того, передача на которого является самой легко проходимой.
В следующем разделе мы обсуждаем наши находки и способы применения.
Результаты и применения
Сначала мы посмотрим на процент ударов, где была как минимум одна более выгодная опция по значению xG. Это показано ниже:
Мы четко видим, что процент ударов при более выгодных опциях растет тогда, когда падает значение xG. Таким образом, в дополнение к пониманию того, что удар был плохим решением ( если значение xG очень маленькое, бьющий должен был сделать что-то другое), мы знаем о наличии как минимум одной более выгодной опции. Мы показываем только небольшое значение xG на таблице, так как лучшие варианты становятся все более и более редкими, но объем ударов с небольшим xG в любом случае достаточно велик.
Чтобы показать более наглядно, мы смотрим на процент ударов с лучшими опциями в разрезе команды. Задаем вопрос о соотношении ударов с наличием лучших опций (меньше плохих решений на команду) с финальными позициями команд в Французской Лиге 1. В следующих двух таблицах даем ответ на этот вопрос, рассматривая процент плохих ударов и финальную позицию каждого клуба по сезонам 2017/18 и 2018/19.
Как мы видим по этим таблицам, есть взаимосвязь между нашей новой метрикой и результатами команд. Это не объясняет все, но в сочетании с другими метриками могло бы помочь лучше понять игру.
В довесок мы можем посмотреть на процент лучших опций в зависимости от игровых ситуаций. Смотри ниже:
Мы четко видим, что при контратаках меньше всего лучших опций, что и неудивительно, понимания, что в контратаках обычно вовлечено небольшое количество игроков. Для паттернов, касающихся вратарей, мы можем понять, что защита хорошо располагается и тяжелее найти хорошие опции
В конце мы еще замечаем, что удары после аутов приводят к большему количеству лучших опций, потенциально означая то, что из этого паттерна приходит больше плохих решений.
Анализ игроков
Что касается анализа игроков, здесь показано кто из игроков лучший в контексте этой метрики. В следующей таблице анализируем игроков, которые нанесли как минимум 100 ударов за последние два сезона.
Как видно, эти топ 20 игроков в основном состоят из нападающих, исключением стал только Уссем Ауар. Это естественно, так как мы поставили фильтр “100+ ударов”. Эта таблица дает нам немного больше понимания того, как игроки распоряжаются своими возможностями нанести удар.
Например, Эднисон Кавани имеет в своем пассиве очень мало плохих решений: всего 5% его ударов сопровождались возможными лучшими опциями. Так как Кавани наносит много ударов из центральных зон штрафной, возможно, что его удары имели большее значение xG (что и объясняет низкий процент лучших опций). Тем не менее, это дает определенное понимание об ударах и о том, как игроки ими распоряжаются.
Для наглядности мы также сделали сравнение по сезонам. Для более тщательного анализа можно было бы сделать через анализ последовательностей из 5 игр или по соперникам (результат игры, место команды соперника, итд).
Мы можем увидеть, что некоторые игроки имеют практически идентичные проценты (Кавани, Мбаппе), некоторые идут на спад (Фалькао, Неймар, Таварес, Лаборд, Конате), а другие улучшают свои показатели (Ауар, Пепе, Саид). Это не говорит нам о том, что происходит, но это стартовая точка изучения того, как игроки меняются в плане своих ударов.
Выводы и перспективы
Мы сделали первый шаг в направлении анализа ударов по данным стоп-кадра от Statsbomb. Эта новая метрика, характеризующая как часто удар не был лучшим решением, имеет ряд применений. Некоторые из них были рассмотрены здесь: широкий анализ ударов, связь со значением xG, сравнение игроков между собой.
Это одно из первых применений данных стоп-кадра, мы серьезно думаем о больших перспективах. Вот кое-какие идеи расширения:
Имея больше данных, мы сможем лучше высчитывать примерный xG а вероятность передач, что даст более точную модель
Для улучшения модели “возможных передач” будет хорошо иметь данные по положению тела, чтобы просчитать возможные передачи более точно
Анализировать гипотетические решения товарища по команде: партнер, получающий мяч, мог бы сделать что-то еще кроме удара и было бы полезно научиться измерять это.
Подписывайтесь, чтобы не пропустить следующий эпизод
____________________________________________________________
Телеграм:https://t.me/joinchat/AAAAAEHW5BOJk7UUVfCEsA
Твиттер: https://twitter.com/Stasiano1
Фейсбук: https://www.facebook.com/stanislav.honcharenko.73
Ссылка на оригинал: http://statsbomb.com/wp-content/uploads/2019/10/Benjamin-Larrousse-Improving-Decision-Making-For-Shots.pdf
Как один из вариантов - использование модели, похожей на ту, которую создал Luke bornn для анализа создания пространства игроками. Так можно будет учитывать не только возможность передачи, но и возможность улучшения позиции самим игроком. Правда для этого нужен другой формат данных.