Использование пространственных метрик для сравнения и кластеризации игроков
Перевод статьи Business Analytic.
Такие трекинг-данные как преодолённая дистанция и максимальная скорость уже давно используются футбольными клубами для измерения физической активности игроков во время матча. В этом посте я покажу, как данные пространственного местоположения TRACAB могут быть подсчитаны и визуализированы, а также как их можно использовать для сравнения футболистов.
Точечные карты
Первым очевидным шагом является отображение местоположений игрока на поле. В качестве примера взяты три футболиста, участвовавших в матче “Халл Сити”-”Манчестер Юнайтед”, состоявшемся в последний день сезона 2014/2015. “Халл” всеми силами пытался избежать вылета, но встреча завершилась безголевой ничьей.
На рисунке 1 показаны точечные карты местонахождений трёх игроков в этом матче (направление поля - слева направо):
Figure 1. Точечные карты местоположения
Мы видим, что Доусон (центральный защитник “Халл Сити” - примечание SFT) действовал в центральной зоне на своей половине поля, но также он был активен в штрафной “МЮ”. Мата и Валенсия играли справа, и разница между ними не очень заметна.
Точечные карты являются полезными, но не особенно показательными визуализациями. В следующем разделе я покажу, как эти карты могут использоваться для более контекстных визуализаций и метрик.
Диапазон игрока
Я определяю “диапазон” как область, охватывающую большинство точек местонахождения игрока. Критерий ‘Большинства’ можно определить на свой вкус - 80%, 85% или 90%, например. В этом посте я буду в основном использовать 80%. Важно отметить, что Диапазон не ограничивается одной непрерывной зоной. Как мы увидим, у некоторых игроков он состоит из нескольких областей.
В следующем наборе диаграмм я нарисовал вычисленные Диапазоны поверх точечных карт. В каждом случае Диапазон охватывает 80% местоположений игрока на поле.
Figure 2. Точечные карты и Диапазоны
Здесь мы видим, что Диапазон Доусона состоит из двух областей: основная - центральная зона на половине поля “Халла”, вторая - штрафная соперника. Также, после выделения Диапазонов более чётко проявляется разница между Матой и Валенсией: испанец был активен на фланге и центре на чужой половине поля, а Валенсия - на фланге и в центре собственной штрафной.
На этом этапе вы можете задаться вопросом - а почему бы просто не использовать тепловые карты? Дело в том, что тепловые карты подходят, если вы хотите выделить активность одного игрока, но они не позволяют визуализировать статистику по нескольким футболистам и их невозможно перевести в статистические метрики. О двух этих идеях далее.
Визуализация активности нескольких игроков
Если мы хотим представить совместную активность двух и более игроков, мы можем наложить их Диапазоны друг на друга. На карте ниже приведены Диапазоны четвёрки защитников “Ливерпуля” в матче со “Сток Сити” (на этот раз граница выборки составляет 60%).
Figure 3a. Защитники "Ливерпуля" в матче со "Стоком"
Также можно использовать Диапазоны для отображения активности всей команды:
Figure 3b. "Халл Сити" vs "Юнайтед"
Важно, что мы можем пойти ещё дальше и количественно измерить значения Диапазонов и степень их взаимодействия.
Измерение Диапазонов. Числовое значение
Одна из основных метрик, которую мы можем получить - это площадь Диапазона. В таблице ниже указаны площади (в метрах квадратных) 80%-Диапазонов уже рассмотренных ранее игроков:
Таблица 1. Площади Диапазонов
Также возможно количественно измерить степень взаимодействия между игроками. Например:
а) расстояние между игроками;
Мы можем рассчитать процент времени, когда любая пара футболистов находится на определённом расстоянии друг от друга. На примере оборонительной четвёрки "Ливерпуля":
Таблица 2. Процент времени, когда защитники "Ливерпуля" находились в пределах 10 метров друг от друга
б) наложение Диапазонов;
Мы также можем вычислить степень совмещения (наложения) различных Диапазонов:
Таблица 3. Процент пересечения 80%-Диапазонов защитников "Ливерпуля"
Сравнение игроков
Возможно, одним из самых значимых направлений практического применения пространственных данных является сравнение игроков. За параметр сходства возьмём процент наложения Диапазонов. На карте ниже сравниваются Варди и Агуэро:
Figure 4. Сравнение игроков: Варди vs Агуэро
По карте видно, что площадь Диапазона Варди несколько больше (1999 кв.м), чем у оппонента (1734 кв.м), но степень наложения (82%) намекает на сходство и показывает, что игроки действуют в практически одних и тех же зонах поля.
Мы также можем накладывать Диапазоны с меньшим процентом большинства - например 40%:
Figure 5. Сравнение игроков: Варди vs Агуэро: 40%-Диапазоны
Теперь степень наложения составляет 68%, и мы видим, что в штрафной Агуэро предпочитает центральную зону, а Варди помимо центра использует фланговые области на границе штрафной.
Аналогичным образом мы можем сравнить активность конкретного игрока в отдельных матчах и даже в разных фазах одного и того же матча. В сочетании с данными OPTA KPI, выведенные пространственные метрики предоставляют дополнительную информацию о производительности отдельных команд и игроков.
Некоторые особенности Диапазонов
Так как Диапазон является показательной концепцией, мы ожидаем, что его метрики будут последовательно различаться в зависимости от позиций. Так и есть. В таблице ниже приведены средние значения площадей Диапазонов и стандартные отклонения для вратарей, защитников, полузащитников и нападающих (‘Std dev.’ в таблице - от “standard deviation”. “Стандартное отклонение” - определение разброса полученных значений вблизи их среднего арифметического значения, которое вычисляется как корень квадратный из отклонений значений выборки - примечание SFT).
Таблица 4. Средняя площадь Диапазонов для разных позиций
Вратари ожидаемо имеют гораздо меньшие Диапазоны, нежели полевые игроки. Более интересно, насколько значения защитников меньше чисел полузащитников и нападающих (разница в ≈38% статистически значима). Однако существуют также различия в каждой конкретной позиции, что и показано в следующей таблице.
Таблица 5. Топ-3 наибольших и наименьших значений Диапазонов для каждой линии
Как видно из таблицы, самые “активные” нападающие Премьер-лиги охватывают более чем в два раза бóльшую площадь, чем наименее “активные” (значимость этой “активности” - предмет будущих исследований).
Использование Диапазонов для кластеризации игроков
Наконец, мы можем использовать Диапазоны для сравнения и кластеризации. Для графике ниже я использовал метод кластеризации, называемый многомерным масштабированием. Этот метод располагает объекты на двумерной карте в соответствии с их сходством по заданному критерию. В нашем случае критерием является Диапазон активности. То есть, игроки, Диапазоны которых схожи (т. е. пересекаются в значительной степени), размещены на графике в одной области. Соответственно, игроки, чьи Диапазоны не пересекаются, расположились далеко друг от друга.
Figure 7. Карта кластеризации игроков
На графике видна организованность: голкиперы собраны в левом нижнем углу, нападающие, в основном, - в правом верхнем, а группы защитников и полузащитников чередуются, когда мы двигаемся по графику по диагонали снизу слева направо вверх. При этом футболисты, играющие на правом фланге, расположились справа от линии воображаемой диагональной траектории, а играющие на левом - слева.
Заключение
В этом посте было показано, как пространственные данные могут быть использованы при разработке весьма полезных метрик для оценки и классификации игроков. Определение взаимодействия Диапазонов игроков друг с другом также может иметь значительный потенциал для дальнейшего анализа.