16 мин.

Как «с нуля» создать отдел аналитики в футбольном клубе и начать получать пользу от данных. Пример команды из Дании

Телеграм-канал автора

Для того чтобы построить полноценный и эффективный отдел аналитики данных в рамках футбольного клуба необходимо следующее:

  • доступ к футбольным данным

  • специалисты, владеющие инструментами работы с данными (чаще всего язык программирования python)

  • инфраструктура для удобной и эффективной работы с данными (сбор, хранение, последующий анализ и визуализация данных)

Про типы данных, которые используются в футбольной аналитике, и про инструменты работы с ними подробно говорилось в моих предыдущих статьях. Сегодня основной фокус обзора будет направлен на описание того, как правильно решать инфраструктурные задачи, и почему об инфраструктуре важно думать на самых ранних этапах внедрения аналитических инструментов в клубе.

В основе статьи будет лежать презентация, подготовленная руководителем аналитического департамента Брондбю - клуба из высшей лиги Дании (чемпионы прошлого сезона). Эта презентация была представлена на онлайн конференции Training Ground Guru  BIG DATA 2021, которая проходила в конце октября текущего года. Ее основными партнерами были HUDL, StatsPerfom и Twenty3.

Часть 1 - Вступление от HUDL

HUDL - это американская компания, которая специализируется на решениях для анализа игровых показателей и удобной работы с видео в различных видах спорта. В 2019 г американский гигант приобрел Wyscout - крупного поставщика футбольных event-данных, чем обозначил свой интерес к данной индустрии.

Во вступительном слове консультант из Hudl сделал акцент на одной из основных тем, обсуждаемых с клиентами по всему миру - централизации данных.  Данные могут приходить в клуб из нескольких источников: разные провайдеры и собственные системы сбора. Собираемые данные имеют разную исходную структуру и зачастую могут храниться в разрозненном виде внутри клуба, что осложняет работу с ними как с единым целым. Для решения этой проблемы необходимо строить единое хранилище данных.

Также специалист Hudl'а продемонстрировал типовую структуру отдела по работе с данными в футбольных клубах и ключевые роли сотрудников.

  • Data Architect (архитектор данных) - проектирует, строит и управляет хранилищем данных, настраивает процессы получения данных из различных источников и их первичную обработку. Иногда вы можете увидеть схожий или пересекающийся функционал с должностью, которая сегодня называется Data Engineer.

  • Technical Analyst (технический аналитик) - строит на основе данных готовые отчеты и интерпретирует результаты анализа так, чтобы это было понятно футболистам, тренерам и другим сотрудникам клуба, которые принимают решения на основе анализа данных. Иногда эта позиция называется Data Analyst.

  • Data Scientist - смотрит на данные под разными углами и ищет в них закономерности, строит математические модели, которые позволяют решать различные задачи. Например: Оценить эффективность действий футболистов на поле с помощью ожидаемых метрик - xG, xP, EPV, предсказывать ожидаемую нагрузку на тренировках в зависимости от интенсивности упражнений, автоматически распознавать игровые формации и фазы игры и т д.

  • Tactical Analyst (тактический аналитик / видеоаналитик) - обычно занимается видеоанализом, на основе которого готовит отчеты и тактические разборы. Результаты своей работы зачастую дополняет результатами анализа данных от Technical Analyst и Data Scientist. Находится в постоянном контакте с тренерским штабом и игроками, которым помогает доносить основной смысл полученных выводов из анализа.

Нужно понимать, что реальная структура может меняться от клуба к клубу. Если клуб ограничен в бюджете или же находится на начальном этапе построения процессов работы с данными, то это зачастую приводит к тому, что одному человеку приходится выполнять смешанный функционал или вовсе закрывать сразу нескольких позиций. Каких-то ролей на первых порах может и вовсе не быть в рамках клуба. Но в целом, для первоначального представления можно использовать такую картину от Hudl'а.

Часть 2 - Знакомство с историей главного аналитика Брондбю

Основным докладчиком в презентации выступал Миккель Кельдманн. Он пришел в Брондбю аналитиком на стажировку в 2015. Через год уже работал на полставки и параллельно получал степень магистра по экономике. В 2017 стал работать в должности Data Scientist-а. Наконец в 2020 возглавил небольшой аналитический отдел внутри клуба.

Миккель попытался на примере своей истории продемонстрировать, как в клубе за несколько лет кардинально изменилась работа по анализу данных. От ручного анализа в Microsoft Excel одним человеком они перешли к полноценному аналитическому отделу, построив при этом инфраструктуру для работы с данными и автоматизировав многие процессы.

Часть 3 - Отправная точка (2015-2016)

Ниже будет описано, как велась работа с данными в Брондбю, когда Миккель только пришел на стажировку.

1. В клубе уже работали с программами от компаний Amisco / Prozone (были event данные)

Amisco - французская компания, пионер в области видеотрекинга в футболе. Данные, которые собирала Amisco, использовались в сборной Франции в рамках подготовки к чемпионату мира уже в 1998 г. В 2011 г Amisco приобрела своего основного конкурента - английскую компанию Prozone и на какой-то период времени стала лидером в индустрии. (В 2000-ых первым крупным клиентом Prozone по инициативе Арсена Венгера стал лондонский Арсенал.)

Эти компании поставляли видеосистемы на основе нескольких камер, которые располагались вокруг стадиона, и программные продукты для обработки видео в реальном времени. Детектирование игроков и определение координат проводилось в полуавтоматическом режиме. Неотъемлемым элементом данной системы был оператор, который вручную фиксировал некоторые события и контролировал корректность собираемых данных.

На основе собираемых трекинговых данных по всем игрокам на поле Amisco дополнительно считала базовые данные о событиях, которые уже предоставляла пользователям для самостоятельного анализа.

Также Amisco имела удобную платформу для послематчевого анализа, в которой по трекинговым данным проводилась двумерная реконструкция футбольного матча.

Скрин игры Атлетико Мадрид - Барселона 2010 г в рамках Ла Лиги

Первые задачи Миккеля были связаны с работой в этой программе и выгрузкой event данных в excel для последующего анализа. Он работал в плотном контакте со специалистом, который занимался тактическим и видеоанализом игровых характеристик футболистов (Performance Analyst / тактический аналитик / видеоаналитик).

2. В 2016 г Брондбю приобрел LPS трекинговые системы от INMOTIO (были tracking данные по тренировкам)

Приобретение системы для сбора тренировочного трекинга совпало с приглашением нового главного тренера в команду, который был представителем немецкой школы и уделял большое внимание игре в прессинге и контрпрессинге.

В результате фокус Миккеля сместился с анализа ивентов на работу с трекингом и более тесное взаимодействие с тренером по физподготовке. Результатом его работы стала программа, которая позволяла считать на основе собранных данных интенсивность и объем физической нагрузки игроков во время тренировок. Набор базовых тренировочных характеристик считался для каждого отдельного игрока и для команды в целом.

Ниже представлен пример такого отчета, который предоставлялся тренеру за день до матча. Видно, что половина параметров - это показатели, оценивающие высокоинтенсивную беговую работу - дистанция, пройденная на максимальных скоростях, спринты, ускорения и торможения.

Такой отчет был полезен как дополнительный материал для принятия решения о выборе стартового состава, так и для возможности корректировать уровень нагрузок во время новых тренировок. Анализируя данные по текущему объему нагрузок в команде, можно было слегка повышать или понижать интенсивность работы, чтобы соблюдать некоторый баланс и избегать перегрузок.

Часть 4 - Формирование отдела и появление инфраструктуры для работы с данными (2017-2018)

В 2017 г Миккель стал работать в клубе в качестве Data Scientist-а. Здесь я вынужден добавить несколько комментариев во избежание формирования путаницы у читателя.

К сожалению, под понятием DS в сфере анализа данных очень часто понимается несколько разный функционал. Так обстоит дело далеко не только в футболе. Реальный функционал DS-ов на рабочих местах в разных компаниях может несколько отличаться, но в целом быть очень схожим.

Где-то обязанности DS более широкие и включают в себя сразу несколько других ролей - подготовка и обработка данных (Data Engineer), построение моделей машинного обучения (ML Engineer), визуализация результатов (BI Analyst), где-то DS может заниматься только построением моделей и исследовательской работой, например.

Также возможны ситуации, когда номинальный Data Scientist будет делать отчеты, формулировать и проверять гипотезы и интерпретировать получаемые результаты для руководства, но не будет строить модели машинного обучения. В данном случае его роль будет ближе к такой позиции как Data Analyst или аналитик данных, если по простому.

Основной вывод - само название позиции Data Scientist не всегда отражает какой-то конкретный выполняемый функционал. Нужно иметь это в виду.

Возвращаемся к Брондбю и Миккелю.

В 2017 году датский футбольный союз заключил контракт с компанией ChyronHego на оснащение стадионов высшей лиги системами TRACAB. Теперь у Брондбю появился оптический трекинг как по играм, так и по тренировкам. Также клуб стал сотрудничать с компанией Opta по ивент-данным.

В итоге клуб перестал пользоваться программными решениями от Amisco и стал самостоятельно анализировать собираемые трекинг-данные (в Amisco игровой трекинг анализировался внутри самой программы и у пользователей не было к нему доступа).

Все это привело к тому, что в клубе стало сильно увеличиваться количество источников входных данных - LPS трекинг, оптический трекинг, ивент-данные. Старый подход, при котором данные скачивались вручную и хранились в xlsx или csv файлах для последующей обработки, стал очень неэффективным. Для того чтобы всем этим управлять, нужно было строить инфраструктуру и автоматизировать рутинные процедуры, что и принялись выполнять Миккель и его команда. К этому времени в отделе работало двое человек и несколько студентов.

Ниже представлен первый вариант инфраструктуры и ее небольшая модификация. Видно, что может увеличиваться количество источников данных, могут меняться инструменты обработки, хранения и визуализации, но в целом основная структура сохраняется.

Весь процесс обработки - от момента получения данных, до момента формирования готового отчета или визуализации, теперь можно было автоматизировать и выполнять по расписанию, а не вручную каждый раз проводить рутинные действия.

Ниже представлен пример визуализации прессинг действий после потерь мяча по ходу матча. Основное назначение - оценивать качество контрпрессинга по некоторой условной линии, которая показывает, как высоко от своей штрафной площади в среднем совершаются успешные контрпрессинг-действия.

В результате, после появления трекинг-данных от TRACAB значительно увеличилось количество отчетов и дополнительного анализа по играм. Это привело к тому, что Миккель стал плотнее контактировать с тренерским штабом и со скаутами внутри клуба.

Часть 5 - Основные принципы работы с данными в Брондбю

Ниже перечислены основные принципы работы с данными, которым стараются следовать внутри клуба. Основная суть - собственная инфраструктура делает вас максимально независимыми и гибкими. Это важно, если вы работаете вдолгую. Нужно понимать, что с приходом нового руководства или тренера взгляды на аналитику и постановка задач могут меняться. Если вся аналитика была построена на готовых программных платформах под видение предыдущих руководителей, то перестройка системы под новые задачи может быть очень затратной.

Часть 6 - Полноценный аналитический отдел по работе с данными 2019-2021

В 2019 г в клубе было принято решение расширять штат аналитиков для работы с данными. Помимо Миккеля в отделе на постоянной основе работали три студента на полставки - Junior Data Engineer, Junior Data Analyst и Junior Data Scientist. Также в отделе постоянно стажировались 5-7 студентов, которые параллельно писали дипломные работы на футбольную тематику и помогали с аналитическими задачами.

Основной фокус работы в то время был направлен на автоматизацию рутинных операций и подготовку типовых отчетов. Это делалось для того, чтобы высвободить время для исследовательской работы.

Также у отдела появилась новая задача - обработка трекинга в режиме реального времени. Такие live-данные появились в лиге после перехода с TRACAB на решения от Second Spectrum, которые в том числе сейчас применяются в АПЛ. В клубе тестировали как готовые платформы, так и пытались разрабатывать свое приложение на iOS.

На данном этапе развития Миккель со своей командой также стали решать задачи с применением машинного обучения. Они построили модель, которая предсказывала ожидаемую физическую нагрузку у футболистов в зависимости от перечня тренировочных упражнений.

Тренер Брондбю мог составить план тренировки в web-приложении, выбирая типы упражнений и их длительность. Здесь рассматривалась любая физическая активность, начиная от разминки. Затем по этому перечню он мог получить значения ожидаемых фитнес-показателей после тренировки и сравнить их со средними, максимальными или минимальными значениями по истории предыдущих тренировок. Полученные оценки позволяли корректировать предстоящую тренировку и подбирать оптимальное сочетание упражнений и их длительность.

Основной акцент в данном примере заключается в том, что построение сложной аналитики на основе математических моделей зачастую происходит далеко не на первых этапах внедрения инструментов анализа в клубе.

В текущей фазе своего развития аналитический отдел в Брондбю находится в постоянном плотном контакте со всеми функциональными единицами в рамках клуба - со скаутами, со всем тренерским штабом, с директором по футболу и с академией.

Часть 7 - Что делать, если вы с нуля (или почти с нуля) хотите внедрять инструменты анализа в клубе?

В заключение Миккель предлагает свое видение относительно того, как вы можете начать заниматься аналитикой данных внутри клуба, и на что прежде всего стоит обратить внимание, если вы делаете первые шаги в этом направлении.

В первую очередь нужно определить задачи, которые в клубе хотят решать с помощью анализа данных. Это очень сильно влияет на подходы и инструменты, которые нужно внедрять в последствии, на количество необходимых человеческих ресурсов, сроки реализации и другие нюансы.

Также нужно определить модель построения инфраструктуры. Можно делать все своими силами, можно нанять специалистов со стороны и пользоваться готовыми решениями или же использовать смешанный подход, в рамках которого часть работ вы будете делать сами, а на какие-то работы будете приглашать сторонние компании. Брондбю, как и многие в Дании, использует смешанный подход, при этом большую часть разработки реализуя своими силами.

Если же вам близка модель Брондбю, то начать внедрение процессов анализа данных можно с применением исключительно бесплатного программного обеспечения. Можно использовать свободно доступные базы данных и средства визуализации, работая при этом на python.

Также вам понадобится доступ к данным, за который безусловно придется платить.

Плюс ко всему в клубе должны появится специалисты, которые начнут работать с имеющимися источниками данных и будут постепенно выстраивать процессы анализа, демонстрируя при этом актуальность и пользу последних для всех внутри команды.

Часть 8 - Важные замечания

Аналитики данных должны находится постоянно в плотном контакте со всеми структурами внутри клуба. Нужно уметь демонстрировать результаты анализа простым и понятным языком. Важно сформировать доверие к получаемым результатам и выводам, которые делаются на их основе.

Без всего вышеперечисленного сложно будет заручиться поддержкой тренеров, скаутов, руководителей и других людей внутри команды. Без их поддержки и заинтересованности развитие процессов анализа данных в клубе будет идти значительно медленнее и менее эффективно.

Правильные первые шаги позволят аналитикам заложить фундамент доверия к их деятельности в клубе. Это будет способствовать постепенному увеличению числа специалистов по анализу и повышению эффективности и скорости выполняемых работ.

Summary

На рассмотренном примере можно было увидеть, как за 5 лет клуб из чемпионата Дании прошел путь от анализа данных в Microsoft Excel до полноценного отдела по работе с данными, построив инфраструктуру и автоматизировав процесс обработки.

По мере появления новых источников данных и развития экспертизы по их обработке, аналитики начинали плотно работать с различными структурными подразделениями внутри клуба. В конечном счете аналитикой данных пользовались все - тренерский состав, скауты, руководство и академия.

Сложность решаемых задач увеличивалась постепенно и последовательно - от простых отчетов и визуализации до применения предсказательных моделей на основе машинного обучения.

В командах РПЛ/ФНЛ постепенно начинают уделять больше внимания анализу данных. Сейчас только формируется понимание и видение оптимальных подходов для создания внутри клубов экспертизы по анализу данных. Пример Брондбю может быть интересен и полезен для общего ознакомления и в качестве некоторого ориентира. Используя уже пройденный опыт других клубов, можно подчерпнуть полезную информацию и организовать процесс формирования отдела более эффективно.

Комментарии от Кирилла Серых (Data Scientist в Sportec Solutions в Германии)

Пример Брондбю довольно уникален - на моей памяти это впервые, когда в паблике обсуждается такая, казалось бы, не самая очевидная, но все же основополагающая тема для создания аналитического отдела футбольного клуба. Добавлю 5 пунктов из своего опыта общения с аналитиками и менеджментом немецких клубов, которые нахожу особенно важными.

1. Самое главное - руководители клуба должны понимать, зачем нужен аналитический отдел. Часто это решение принимается не исходя из конкретных задач, а по логике “мы хотим, как в Ливерпуле / Барселоне / любом клубе, где все уже есть”, тогда отдел может стать либо игрушкой, которую бросят через несколько месяцев или лет, либо (если повезет и будет большой бюджет) чем-то обособленным, что будет существовать автономно и по сути, отдельно от клуба. 

2. Поэтому определяющим будет правильный выбор первого человека или команды, которая будет на одной волне с главными стейкхолдерами (это и менеджмент, и тренерский, и аналитический штабы) и начнет все делать с нуля. Ужасно важна коммуникация - технарям нужно найти общий язык с футбольными людьми и сделать так, чтобы обе стороны доверяли друг другу.  На первом этапе сложное - донести, что люди с техническим бэкграундом пришли не вытеснять и диктовать свои правила, а как можно больше помогать делать клуб лучше

3. Не нужно перемудрить в начале. Например, можно убить месяцы на создание стабильной инфраструктуры, начать готовить какие-то очень замороченные модели и изощренные кастомные визуализации, но какой в этом толк, если за это время конечные пользователи не получили никаких нужных выводов? Сложнее - не всегда значит лучше. Особенно в очень динамичной футбольной сфере.

4. Смешанный подход - все же лучшее, что можно внедрить для достижения успеха, особенно в начале. И в DFL / DFB, и в некоторых клубах Бундеслиги работает именно такая схема - внутри клуба или организации есть несколько человек, которые знают всю кухню изнутри, ставят цели и в долгосроке работают над ними, а консультанты с конкретными техническими навыками акцентировано помогают их достичь, выполняя задачи, в которых они сильны. 

5. Процесс построения отдела - дело небыстрое и на первый взгляд недешевое. Работа отдела не всегда постоянно осязаема, но она может отбиться даже одним правильно сделанным или не сделанным трансфером. К тому же, скаутинг - не единственное, для чего он должен существовать: аналитики могут помочь и в анализе своей игры / игры оппонента, и нахождении закономерностей в фитнес-данных, и в помощи видео-аналитикам при тэггинге видео, и многое другое. Поэтому, когда есть такой огромный спектр задач, особенно важно иметь стабильную и понятную инфраструктуру, на поддержание и обеспечение которой не нужно будет тратить драгоценного времени

P.s.

В телеграм-канале Кирилла Серых вы можете найти ссылку на видео с презентацией, которая обозревалась в данной статье.

Знакомство с базовыми инструментами футбольного Data Scientist-а. Объясняем, где найти бесплатные данные и с чего начать

Трекинговые данные - максимально подробная и точная информация о действиях футболистов на поле

Группа в вк