Бундеслига проводит соревнование по анализу данных на платформе Kaggle - призовой фонд 25000$
Предисловие: последние полтора года я работаю в структуре Бундеслиги, где занимаюсь анализом данных и разработкой футбольных продвинутых статистик. Около года я и мои коллеги готовили большое онлайн-событие, которое позволит людям со всего мира поучаствовать в проекте, связанном с футболом, получить опыт работы с обработкой видео и возможно, заработать денег. Этот текст - небольшой анонс этого события, а также краткий рассказ о том, как используются данные в немецком футболе.
Уже более 10 лет DFL (Немецкая Футбольная Лига) создает уникальную инфраструктуру для сбора футбольных данных в Германии - ее дочерняя компания Sportec Solutions собирает и обрабатывает абсолютно все данные по матчам первых трех Бундеслиг и всех сборных Германии. Под "абсолютно всеми" имеются в виду:
метаданные - общие данные о составах команд, игроках, стадионе, рефери и тп,
событийные (event) данные - данные о каждом событии (пас, удар, перехват, фол и тп), происходящем на поле, показывающие его координату, игрока, тип (например, пас левой / правой ногой, верховая / обычная борьба)
трекинговые данные - позиции всех игроков, рефери и мяча, собираемые с определенной частотой (от 10 до 25 кадров в секунду)
Подробный обзор о провайдера данных и их типах можно найти здесь. Все эти данные хранятся в большом хранилище - Data Hub, из которого затем поставляются различным пользователям - клубам, футбольным федерациям и медиа-компаниям.
Также Бундеслига делает на основе данных свои продукты - например, 2 продукта, в разработке которых участвует наша команда - Match Analysis Hub и Commentary Live System. Match Analysis Hub - платформа для клубов 1 и 2 Бундеслиг с статистикой по каждому из матчей, доступной до, во время и после матча + хранилищем видео как с картинкой из-за обоих ворот, так и панорамным видом на все поле.
Commentary Live System - это платформа для комментаторов, которую они используют как для подготовки к матчу, так и во время него. Одна из его частей, над которой я работал в последний год, Data Story Finder, находит интересные истории о происходящем на поле с помощью машинного обучения.
Возвращаясь к типам футбольных данных: многие компании уже давно переходят на полуавтоматический сбор событийных данных, чтобы не задействовать большое количество людей, собирающих данные вручную во время и после матчей. Обычно на один матч требуется 1-2 человека, и это довольно стрессовая работа, подверженная человеческому фактору.
Чтобы автоматизировать этот процесс, пишутся специальные алгоритмы, распознающие действия на поле с помощью видео. Sportec Solutions не исключение, и поэтому в предверии нового сезона Бундеслиги перед Суперкубком мы с нашим отделом подготовили Bundesliga Shoot Out - соревнование по анализу данных на Kaggle - крупнейшей платформе data-соревнований в мире.
Участникам нужно будет распознать 3 типа событий на основе видео со скаутинговых камер - пас, ввод мяча с аута и борьба. Мы даем большое количество нарезок этих событий с разных матчей Бундеслиги 1 /2 и 2,5 месяца на работу над заданием. Соревнование длится до 13 октября, общий призовой фонд - 25 тысяч долларов, а победитель будет объявлен 20-го декабря. Зарегистрироваться можно здесь, а любые вопросы можно задавать в комментариях или в моем телеграм-канале. Удачи!