Новый выпуск подкаста Build up School. Тема — применение Data Science в футбольной аналитике
Для начала кратко про гостей:
Кирилл Серых (Data Scientist в дочерней компании немецкой футбольной лиги и автор блога «Заметки города Б»)
Егор Гумин (основатель статистической платформы xGLab)
Самер Фатайри (Data Scientist)
Кстати, это ребята, которые делали исследование по вратарям для Statsbomb. Вот тут запись выступления: youtube.com/watch?v=ct_liSAOpUU
Подкаст целиком можно послушать на всех популярных платформах по ссылке. Ссылка ниже. Полный подкаст: band.link/buildupschool
Пару интересных моментов из подкаста, чтобы показать контекст нашего обсуждения.
В чем ценность Data Science для футбольной аналитики?
Ценность данных — дать информацию, которую человек не может увидеть глазами. Вернее не так. Человек может увидеть практически все. Но вот сколько он на это потратит времени? Это важный вопрос. Данные как раз помогают это время экономить.
Еще один пример. При просмотре своими глазами нельзя забывать про человеческий фактор. Даже когда аналитик смотрит один и тот же матч два раза, результаты анализа совпадают только на 80% (это средний субъективный показатель, точное исследование не проводили). Данные и статистика помогают минимизировать человеческий фактор.
Как использовать Data Science для скаутинга?
Это очень индивидуально для каждого клуба. Но если смотреть в некой абстракции, можем рассмотреть базовую модель. У Data Scientist’а скорее всего есть модель, которая прогнозирует стоимость игрока. То есть ты загоняешь в модель набор данных по игре футболиста, а модель дает оценку его стоимости. Далее ты прогоняешь данные по игрокам других клубов и ищешь тех, которые недооценены. То есть по твоей модели игрок стоит 20 млн, а его стоимость сейчас 10 млн. И за счет Data Science возможно проверить огромное количество игроков. Самостоятельно просто физически самому столько не успеть.
Конечно, встает вопрос об оценочной стоимости футболиста, потому что опираться только на Transfermarkt мы не можем. Это надо отдельно учитывать.
А в чем минусы Data Science?
Это очень дорого и сложно. Сложно в реализации, сложно во внедрении.
Вот продолжая тему скаутинга. Мы хотим закрыть проблемную позицию и найти игрока, который точно усилит команду. И тут сразу огромный пласт работы. Нужно определить набор критериев для оценки (причем каждый критерий необходимо ставить под сомнение, реально ли он влияет на модель оценки и важен для нас, важен ли для тренера).Потом окажется, что два критерия собрать невозможно из-за отсутствия данных, один из критериев статистически незначим. И это большая постоянная работа, потому что готовой модели в формате «вот так правильно» просто нет.
Также довольно сложно внедрять аналитику данных в работу клубов. Аналитики и скауты должны понимать, зачем и для чего считаются какие-то метрики. И как это может облегчить им работу. Но сегодня далеко не везде у аналитиков/скаутов есть понимание, как применять данные и статистику. Более того, в некоторых клубах наоборот отказываются от данных и отрицают их ценность.
Это была небольшая часть выпуска подкаста.