Сбор данных по теннисной статистике: источники
Когда речь заходит о доступности статистических данных в теннисе, мнения обычно разделяются на два противоположных лагеря. Сторонники первого из них утверждают, что набор ценной статистики по теннисным играм ограничен, и использовать его для более-менее серьезного анализа проблематично. Другие же возражают – все есть в открытом доступе, места надо знать.
Как всегда, истина где-то посередине. На мой взгляд, все зависит от конечной цели использования информации. В этом посте я хотел бы кратко рассказать о нескольких направления поиска данных, в первую очередь, из открытых источников.
Наверное, самый очевидный и в то же время самый сложный способ – самостоятельно проводить сбор интересующих статистических показателей через просмотр матчей. Причем сейчас не обязательно собирать команду единомышленников и отправлять ее на корты для фиксации данных (как это описано в Moneyball). Достаточно большое количество матчей можно найти в сети в открытом (или относительно открытом) доступе.
Плюсы и минусы такого подхода очевидны. В первую очередь, вы можете собрать большое количество материала по каждой игре – начиная от банальной статистики попадания первой подачи, и заканчивая зонами ударов и количеством твинеров (ну мало ли, может, оно вам надо). Таким образом, вы сами определяете интересующие вас показатели и можете разбирать игру с любого интересующего вас ракурса.
Минусы – это трудозатраты и неполный доступ к информации. Не всегда у вас есть возможность проводить часы напролет за просмотром матчей и их детальным разбором. Кроме того, многие второстепенные турниры просто выпадают из поля зрения - а они как раз являются ценным источником информации, особенно по молодым малоизвестным игрокам.
Очевидным решением для минимизации затрат времени будет обратиться ко вторичным источникам сбора информации, и основным здесь скорее всего выступают официальные сайты теннисных ассоциаций: АТР (http://www.atpworldtour.com) и WTA (http://www.wtatennis.com).
На примере информации с сайта АТР можно говорить о том, что это – один из наиболее полных источников базовой информации. К несомненным плюсам источника стоит отнести проработку информации по игрокам. Помимо полного досье на каждого спортсмена, на сайте можно найти большой объем наглядной информации по игрокам и head2head. Это позволяет анализировать статистику противостояний конкретных теннисистов, что делает удобным оценку шансов в личных противостояниях – например, для прогнозирования исходов матчей. Информация также позволяет отслеживать динамику игры теннисистов от сезона к сезону, в зависимости от покрытия и турнира, результативность последнего сезона, динамику рейтинга и другие параметры. Важной частью этой статистики выступают данные по игре на подаче и приеме – их можно собрать как за всю карьеру игрока, так и за конкретный сезон.
При этом, работа с этими данными требует определенного «допиливания». Например, нет возможности анализировать статистику Н2Н на отдельных турнирах, на отдельных покрытиях. Для этого приходится обрабатывать материал дополнительно.
Еще один важный пласт данных – статистика по турнирам. Ресурс содержит значительный массив информации по прошедшим и будущим турнирам. Это в первую очередь, базовые сведения - покрытие, количество игроков, суммы призовых, бюджет турнира, победители и участники, их турнирный путь. Ограниченный набор статистики есть по старым турнирам - вплоть до 1915 (!) года. При этом, с ходу получить детальные сведения о турнирах уровня Challenger или Futures будет проблематично.
Помимо основных сайтов ассоциаций, существует достаточно большое количество статистических ресурсов, которые содержат схожую или близкую информацию. Для себя я выделил бы два из них:
- http://www.tennisscores-stats.com – несмотря на ограниченный набор данных, содержит ряд полезных разделов, например, статистику травм игроков за последние два сезона, а также дополнительную аналитику по ряду параметров;
- http://www.tennisexplorer.com – сайт, позиционирующий себя как источник информации по беттингу. Мне представляется одним из наиболее удобных вариантов анализа по статистике игроков по покрытиям и статистике W/L.
В разговоре о теннисной статистике нельзя не упомянуть Tennis Abstract – возможно, один из лучших (если не лучший) аналитический источник информации о теннисе. Причем речь идет не только об аналитических статьях и бесплатной базе данных по турнирам АТР и WTA с 1968 года. В рамках этого ресурса также запущен сбор информации по каждому матчу - Match Charting Project. Этот проект подразумевает формирование данных по каждому матчу с привлечением всех желающих. В перспективе это позволит сгенерировать гигантский массив данных по каждой игре, на основе которого можно проводить их детальный анализ.
Очевидно, перечень подобных открытых источников не исчерпывается приведенными выше ресурсами. Если у вас есть источники теннисной статистики, которыми вы часто пользуетесь - буду рад вашим комментариям.
Винкомпаратор и сейчас периодически выручает , потому что работают сами , автономно. Например , если в матче начался дождь и его приостановили , время на ИТФ в режиме лайф также приостанавливается, потом возобновляется и даётся чистое. Все другие сайты повторяют информацию с ИТФ сайта. На Винкомпараторе время не приостанавливают , продолжают отсчёт. В итоге время на ИТФ получается , допустим , 2ч30мин , а на Вине 6ч40мин. Из этого следует вывод , что в матче был перерыв продолжительностью 4ч10мин. Ну и некоторые другие полезные моменты там есть.
-unforced errors
-winners
-net approaches
-fastest serve speed
-average serve speed