4 мин.

Главное про описательную статистику в теннисе. Ч. 3

В предыдущих постах мы познакомились с мерами центральной тенденции [среднее, медиана и мода], которые описывают центр нашего распределения.

На очереди меры изменчивости. Они, как следует из названия, позволят нам проанализировать разброс значений нашей выборки. Сегодня речь о базовых мерах: размахе и его разновидности – межквартильном размахе. Кроме того, познакомимся с понятиями перцентиля, дециля и квартиля. Без паники, это только звучит сложно. В посте, как и всегда, минимум мудреных формул и много понятной графики.

Сегодня изучаем процент чистых выигрышей в % от общего числа очков в матчах мужской сетки на US Open 2023. Очевидно, что в нашей сегодняшней выборке 127 значений [по числу игр основной сетки мужского US Open 2023]. Все значения отсортированы в порядке возрастания показателя, от минимума к максимуму.

Размах – это просто разница между максимумом и минимумом выборки?! Да, все очень просто, в нашем случае: 45.9 – 18.8 = 27.1, т.е. в диапазон ~27% умещаются все значения нашей совокупности.

P.S. Удивлены, что наибольшая доля чисто выигранных мячей была в матче молодой венгерской звезды и французского ветерана? Я тоже, не скрою.

Чтобы двинуться дальше, нам надо разобраться с понятиями квартилей. Заодно коснемся децилей и перцентилей, все они имеют общее название – квантили, и показывают, какой процент значений выборки находится ниже или выше данного значения. 

Чтобы было понятнее, рассмотрим пример квартилей, которые, по сути, разделяют нашу выборку из 17 значений на 4 равные части:

  • 25% процентов значений нашей выборки лежит ниже числа 5 – это I квартиль

  • 50% процентов значений нашей выборки лежит ниже числа 9 – это II квартиль

  • 75% процентов значений нашей выборки лежит ниже числа 13 – это III квартиль

Децили и перцентили выполняют ту же функцию, разница лишь в том, что децили разделяют нашу совокупность на 10 равных частей, а перцентили на 100. Это дает нам возможность узнать, например:

  • выше какого значения находится 30 процентов нашей выборки (7-ой дециль)

  • ниже какого значения находится 36% выборки (36-ой перцентиль).

P.S. Как вы уже могли догадаться, медиана – это 2-ой квартиль, 5-ый дециль или 50-ый перцентиль.

Теперь немного скучной, но полезной информации о том, как же найти значение любого квантиля (перцентиля, дециля, квартиля). Сделать это можно парой разных способов. Основное отличие расчета в том, что в одном случае (QUARTILE.EXC в Excel) из набора данных исключаются максимум (100 перцентиль) и минимум (0 перцентиль), а в другом, наоборот, они включены (QUARTILE.INC в Excel).

Теперь, когда мы научились вычислять значения квартилей, можем определить еще одну популярную статистическую метрику – межквартильный размах, разницу между третьим и первым квартилями.

Из графики ниже делаем вывод: в 50% матчей на мужском Us Open 2023 чистыми выигрышами кончались от 30 до 35 процентов розыгрышей.

В завершении вернемся к прошедшему US Open. Мы уже удивились матчу Гаске - Марожан с наибольшей долей чистых выигрышей по отношению к общему числу очков.  Не менее удивительно то, в каком матче можно было наблюдать наиболее качественный теннис на прошедшем мейджоре, т.е. большое количество активно выигранных очков при небольшом числе невынужденных ошибок.

Таким матчем стала игра молодого Доминика Штрикера и не блещущего результатами в последние месяцы Стефаноса Циципаса. В потрясающем по накалу пятисетовом матче с тремя тай-брейками теннисисты провели 367 розыгрышей, из которых чистыми выигрышами завершились 150 очков, из них 33 эйса, а невынужденные ошибки были зафиксированы всего в 82 очках, из них всего 12 двойных.

Плюсуйте и подписывайтесь на блог и мой Telegram-канал, если было интересно.

И помните, что в спорте играть надо головой. До новых встреч!