Главное про описательную статистику в теннисе. Ч. 3
В предыдущих постах мы познакомились с мерами центральной тенденции [среднее, медиана и мода], которые описывают центр нашего распределения.
На очереди меры изменчивости. Они, как следует из названия, позволят нам проанализировать разброс значений нашей выборки. Сегодня речь о базовых мерах: размахе и его разновидности – межквартильном размахе. Кроме того, познакомимся с понятиями перцентиля, дециля и квартиля. Без паники, это только звучит сложно. В посте, как и всегда, минимум мудреных формул и много понятной графики.
Сегодня изучаем процент чистых выигрышей в % от общего числа очков в матчах мужской сетки на US Open 2023. Очевидно, что в нашей сегодняшней выборке 127 значений [по числу игр основной сетки мужского US Open 2023]. Все значения отсортированы в порядке возрастания показателя, от минимума к максимуму.
Размах – это просто разница между максимумом и минимумом выборки?! Да, все очень просто, в нашем случае: 45.9 – 18.8 = 27.1, т.е. в диапазон ~27% умещаются все значения нашей совокупности.
P.S. Удивлены, что наибольшая доля чисто выигранных мячей была в матче молодой венгерской звезды и французского ветерана? Я тоже, не скрою.
Чтобы двинуться дальше, нам надо разобраться с понятиями квартилей. Заодно коснемся децилей и перцентилей, все они имеют общее название – квантили, и показывают, какой процент значений выборки находится ниже или выше данного значения.
Чтобы было понятнее, рассмотрим пример квартилей, которые, по сути, разделяют нашу выборку из 17 значений на 4 равные части:
25% процентов значений нашей выборки лежит ниже числа 5 – это I квартиль
50% процентов значений нашей выборки лежит ниже числа 9 – это II квартиль
75% процентов значений нашей выборки лежит ниже числа 13 – это III квартиль
Децили и перцентили выполняют ту же функцию, разница лишь в том, что децили разделяют нашу совокупность на 10 равных частей, а перцентили на 100. Это дает нам возможность узнать, например:
выше какого значения находится 30 процентов нашей выборки (7-ой дециль)
ниже какого значения находится 36% выборки (36-ой перцентиль).
P.S. Как вы уже могли догадаться, медиана – это 2-ой квартиль, 5-ый дециль или 50-ый перцентиль.
Теперь немного скучной, но полезной информации о том, как же найти значение любого квантиля (перцентиля, дециля, квартиля). Сделать это можно парой разных способов. Основное отличие расчета в том, что в одном случае (QUARTILE.EXC в Excel) из набора данных исключаются максимум (100 перцентиль) и минимум (0 перцентиль), а в другом, наоборот, они включены (QUARTILE.INC в Excel).
Теперь, когда мы научились вычислять значения квартилей, можем определить еще одну популярную статистическую метрику – межквартильный размах, разницу между третьим и первым квартилями.
Из графики ниже делаем вывод: в 50% матчей на мужском Us Open 2023 чистыми выигрышами кончались от 30 до 35 процентов розыгрышей.
В завершении вернемся к прошедшему US Open. Мы уже удивились матчу Гаске - Марожан с наибольшей долей чистых выигрышей по отношению к общему числу очков. Не менее удивительно то, в каком матче можно было наблюдать наиболее качественный теннис на прошедшем мейджоре, т.е. большое количество активно выигранных очков при небольшом числе невынужденных ошибок.
Таким матчем стала игра молодого Доминика Штрикера и не блещущего результатами в последние месяцы Стефаноса Циципаса. В потрясающем по накалу пятисетовом матче с тремя тай-брейками теннисисты провели 367 розыгрышей, из которых чистыми выигрышами завершились 150 очков, из них 33 эйса, а невынужденные ошибки были зафиксированы всего в 82 очках, из них всего 12 двойных.
Плюсуйте и подписывайтесь на блог и мой Telegram-канал, если было интересно.
И помните, что в спорте играть надо головой. До новых встреч!
А можете разобрать битву Карлоса и Даниила Медведева на квартили? Понятно, что Даня спец в обороне и не ратует за открытый теннис, интересно в цифрах взглянуть и сравнить, например, с игрой Джокович - Алькарас)