4 мин.

Гистограммы

Гистограмма - базовый способ визуализации данных в статистике. Несмотря на свою кажущуюся простоту, этот инструмент служит быстрым и эффективным решением для большОго количества задач.

Предположим, нам с вами необходимо оценить какова средняя скорость первой подачи в мужском туре. Первым делом попробуем нанести все результаты наблюдений [измерений скорости подачи] на прямую. Получилось не очень. Большая часть значений пересекаются между собой или скрыты одно за другим. В результате из графика непонятно ровным счетом ничего.

P.S. Почему Иво Карлович? 5 марта 2011 года в парном матче 1/8 финала Кубка Дэвиса против сборной Германии, в котором Карлович вместе с Иваном Додигом уступил Кристоферу Касу и Филиппу Пецшнеру со счётом 3-6, 6-3, 7-5, 3-6, 4-6, Иво выполнил подачу со скоростью 251 км/ч, установив тем самым абсолютный мировой рекорд и побив рекорд Энди Роддика, подавшего со скоростью 249,4 км/ч в полуфинале Кубка Дэвиса 2004 года.

Шаг #1.

Самое простое решение, которое приходит в голову - вынести повторяющиеся значения одно над другим, посмотрим, что у нас получится.

Хм...Едва ли полученные результаты оправдали наши надежды. Мы до сих пор не можем сделать никаких значимых выводов из получившейся картинки.

Шаг #2.

Следующим шагом давайте попробуем сгруппировть наши наблюдения в одинаковые интервалы, например, с шагом в 20 км/ч. Может быть такой подход позволит нам представить результаты в наглядной форме?

Бинго! Распределение значений по диапазонам позволило нам визуализовать наш ряд данных таким образом, что мы с первого взгляда и с довольно высокой точностью можем оценить базовые метрики совокупности наших наблюдений - медиану и среднее. Такая визуализация и называется гистограммой.

Важно помнить! Существенное значение при построении диаграммы имеет выбор диапазона. Если вы зададите диапазон слишком маленьким, например равным 2-3 км/ч в нашем случае, то вы едва ли заметите разницу с графиком выше. Если же диапазон будет слишком большим, например 50 км/ч, то все ваши наблюдения попадут в пару столбцов, что так же будет абсолютно неинформативно и бесполезно с точки зрения дальнейшего анализа.

Пример на реальных данных.

От абстракции перейдем к реальным цифрам. Посмотрим как выглядела гистограмма распределения скорости первой подачи у мужчин на Ролан Гаррос в 2021 году.

Спасибо Jeff Sackmann! Эти, и большая часть данных, которые мы будем использовать в будущем, взяты с github теннисного энтузиаста и аналитика, создателя tennisabstract.com, Джефа Сакмана.

В выборке у нас ~5 000 очков, а результаты едва ли удивят искушенных любителей тенниса, мы видим, что большая часть подач ложится в диапазон от 160 до 190 км/ч при среднем значении 171 км/ч.

Гистрограммы - отличный инструмент для быстрого анализа.

Ниже еще один наглядный пример использования гистограмм для сравнительного анализа продолжительности розыгрышей на самом медленном покрытии - грунте и самом быстром - траве. Надо сказать, что результаты могут удивить многих.

Да, с одной стороны, средняя продолжительности розыгрыша на грунте выше, в первую очередь, благодаря большЕму числу очень продолжительных розыгрышей - 20+ ударов. Однако, медианное значение в представленных выборках - одинаково, как и доли розыгрышей, в которых было 0-3 ударов и 3-9 ударов. Таким образом, стереотип о том, что на траве розыгрыши существенно короче, чем на грунте - заблуждение. Pro игроки одинаково успешно возвращают мяч в игру с приема и «завязывают» обмен ударами на любом типе покрытия.

P.S. К разнице между медианой и средним мы вернемся в будущем.

Предсказание будущего.

Помимо сугубо аналитической функции, гистограммы позволяют нам спрогнозировать будущие результаты наблюдений. Совершенно очевидно, что если подавляющее число розыгрышей заканчивается в 1-6 ударов [правый график на рисунке ниже], то вероятность того, что и следующий розыгрыш будет состоять из менее, чем 6 ударов - крайне высока [так закончились 89% розыгрышей из приведенной выборки], в то же время вероятность увидеть розыгрыш продолжительностью более 10 ударов - крайне мала [так закончились всего 11% розыгрышей из приведенной выборки].

P.S. О видах распределения и их особенностях мы поговорим отдельно, так как понятие «распределение» - ключевое в статистике.

Если было интересно - подписывайтесь и плюсуйте под постом.

И помните, что даже в спорте играть надо головой. До новых встреч!