Корреляция кол-во голов vs. кол-во игроков, ЮФЛ-МРПЛ, 2020/2021, 13 туров
Друзья, всем привет. Сегодня обсудим увлекательную вещь из мира анализа данных - корреляция. Корреля́ция (от лат. correlatio «соотношение»), или корреляцио́нная зави́симость — статистическая взаимосвязь двух или более случайных величин. При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. Корреляция бывает нескольких типов: параметрическая, непараметрическа. А также, линейная и нелинейная.
Сегодня мы рассмотрим пример линейной корреляции двух величин: кол-во игроков в команде vs. кол-во забитых голов. Возмём данные по ЮФЛ и МРПЛ за 13 туров. Бытует гипотеза, что чем больше игроков в команде, тем длинее скамейка, больше вариативность игры, как следствие сильный, конкурентный состав и больше забитых голов, которые трансформируются в победы. Эту гипотезу мы сегодня и проверим. Увеличивается ли кол-во голов с увеличением кол-ва игроков? Итак, на графике у нас две оси: левая, применима ко всем 4-м турнирам - кол-во игроков, и нижняя, для каждого турнира своя - кол-во голов. Серая линяя на каждом графике - тренд показывающий, собственно, есть хоть какая-то корреляция или нет. Если зависимость сильная, то она направлена снизу слева направо вверх, демонстрируя, что при увеличении игроков растут и голы. Например, как по Молодёжкам-А. Но, здесь вмешивается такой статистический показатель, как коэффициент корреляции. Мы здесь рассмотрим коэффициент Пирсона, потому, что когда вообще где-то слышите корреляция или математическая зависимость двух переменных, в 90% случаев имеется именно корреляция Пирсона. Линяя линией, но у корреляции есть своё число, есть свой коэффициент, которая и показывает, а насколько же сильняя зависимость между голами и игроками. Отмечу, что этот коэффициент на графике не отображается, особенность визуализации, но на примере Молодёжек-А видно всплывающее окошко, в котором виднеется показатель R2 = 0,33 если извлечь из него квадратный корень, то получится 0,57 это и будет коэффициент корреляции Пирсона. Его максимальное значение = 1, минимальное = -1. Тоесть, если 1, то зависимость сильная, если -1, то зависимость тоже сильная, но обратная, а если он болтается возле 0, то корреляции нет. Таким образом понимаем, что по Молодёжкам-А есть некая зависимость от кол-ва игроков и кол-ва забиваемых голов. По Молодёжкам-В мы видим обратную корреляцию, линия направлена в обратную сторону, тоесть чем меньше игроков, тем больше голов. ПО ЮФЛ-1 картина схожа с М-а, но на скриншоте этого не видно, коэфициент Пирсона близок к 0, а по ЮФЛ-2 тренд лежит горизонтально, что означает коррелицией и не пахнет. Таким образом, можно сделать вывод, что есть некая зависимость между этими показателями, только по Молодёжкам-А. Так, что гипотезу не принимаем, миф развенчен. :)