Примитивный кластерный анализ ведущих европейских чемпионатов
Причинами того, что это исследование было проведено, являются желание на безработном досуге изучить язык R и ограниченность круга статистических интересов футболом.
Целью анализа было разобраться, какие команды что из себя представляют в последние годы, т.к. я не слишком активно следил за всеми турнирами и немного потерялся в этом, а также получить общее представление о том, что происходит в какой из стран и, например, выбрать чемпионат, за которым наблюдать было бы интереснее, чем за другими. Кроме того, анализ должен помочь сопоставить нетоповые клубы различных чемпионатов, если кто-то вдруг задастся таким вопросом.
Для исследования были использованы данные последних трёх сезонов 7 ведущих европейских чемпионатов (топ-5 + Португалия и Россия). Брались только комады, находящиеся на данный момент в высших дивизионах и проведшие в них хотя бы два последних года. Рассматривались занятые командами места и их воприятие букмекерами, т.е. сумма коэффициентов на победы команды в каждом из матчей сезона. Совмещение этих факторов должно показать класс команды более точно, чем фактичекий результат, т.к. у команды мог сложиться более-менее случайно удачный или неудачный сезон.
По итогам анализа команды были разбиты на 7 кластеров (кажется, что много, однако сжатие сделает разбивку недостаточной):
elite - команды, не опускавшиеся ниже 3-его места;
top - команды, входившие в тройку и не опускавшиеся ниже зоны Еврокубков;
subtop - команды, не входившие в тройку и не опускавшиеся ниже зоны Еврокубков или команды, входившие в тройку, но опускавшиеся ниже зоны Еврокубков;
upper - команды, выходившие в Еврокубки и не опускавшиеся ниже первой десятки;
dark horse - команды, выходившие в Еврокубки и опускавшиеся ниже первой десятки;
mediocre - команды, не выходившие в Еврокубки, но и не приближавшиеся к зоне вылета;
bad - команды, не выходившие в Еврокубки и приближавшиеся к зоне вылета.
В различных чемпионатах состав кластеров получился сильно разным, и исходя из него можно дать обобщённую характеристику каждого из чемпионатов, навроде идущей по НТВ+ рекламы чемпионата Италии как "бескомпромиссных битв середняков" или Германии как "самого непредсказуемого, за исключением чемпионства Баварии".
Общая картина такова:

Ниже приведены более подробные данные по каждому из чемпионатов.
Германия

Очевидным лидером является Бавария, также всегда борется за высокие места Байер. Боруссия Дортмунд и Шальке также сильны, однако менее стабильны. Целых 6 команд попали в категорию dark horse, что подтверждает тезис о непредсказуемости Бундеслиги. К середнякам относится только Майнц, откровенно безнадёжных команд только 3.
Англия

Один из двух чемпионатов, в которых заполнены все 7 кластеров. При этом наиболее заполнены нижние, а тёмная лошадка только одна - Саутгемптон. Т.е. английский чемпионат является сильно упорядоченным и у каждой из более-менее сильных команд есть своё законное место в таблице, от которого они не особо отклоняются от сезона к сезону.
Франция

Здесь также заполнены все кластеры и много ни на что не рассчитывающих команд. В целом, отличия от Англии незначительные. Лично для меня открытие - выход Сент-Этьена на стабильный уровень Еврокубков наравне с Лиллем.
Италия

В Италии нет борьбы за чемпионство, зато упорная борьба за остальные высокие места (top + subtop содержат 5 команд, больше, чем в любом другом турнире), а середняков нет. И больше всего ни за что не борящихся команд именно здесь.
Португалия

В Португалии велик разрыв между борющимися за чемпионство Бенфикой и Порту и остальными командами, которые распределены между кластерами равномерно.
Россия

ЦСКА и Зенит также имеют отрыв от других команд, зато за остальные высокие места борьба идёт серьёзная. Тёмные лошадки и середняки отстутствуют как класс, т.е. первая восьмёрка команд значительно сильнее более низших.
Испания

3 элитных команды далеко впереди остальных (пуст даже кластер subtop), за остальные еврокубковые места идёт равная борьба с периодическим участием тёмных лошадок. Неожиданность - стабильное нахождение Малаги в верхней части чемпионата.
Общих выводов по чемпионатам делать не буду (разве что - что НТВ+ прав в своих рекламах), но можно найти забавные вещи типа того, что Интер в Италии занимает сейчас позиции, аналогичные Рубину или Кубани в России, или что Байер в Германии - такой же вечно борющийся за места не выше третьего, как Арсенал в Англии. Анализ вышел достаточно неглубоким, однако, кажется, могущим дать представление о том, кто есть кто в европейском футболе на данный момент.
Интересно подобное увидеть по нетоповым чемпионатам, к примеру, по Южной Америке.