Контекстная статистика: эксперимент в кустарных условиях продолжается
«Существует три вида лжи: ложь, наглая ложь и статистика», - этот бородатый афоризм, который приписывают Марку Твену, лично у меня вызывает противоречивые чувства.
С одной стороны, трактовка статистики – процесс в значительной степени творческий, и при желании и определенной сноровке подобрать какие-то цифры в обоснование готового тезиса (конечно, не заведомо абсурдного) не так уж и сложно. Обмануть статистикой, впрочем, вполне можно и без злого умысла – например, из-за неаккуратных допущений, негодных источников или собственной невнимательности.
Получается, ее правдивость и достоверность упирается в пресловутый человеческий фактор, и во многом определяется тем, насколько критично относится к ее сбору, анализу и восприятию каждый, кто в этой цепочке задействован. Так что статистика, конечно, совсем не тождественна лжи, хотя в качестве инструмента для манипуляций используется частенько.
Чтобы не стать жертвой обмана, нужно лишь подвергать разумным сомнениям информацию, которая к нам поступает, и пользоваться заслуживающими доверия источниками. А еще – не зацикливаться на статистике «мусорной», которая затуманивает мозги, обесценивая простые и интуитивно понятные истины.
В последнюю пятилетку в футбольной статистике произошла настоящая революция, и некогда эпичные бубновские разборы ТТД в сравнении xG, Packing и прочими новомодными фичами выглядят телегой на фоне спорткара (как дань уважения мэтру - нехитрое оформление этого текста). Но использовать продвинутую статистику «в мирных целях» тоже следует с осторожностью, памятуя о ее недостатках и принятых допущениях.
Недостатки наиболее популярных xG-моделей известны – это и игнорирование ряда ключевых параметров игрового контекста (в частности, уровня сопротивления в момент нанесения удара, из-за чего по умолчанию обесцениваются, например, дальние выстрелы), и переоценка ударов с теоретически более выгодных позиций, которые на практике реальной голевой перспективы могли не иметь вовсе.
В моем понимании, уровень сопротивления, дистанция удара и его качество должны оцениваться в комплексе, в противном случае расчетная модель чрезмерно искажает реальность. Неочевидные и непрозрачные коэффициенты, в которых всецело учтена только одна из этих трех составляющих, становятся еще более мутными и непонятными.
Именно поэтому я по-прежнему опасаюсь с головой нырять в этот xG-омут и все еще не отказался от идеи развития контекстной модели, в которой ситуации с нулевой голевой перспективой «выводятся за скобки» и не подвергается анализу за ненадобностью. По очень приближенным оценкам, которые основаны на четырехлетней истории наблюдений и системного сбора контекстной статистики, такой перспективой обладают в лучшем случае 30% ситуаций с ударами. Стало быть, остальные 70% - это тот «мусор», который перерабатывает тот же xG (пусть даже коэффициенты на эти «мусорные» удары в большинстве случаев невысоки и в долгосрочной перспективе не влияют на общие тренды).
При оценке игровых ситуаций на предмет голевой принадлежности фактор субъективизма неизбежно присутствует, хотя «пограничных» моментов, которые можно трактовать двояко, не так уж и много. Выработка алгоритмов и их последовательное применение на практике позволяет снизить субъективную составляющую измерительной погрешности, а послематчевые расшифровки голевых моментов, которые регулярно публикуются здесь в послематчевых текстах, делают процесс более прозрачным для стороннего наблюдателя.
Пару недель назад аудитория постоянных читателей этого блога перевалила за отметку в три тысячи – и это показатель доверия к этому блогу как к источнику информации. Со своей стороны хочется, чтобы объем этой информации динамично рос не в ущерб качеству – рассчитываю, что определенные подвижки в этом направлении произойдут в самое ближайшее время.
Процесс сбора контекстной статистики с детальным описанием атакующих цепочек, как ни крути, штука достаточно трудоемкая, и до сей поры охватывал только матчи российских топ-клубов – на большее элементарно не хватало времени. Но благодаря зимней паузе и очередному витку оптимизации «программного обеспечения» наконец-то появилась возможность отказаться от «дискриминации по клубному признаку», из-за которой картина нашего представления об РФПЛ была недостаточно объемной.
Несмотря на то, что серьезный интерес к командам «второго эшелона» есть преимущественно «по месту прописки», оценить их конструктивный потенциал в конкурентной борьбе (как в своей «весовой категории», так и на уровне «топ-тяжей») и найти в их рядах неочевидных столичному глазу претендентов на повышение – это уже совсем другая и куда более захватывающая история. Не обещаю добраться разве что до Хабаровска, но болельщики клубов с европейской территории России могут потихоньку запасаться попкорном.
Подробнее о базовой методике сбора данных в рамках рассматриваемой здесь контекстной статистической модели можно прочитать здесь.
Спасибо всем, кто не ленится читать «Инженерный подход», репостить, плюсовать и комментировать!
Подписывайтесь на блог, будет интересно.
- да что ты знаешь о футболе мальчик, да я в твои годы!
Всё это напоминает мне рассказы: да я в твои годы всех девчонок шпилил. А по факту только руку свою шпилил
Смотреть эту кричащую голову с его ТТХ перестал после первых 30 секунд.
Автору спасибо, прочитал на дыхании