Саберметрика. Часть 2. Краткая история
Прежде чем начать раскрывать все грани саберметрики, хотелось бы ознакомить заинтересовавшихся читателей с краткой историей развития саберметрики, ведь как говорится, "кто не знает своего прошлого, у того нет будущего".
* * * * *
Хоть некоторые источники вполне обоснованно замечают, что история саберметрики началась с выпущенной в 1964 году книги Эрншоу Кука "Percentage Baseball", а кое-кто и вовсе говорит, что ещё в начале века кто-то там пытался писать что-то аналитическое, реально история саберметрики началась с фигуры Билла Джеймса (фото). В 1977 году Джеймс написал первый выпуск альманаха "The Bill James Baseball Abstract", в котором он пытался искать совершенно новый подход к анализу бейсбольной статистики. С 1977 по 1981 годы Джеймс публиковал альманахи на свои деньги, рассылал экземпляры в офисы различных клубов MLB, но большого успеха не снискал до 1982 года, когда благодаря нескольким статьям в популярном Sports Illustrated его работы привлекли некоторое внимание как больших холдингов, так и простого народа. В 1982 году "The Bill James Baseball Abstract" впервые был выпущен компанией Ballantine и тут же получил популярность в бейсбольной тусовке. Читателей привлекала новизна исследований Джеймса и лаконичные, но умные и логичные комментарии к, казалось бы, бесконечным колонкам цифр. Джеймс выпускал альманах до 1988 года, после чего переключился на подобные, но немного отличающиеся проекты. С 2003 года до сих пор он ежегодно выпускает альманах "The Bill James Handbook", с 2008 года работает его сайт Bill James Online, ну и отдельные книги Джеймс не устаёт выпускать: "Bill James Historical Baseball Abstract" (1985, 1988), "The Bill James Guide to Baseball Managers" (1997), "The New Bill James Historical Baseball Abstract" (2001), "Win Shares" (2002), "The Bill James Gold Mine" (2008-2010) и "The Neyer/James Guide to Pitchers" (2004, в соавторстве с бывшим помощником Робом Нейером).
Но долгое время работы Джеймса использовались в основном для подготовки к игре в стремительно набирающий популярность фэнтези бейсбол, а руководства клубов большого внимания работам Джеймса и других саберметриков не уделяли. Тем не менее, когда в 2002 году миллионер Джон Генри стал новым владельцем Бостон Ред Сокс, он решил перевести управление клубом на новаторские рельсы, и когда у него не получилось заарканить одного из первых поклонников практического использования продвинутого анализа статистики, генерального менеджера Атлетикс Билли Бина, он пригласил Джеймса на роль статконсультанта. После прихода Джеймса Ред Сокс за 11 лет трижды выиграли Мировые Серии, тогда как до "эры Джеймса" не могли выиграть ни одной за 85 лет.
Сколько в победах Ред Сокс заслуг Билла Джеймса, точно не сказать, а вот в развитии и популяризации саберметрики его заслуг столько, что их даже сложно оценить. Он разработал первую комплексную статистику под названием "Runs created", которая объединила различные атакующие показатели в попытке показать качество как одного хиттера, так и всей команды. Он разработал защитную статистику "Range factor", которая показывает умение филдера крыть больше территории на поле, при этом делая успешные розыгрыши. Статистика "Win shares", предшественник WAR, позволяла объединить все аспекты игры игрока в один показатель, коррелирующийся с победами и с помощью коэффициентов стандартизирующий показатели для всех эпох в истории бейсбола. "Pythagorean Winning Percentage" позволяет постфактум оценить, сколько побед в сезоне должна была одержать команда, что даёт возможность сравнить это число с настоящим количеством побед этой самой команды и узнать, насколько игроки "прыгнули выше головы". "Game Score" используется сейчас в различных Box score как оценка качества игры стартового питчера в отдельно взятой игре. Его "Similarity scores" используются, чтобы найти наиболее похожих по уровню игроков из всей базы данных бейсбола, например, на сайте Baseball-Reference. Статистики Джеймса - как эти, так и многие-многие другие, - не всегда были идеальными, и именно это объясняет то, что большинство из вышеупомянутых метрик сейчас массово не используются. Но они всегда делали прорыв в какой-то области, после чего множество других исследователей улучшали формулы Джеймса, "вылизывая" их до большей степени правдивости и называя другими именами. В то же время Джеймс переключался на другие направления, делал прорыв там, и так до бесконечности. Кто знает, сколько эксклюзивных статистик за эти годы Джеймс придумал специально для работы статотдела Ред Сокс? Впрочем, в любом случае Джеймса не зря называют "отцом саберметрики" - он годами исполнял роль своеобразного тяжёлого танка, проламывающего фронт соперника и идущего в прорыв, после чего лёгкие танки, пехота и артиллерия устремлялась в пробоины и развивала успех.
* * * * *
В 1984 году была опубликована книга "The Hidden Game of Baseball" авторов Пита Палмера и Джона Торна. Палмер, который отвечал в книге за математическую сторону вопроса, ввёл в бейсбольно-статистический лексикон понятие "Linear Weights", популярно объяснив, что каждое действие на бейсбольном поле имеет свою ценность и нужно рассматривать его через призму этой ценности. В мире, где главной статистикой хиттера был AVG, который смотрит на любой хит одинаково и не учитывает уоки, это вполне очевидное заключение оказалось чуть ли не откровением. Кроме этого, Палмер на основании данных прошлого, разработал таблицу, из которой можно узнать, сколько ранов в среднем зарабатывает команда в каждой из ситуаций на поле (пустые базы, 0 аутов; пустые базы, 1 аут; и так далее). Как "Linear Weights", так и таблица вероятности ранов стали базовыми принципами для развития самых разнообразных саберметрических теорий и показателей.
* * * * *
Но наибольшее развитие саберметрика получила, конечно же, после популяризации персональных компьютеров, облегчающих исчисления, а также возникновения Интернета. В 1997 году группа из четверых саберметрически настроенных писателей (Клэй Дэвенпорт, Рэни Джазайерли, Кристина Карл и Джо Шиэн), которых за год до того собрал Гэри Хакабэй для написания прогностического сборника по всем командам MLB, переместились на страницы Интернета, где Хакабэй основал сайт Baseball Prospectus. Дэвенпорт, который единственный из оригинальной четвёрки был не просто писателем, а ещё и математиком, разработал для сайта несколько эксклюзивных метрик - "Equivalent Average" (EqA, сейчас называется True Average, TAv), которая не только позволяет оценить общую силу хиттера, а и легка в интерпретации, так как приведена к шкале всем знакомой AVG, и "Davenport Translations", систему, которая позволяла стандартизировать не только показатели разных игроков из разных эр бейсбола, а и показатели игроков майнор лиг и зарубежных лиг. В 2011 году Дэвенпорт, не соглашаясь с политикой сайта, ушёл с BP, и основал собственный сайт, где продолжает заниматься прогнозами.
Baseball Prospectus зарекомендовал себя как сайт, который не только заполняет Интернет различным контентом от писателей, а и разработкой собственных статистик на все случаи жизни, тем самым немного обособляясь от других саберметрических сайтов, которые так или иначе используют чужие наработки. Поэтому неудивительно, что многие факты и теории саберметрики в итоге появлялись именно на страницах Baseball Prospectus. Так, ресёрчер Кит Вулнер ввёл в саберметрику понятие "Replacement player", игрок замены, и на основании её разработал "Value over replacement player" (VORP), статистику, которая показывает, на сколько ранов игрок лучше этого самого условного игрока замены. Чуть позже VORP превратилась в "Wins above replacement player" (WARP), но принцип остался тем же, только раны перевели в победы. С 2012 года Вулнер работает аналитиком в Кливленд Индианс.
В 2003 году Baseball Prospectus выкупили у статистика Нэйта Силвера права на прогностическую систему PECOTA (изначально названа в честь игрока Билла Пекоты, но позже придумали расшифровку - "Player Empirical Comparison and Optimization Test Algorithm"), которая была способна на прогнозирование показателей игрока в следующем сезоне на основании его показателей в прошлые годы, а также показателей сходных игроков в том же возрасте. Частью сделки был контракт Силвера с BP, где он продолжил самые различные исследования на бейсбольную тематику до 2009 года, когда его увлекло исследование и прогнозирование политических выборов. Блог Силвера, "FiveThirtyEight", пользовался определённым интересом в политических кругах, но настоящей мировой известности он добился, когда на выборах 2012 года все аналитики были посрамлены - Силвер абсолютно точно предсказал исходы президентских выборов во всех штатах, хоть до выборов некоторые его прогнозы вызывали только насмешки.
Ворос МакКрекен в 1999 году был всего лишь студентом, которому в голову пришла, как впоследствии оказалось, революционная идея насчёт влияния защиты на показатели питчера, и как можно убрать это влияние из обычных статистик, оценивающих работу питчера. Но особого признания исследование МакКрекена не получило до 2001 года, когда его статья появилась в Baseball Prospectus. Теория "Defense Independent Pitching Statistics" (DIPS) быстро получила всемировое признание и сейчас является одним из краеугольных камней в оценке питчера, несмотря на то, что метрика для оценки, придуманная самим МакКрекеном, "Defense-Independent ERA" (dERA), уже давно канула в Лету. Спустя всего лишь полтора года МакКрекен был принят на работу в статотдел Бостон Ред Сокс, где работал два года. После ухода из Ред Сокс МакКрекен в бейсболе практически не работает, тем не менее, до сих пор пользуется громадным уважением всего саберсообщества.
Также на страницах Baseball Prospectus впервые появилась метрика JAWS от Джэя Джаффе, которая помогает определить, какой игрок достоин Зала Славы, а также первый ресёрч Макса Марчи о питч-фрэйминге. Джаффе сейчас пишет в блоге "The Strike Zone" на сайте Sports Illustrated, а Марчи, едва успев написать книгу "Analyzing Baseball Data with R", буквально вчера был принят на работу в аналитический отдел Кливленд Индианс.
* * * * *
Но жизнь в саберсообществе не ограничивалась Baseball Prospectus, несмотря на то, что через него прошли чуть ли не все известные члены саберметрического коммьюнити. В 2006 году вышла книга "The Book: Playing the Percentages in Baseball", написанная тремя авторами, двое из которых, Том Танго и Митчел Лихтман, являются одними из самых значительных саберметриков нового поколения. Работающий под псевдонимом и не раскрывающий своего настоящего имени Танго, помимо посильного участия в написании книги, которая стала практически настольной Библией саберметрики (аналогию усиливает и то, что в английском языке "The Book" (то бишь, просто "Книга", с большой буквы) называют христианскую Библию), разработал множество метрик, которые сейчас являются очень популярными и важными в оценке игроков. Самыми известными являются wOBA, аналог EqA/TAv Дэвенпорта для комплексной оценки хиттера, и FIP, намного улучшенная версия dERA МакКрекена для очищения работы питчера от влияния на неё защиты за его спиной. Плюс к этому Танго разработал и прогностическую систему Marcel, ну и ежегодно собирает мнения фанатов об умениях игроков, после чего с помощью собственных формул создаёт "Fans Scouting Report". Блог Танго (Tangotiger - никнэйм Танго. Немного странновато, что человек, пишущий под псевдонимом, имеет ещё и никнэйм, но...) является самым полным саберметрическим блогом в Интернете, там постоянно собираются все новые важные ресёрчи с комментариями самого Танго. Кроме бейсбола, как истинный канадец, Танго любит и занимается исследованием хоккея, и работал статконсультантом не только в Сиэтл Маринерс и Торонто Блю Джейс, а и в нескольких клубах NHL. Впрочем, с 2013 года Танго работает только на Чикаго Кабс.
Митчел Лихтман не столь популярен и не столь крут, как Танго, но и его роль в исследованиях, отражённых в "The Book", нельзя игнорировать (например, ресёрч по тому, что стартовые питчеры начинают играть значительно хуже, когда проходят через лайнап в третий раз - работа именно Лихтмана). Помимо работы с Танго, Лихтман лично разработал защитную метрику "Ultimate zone rating" (UZR), которая сравнивает случившийся исход розыгрыша с данными по подобным розыгрышам в прошлом. Лихтман работал консультантом многих клубов MLB, сейчас ведёт собственный блог (MGL - никнэйм Лихтмана).
* * * * *
Один из последних прорывов в саберметрике случился, как ни странно, с невольной подачи MLB. В 2006 году компания Sportsvision создала систему PITCHf/x, которая представляет собой связанные видеокамеры, установленные на всех стадионах MLB. Она служит для того, чтобы отслеживать каждый брошенный питч, записывая его тип, скорость, движение (вертикальное и горизонтальное), вращение и локацию в страйковой зоне, а также release point питчера, точку, в которой его рука избавляется от мяча при броске. Изначально MLB воспринимала эту систему как просто развлечение для фанов и начала показывать её данные в трансляциях по MLB Gameday, но саберметрики быстро усмотрели в этом невспаханное поле для исследований, и сейчас PITCHf/x используют все саберметрически настроенные сайты, а статистика для собственного ресёрча чего угодно доступна на многих ресурсах.
О курсе:
This course will cover the theory and the fundamentals of the emerging science of Sabermetrics. We will discuss the game of baseball, not through consensus or a fan’s conventional wisdom, but by searching for objective knowledge in hitting, pitching, and fielding performance. These and other areas of sabermetrics will be analyzed and better understood with current and historical baseball data.
The course also serves as applied introduction to the basics of data science, a growing field of scholarship, that requires skills in computation, statistics, and communicating results of analyses. Using baseball data, the basics of statistical regression, the R Language, and SQL will be covered.
This course has been successfully taught at the Experimental College at Tufts University since 2004. Many of its former students have gone on to careers writing about baseball and working in various MLB baseball operations and analytics departments.
хотяб пары основных)
Недостатки есть, конечно, как и у любой статистики, но "минусы" предполагают сравнение со стандартной статистикой. А в таком сравнении минусов у саберметрики нет - все её недостатки у стандартной статистики ещё больше.
- недостатки есть, думаю это не позор.
- для меня важным-неадекватность порой ведения дискуссии.И это при том что использование саберметрики для прогнозов и выводов в плей-оф сомнительно.
- необходимость большой выборки, значительного массива данных для обработки. Саберметрика в любительских лигах или краткосрочных турнирах трудно реализуема.
В связи с наличием вычислений и трудоемъкой обработки данных существует там где за это могут достойно заплатить. Начинали романтики (но это обычная тактика гениев) а теперь это товар, и хороший.
- сложность формул, их постоянное усовершенствование и модернизация. Рядовой пользователь только полагается на выводы "ученых", проверить и перепроверить не в состянии частенько.
- конечно, есть, как и у любой другой статистики.
- для прогнозов на одну игру - бесполезно, для прогнозов на целый сезон - вполне себе полезно.
- большая выборка нужна, конечно же, как и для любой статистики.
- не нужно полагаться на выводы учёных. Любое важное открытие, связанное с громоздкой формулой, перепроверяется не один раз такими же учёными, потому и является в конце концов аксиомой. Теорию DIPS МакКрекена перепроверяли все, начиная с Билла Джеймса, например - слишком уж вывод был неправдоподобный, а личность обычного студента не внушала доверия. Да и, думаю, тот, у кого есть высшее математическое образование, что угодно может проверить и сам, поработав с базой данных Retrosheet.