10 мин.

Олег Новиков: «Sports.ru - огромная база статистики, сотни потоков в соцсетях и приложений, миллионы пользователей»

"В отделе аналитики два программиста, тестировщик, математик и пара аналитиков - в общем, нас двое" - руководитель отдела аналитики Sports.ru Олег Новиков рассказал о работе, спорте и увлечениях 

- Здравствуйте, Олег. Если можно, немного воспоминаний. Как вы узнали про Sports.ru?

- Добрый день! Если честно, я уже не помню точно - впервые на сайте оказался где-то в 2004 году. Интересовался новостями баскетбола, читал в разных местах, но потом понял, что, выбирая из нескольких ссылок на спортивные сайты, всегда кликаю на Sports.ru - стал сразу заходить сюда.

- Откуда любовь к баскетболу?

- Мне всегда нравилось играть в баскетбол, наверно, потому что рядом с домом была площадка. Помню, когда приходил из школы, по телевизору показывали матчи Суперлиги. Так я начал следить за европейскими турнирами, потом на сайте появился блог Этторе Мессины - стало интересно читать про тактику и подготовку к играм.

Дэвид Блатт один из лучших тренеров в Европе, он хорошо знаком со многими игроками ЦСКА

- Любимый баскетболист?

- Теодорос Папалукас.

- Большой игрок, согласен. Скажите, чего ждать от финала четырех этого сезона?

- Как минимум, полуфиналы должны быть очень зрелищными - ЦСКА снова встречается с Маккаби в финале четырех. Будет интересно посмотреть на игру армейцев против команды Дэвида Блатта. Ну и Барса - Реал, конечно, тоже всегда захватывающее дерби.

- Кому будет сложнее в битве за баскетбольную Испанию?

- Сложно сказать, у меня нет каких-то предпочтений среди испанских команд. В финале четырех часто происходят неожиданные вещи, так что я бы не делал прогнозов на основании плей-офф и топ-16. В этом весь интерес финальных игр Евролиги - никто не ожидал победы ЦСКА в 2006 году или внезапного возвращения Олимпиакоса в 4-й четверти в Стамбуле. То, что происходило по ходу сезона, сейчас не так важно, в последние годы результат матчей финала четырех часто решался на последних секундах.

- ЦСКА - фаворит, или один из?..

- Мне кажется, у ЦСКА очень хорошие шансы в этом году - есть Этторе Мессина, достаточно сильных и разносторонних игроков, хорошая история встреч с "Маккаби" в финале четырех.

- Разве Дэвид Блатт не умный тренер и не найдет, чем ответить?

- Конечно, Дэвид Блатт один из лучших тренеров в Европе, он хорошо знаком со многими игроками ЦСКА. Его команды обычно играют в быстрый, зрелищный баскетбол - будет здорово еще раз увидеть, как это сочетается с игрой ЦСКА. Тем более, что в топ-16 они уже встречались, и результат второй игры решался на последних минутах.

Sports.ru - огромная база статистики, сотни потоков в социальных сетях и приложений, миллионы пользователей

- Я видел достаточно игр ЦСКА, у меня возникла мысль, что Этторе Мессина не придумал, как "связать" Парго и Уимса.

- Мне скорее интересней просто посмотреть хорошую зрелищную игру сильных команд, а не анализировать связки и комбинации. Думаю, что в начале сезона такие проблемы могли быть, но сейчас все уже сыгрались и команда вышла на свой лучший уровень и готова к финальным играм.

- Кроме баскетбола еще увлечения?

- В первую очередь, статистика и анализ данных - для меня это и работа, и учеба, и хобби. Сейчас огромное количество самых разных открытых источников данных - социальные сети, Grouplens, Last.fm, Kaggle регулярно проводит соревнования по анализу данных из самых разных областей.

Ну и, конечно, Sports.ru - огромная база статистики, сотни потоков в социальных сетях и приложений, миллионы пользователей, огромное количество контента, постоянно добавляются новые фичи - все это большое количество данных, в которых интересно находить новые возможности для развития и просто интересные факты.

- Анализ данных в каких областях для вас представляет серьезный интерес, спорт - исключение.

- Все, что связано с персонализацией и поиском информации пользователями. Это одна из важных проблем в интернете сейчас - контента становится все больше, и возникает задача поиска интересных страниц для конкретного пользователя. На Sports.ru много новостей, постов на самые разные темы - если к нам случайно попадет болельщик "Лацио" и прочитает одну новость, то среди информации про другие клубы он мог бы не заметить, что у нас есть мобильное приложение конкретно про его любимую команду, несколько блогов про итальянский футбол и страница тега, где в одном месте собрано все, что связано с клубом.

У людей разные предпочтения - кому-то нравятся веселые гифки, кто-то любит длинные посты про тактику. При этом на сайте есть и то, и другое - каждый может читать то, что ему интересно. Sports.ru в этом плане уникальное место, так как у посетителей, как правило, есть конкретные клубные предпочтения, а на сайте огромное количество контента на самые разные темы.

- Как вы стали частью Sports.ru?

- В 2010 году случайно увидел вакансию разработчика и подумал, что надо зайти познакомиться, да и вообще было бы здорово работать на сайте, где я и так провожу по полдня. Потом постепенно стал заниматься персонализацией и веб-аналитикой, в итоге полностью переключился на работу с данными.

- Что сложнее: искать статистику или ее анализировать?

- Сам по себе сбор данных - обычно довольно простая задача. Основные сложности связаны с хранением, возможностью быстрого доступа к большому объему инфомации и анализом, проверкой гипотез и интерпретацией результатов экспериментов.

Например, каждое обновление функционала на сайте проверяется в сравнении с предыдущей версией, исследуются возможные сценарии взаимодействия людей с новыми возможностями сайта. Ставится гипотеза, что один вариант лучше другого, то есть пользователи станут счастливее, какие-то показатели поднимутся; изучается статистика и принимается решение о том, какой вариант лучше.

- Обучение в Высшей школе экономики помогает в работе или скорее отвлекает?

- Скорее дополняет - я заканчиваю кандидатскую про высоконагруженные рекомендательные системы, это как раз одна из задач, которые я решаю в Sports.ru. Учеба в аспирантуре дает возможность развиваться в теоретических науках, по-другому посмотреть на задачи, которые часто воспринимаются как чисто прикладные. Объем трафика и контента на Sports.ru такой, что обычные подходы к рекомендательным системам не работают - приходится использовать методы машинного обучения для более эффективной работы с данными.

- В вас сочетаются любовь к спорту и статистике. Бывают вещи, когда статистика в спорте вас разочаровывает или огорчает? Из последних событий, например, что это было?

- Любое применение статистики в спорте может только радовать. Кстати, у Миши Калашникова был интересный пост про это.

- Сомневаюсь. Восьмой финал Еврокубков фанатам "Бенфики" вряд ли принес удовольствие. Любите смотреть футбол?

- Если честно, в футболе смотрю только нарезки с красивыми голами - просмотреть матч целиком никогда не удавалось.

- С чем это связано?

- Не знаю, скорее всего я просто привык к более быстрому баскетболу, после этого футбол смотреть не так интересно. Да и играть я никогда не умел.

Для обычных пользователей сайт представляется очень просто: база данных и сервер, где это все лежит. Это на самом деле так или там много моментов, которые играют роль и имеют значение?

- Да, конечно, тем более, что сейчас это уже три сайта, около 700 клубных потоков в социальных сетях и почти 200 приложений. В феврале на Sports.ru зашло 12 миллионов человек - это очень большая нагрузка на сайт и огромное количество информации, которое нужно обработать и проанализировать, чтобы понять, за счет чего можно сделать работу пользователей с сайтом более удобной, где возникают проблемы и так далее.

- Расскажите, из чего состоит техническая сторона сайта, в таком случае.

- Вот так:

На этой схеме структура нашей системы аналитики и персонализации - она состоит из трех основных компонент: сбор данных, хранилище и вывод результата в виде графиков с динамикой по наиболее важным метрикам (например, посещаемость) или персонализированных рекомендаций. Синим отмечена инфраструктура Sports.ru, оранжевым - различные сервисы по работе с данными.

Одна из основных сложностей при разработке была связана с хранением большого объема информации таким способом, чтобы ее можно было легко и быстро запрашивать. В результате, мы получили возможность улучшать взаимодействие пользователей с сайтом, используя информацию о предпочтениях конкретного пользователя для того, чтобы адаптировать сайт под его интересы.

В отделе аналитики два программиста, тестировщик, математик и пара аналитиков - в общем, нас двое

- Одним из пользователей сайта был разработан счетчик просмотров. Ваше отношение к этой идее?

- Пользователям интересно знать, сколько раз были прочитаны их тексты - поэтому мы сделали рассылку по внутренней почте с такой статистикой. Счетчик в виде картинки - тоже отличная идея, и часть авторов трибуны его использует. Число просмотров в нем, как правило, немного завышенное - это связано с техническими особенностями сбора статистики с помощью картинки.

- Недавно в статусах я прочитал, что статистика, получаемая от редакции в рассылке, расходится с данными счетчика. С чем это связано? Вы учитываете только "первые" просмотры? Или счетчик от блогера воспринимает повторное посещение записи, скажем, для редактирования, как нового пользователя? Не копались внутри алгоритма считалки?

- Статистика для рассылки берется из нашего собственного счетчика, который собирает данные при помощи js-скрипта. Это более точный способ измерить количество просмотров, чем картинка. Не учитываются просмотры поисковыми роботами и другие запросы не от пользователей. Считаются именно просмотры, а не уникальные посетители - то есть, если человеку понравился пост и он зайдет в него еще раз, чтобы увидеть снова или оставить комментарий, число просмотров увеличится.

- Вы еще и программист, в том числе? Или это не совсем ваша работа.

- В отделе аналитики два программиста, тестировщик, математик и пара аналитиков - в общем, нас двое. Сейчас профессия Data Scientist предполагает, что специалист должен уметь работать со статистикой и при этом программировать, поэтому люди, которые занимаются анализом данных, как правило, совмещают это и занимаются разработкой программ для сбора и анализа данных и непосредственно анализом.

- Насколько я понимаю, вы отвечаете в том числе и за проекты Tribuna.com. C украинской версией все понятно. Она была с нуля и основана на статистике Sports.ru. Меня интересует, как проходило слияние с Goals.by - там, если не ошибаюсь, была своя база. Были трудности и проблемы при совмещение двух сайтов?

- Да, мы занимаемся всеми продуктами сразу. При слиянии с Goals.by важно было сохранить контент и пользователей, чтобы перезд не доставил неудобств старым посетителям сайта. У Goals.by похожая структура, весь контент тоже привязан к тегам, так что проблем не было.

Заходите почаще, у нас много интересного!

- Как сказалась на посещаемости сайта возможность заходить через соцсети?

- Новых посетителей это не привлекло, конечно. Регистрация через социальные сети сильно упростила процесс создания аккаунта - не нужно придумывать пароль и вводить email, поэтому барьер, который отделяет неавторизованного посетителя от пользователя Sports.ru, теперь представляет собой всего пару кликов.

При этом у зарегистрированных пользователей намного больше возможностей - персональные ленты, в которые попадают только интересные пользователю посты, новости и фото; возможность оценивать авторов сайта, комментировать и многое другое.

- В комментариях к одной из бесед один представитель сайта рассекретил некоторые цифры. Всего 5-7 процентов человек стали пользователями сайта, с личным кабинетом и рейтингом. Насколько сильно будет нужно обновить программное обеспечение и оборудование, когда это число вырастет процентов до 30?

- Мы готовы к такому росту - у нас хороший запас по ресурсам. Во время важных спортивных событий посещаемость резко растет, и мы должны обеспечивать бесперебойную работу сайтов и всех сервисов, поэтому запас по производительности есть всегда.

- Олег, какие цели и задачи стоят перед вашим отделом на ближайшее время?

- Будем продолжать делать сайт более удобным и персонализированным, лучше учитывать интересы конкретных пользователей, даже если они интересуются чем-то узкоспециализированным или непопулярным.

- Спасибо, что нашли время на беседу. Пару слов для читателей беседы.

- Заходите почаще, у нас много интересного! Если есть вопросы, то готов поговорить в комментариях.