Яндекс представляет новый метод машинного обучения CatBoost

09.08.2017

С 2009 года Яндекс использует метод машинного обучения Матрикснет. На его смену приходит CatBoost – новый метод машинного обучения от Яндекса, который дает более точные результаты в задачах ранжирования, классификации и регрессии, а также способен учитывать данные в нечисловой форме.

Название метода «CatBoost» было придумано командой Яндекса. Оно является сокращением от categorical boosting, что означает бустинг с учетом категориальных признаков. В данном алгоритме, как и в его предшественнике, применяется градиентный бустинг. Кроме того, CatBoost может учитывать так называемые категориальные признаки, принимающие одно из конечного количества значений. К примеру, существует множество разновидностей собак: овчарка, терьер и т.д, или жанров музыки: классика, рок и т.д. Больше нет надобности выражать в числах такие данные, поскольку CatBoost способен воспринимать их в исходном виде. С его помощью обучаются модели, благодаря которым можно использовать разнообразные доступные данные, не тратя время на их перевод в числовую форму.

CatBoost уже задействован в нескольких сервисах Яндекса:

  • дзен – для ранжирования ленты рекомендаций;
  • погода – для расчета прогноза посредством технологии Метеум.

Во многих отраслях используются разнородные данные, включая и информацию, выраженную в нечисловой форме. За счет этого Яндекс решил, что библиотека машинного обучения CatBoost должна находиться в открытом доступе. Ее можно скачать на таких языках программирования, как Python и R. Выкладывая CatBoost в сеть, Яндекс надеется, что пользователи по достоинству оценят алгоритм и помогут сделать его еще лучше.

CatBoost уже успел найти свое первое применение за пределами компании-создателя. Он был использован в ЦЕРНе (Европейский центр ядерных исследований) для обработки данных эксперимента LHCb, проходящего на одноименном детекторе. Суть эксперимента заключается в исследовании асимметрии как материи, так и антиматерии во взаимодействии тяжелых кварков. CatBoost выступает в качестве помощника, который объединяет данные с различных детекторов, чтобы специалисты получили максимально точные данные о частицах. Так, результаты, которые показал CatBoost, значительно лучше тех, что были получены при применении других алгоритмов.



Похожие новости
07.02.2018
Обучающие мероприятия в феврале

Что ждет нас интересного и в то же время полезного в этом месяце? Давайте рассмотрим, какие образовательные мероприятия (вебинары и практические курсы) пройдут в феврале, а также выясним, где посмотреть свежие обучающие материалы от специалистов Яндекса и не только.

26.01.2018
WebPromoExperts SEO Day: прогнозы экспертов на 2018 год

16 февраля в 10:00 (по Киеву) начнется онлайн-конференция по поисковой оптимизации WebPromoExperts SEO Day, на которой будут затронуты актуальные темы на 2018 год. Своим опытом и секретами поделятся 13 экспертов в сфере SEO-продвижения сайтов.