Яндекс представляет новый метод машинного обучения CatBoost

09.08.2017

С 2009 года Яндекс использует метод машинного обучения Матрикснет. На его смену приходит CatBoost – новый метод машинного обучения от Яндекса, который дает более точные результаты в задачах ранжирования, классификации и регрессии, а также способен учитывать данные в нечисловой форме.

Название метода «CatBoost» было придумано командой Яндекса. Оно является сокращением от categorical boosting, что означает бустинг с учетом категориальных признаков. В данном алгоритме, как и в его предшественнике, применяется градиентный бустинг. Кроме того, CatBoost может учитывать так называемые категориальные признаки, принимающие одно из конечного количества значений. К примеру, существует множество разновидностей собак: овчарка, терьер и т.д, или жанров музыки: классика, рок и т.д. Больше нет надобности выражать в числах такие данные, поскольку CatBoost способен воспринимать их в исходном виде. С его помощью обучаются модели, благодаря которым можно использовать разнообразные доступные данные, не тратя время на их перевод в числовую форму.

CatBoost уже задействован в нескольких сервисах Яндекса:

  • дзен – для ранжирования ленты рекомендаций;
  • погода – для расчета прогноза посредством технологии Метеум.

Во многих отраслях используются разнородные данные, включая и информацию, выраженную в нечисловой форме. За счет этого Яндекс решил, что библиотека машинного обучения CatBoost должна находиться в открытом доступе. Ее можно скачать на таких языках программирования, как Python и R. Выкладывая CatBoost в сеть, Яндекс надеется, что пользователи по достоинству оценят алгоритм и помогут сделать его еще лучше.

CatBoost уже успел найти свое первое применение за пределами компании-создателя. Он был использован в ЦЕРНе (Европейский центр ядерных исследований) для обработки данных эксперимента LHCb, проходящего на одноименном детекторе. Суть эксперимента заключается в исследовании асимметрии как материи, так и антиматерии во взаимодействии тяжелых кварков. CatBoost выступает в качестве помощника, который объединяет данные с различных детекторов, чтобы специалисты получили максимально точные данные о частицах. Так, результаты, которые показал CatBoost, значительно лучше тех, что были получены при применении других алгоритмов.



Похожие новости
30.03.2018
Какие изменения ждут нас в Google Partners?

Google Partners ждут перемены. Некоторые его разделы будут удалены, однако большинство из них будет перенесено на обновленный сайт AdWords. Узнайте, какие ресурсы будут недоступны уже в апреле 2018.