English

HeadHunter запатентовал технологию скоростного поиска вакансий и сотрудников

12 марта 2020

Патент компании HeadHunter на «умное сжатие» данных с технологией машинного обучения позволяет ускорить отбор подходящих вакансий, сократив время и расходы на создание рекомендаций.

Умный хедхантинг

Компания HeadHunter запатентовала компоненты технологии «умного» поиска сайта hh.ru для рекомендации резюме и вакансий. В качестве патентообладателя изобретения указано ООО «Хэдхантер», авторами указаны Георгий ДаньщинВиктор Реушкин и Александр Сидоров.

Патентная заявка к изобретению под названием «Рекомендательная система подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных и способ подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных» опубликована за №2019107661 на сайте Федеральной службы по интеллектуальной собственности (Роспатент).

Как рассказал CNews Александр Сидоров, руководитель направления анализа данных компании HeadHunter и один из изобретателей технологии, запуск запатентованных технологий в рамках умного поиска hh.ru был произведен во второй половине 2019 г., однако разработка проекта продолжалась на протяжении нескольких лет, начиная с 2017 г.

Патентная заявка описывает изобретение как специализированную систему для поиска вакансий и резюме «в рекомендательных системах подбора персонала с большим количеством записей в базах данных». Суть изобретения сводится к применению особого алгоритма сжатия данных из резюме и вакансий с минимальной потерей смысла. Это значительно ускоряет их обработку, обеспечивая при этом выборку релевантных по тексту и смыслу документов из миллионов резюме и сотен тысяч вакансий за сотни миллисекунд.

Отобранные таким образом данные применяются для ускоренного предварительного отбора вакансий и резюме, и затем с помощью моделей машинного обучения производится точный отбор подходящих кандидатов.

По информации пояснительной записки к изобретению, весь комплекс компонентов технологии поиска для сайта HeadHunter преимущественно работает лучше правил, подобранных вручную. При этом качество рекомендаций резюме и вакансий повышается, на их обработку затрачивается меньше вычислительных ресурсов.

Особенности технологии «умного» хедхантинга

Ключевой проблемой поиска соответствий резюме и вакансий является огромное число возвращаемых поисковых результатов, обусловленное большим количеством объявлений о поиске работы теми, кто уже трудоустроен, но потенциально готов сменить работу. В итоге множество однотипных результатов поиска затрудняет быстрый и верный выбор кандидата. Обратная задача проще, поскольку число вакансий, как правило, на порядок или два меньше числа резюме в базе данных.

Изобретение используется как для обработки запросов работодателей при поиске в базе резюме, так и для обработки запросов соискателей при поиске вакансий. Изобретение hh.ru предлагает автоматизированный поиск релевантных документов для рекомендательного подбора персонала с машинным обучением и с понижением размерности многомерных данных.

Алгоритм понижает размерности части векторного представления текста и смысловых категорий в вакансии и резюме до последовательностей из нескольких битов, составляет из них LSH-хеши (Locality-sensitive hashing — вероятностный метод для понижения размерности многомерных данных).

Длина хэш-функции может быть задана заранее. В процессе обработки запроса LSH-хеши сравниваются прямо в поисковом движке, и далее вакансия помещается в предварительный список только при совпадении ее LSH-хеша с LSH-хешем резюме до 1 бита. Так удается экономить расход машинного времени без снижения качества рекомендаций и количества откликов.

Уменьшение размерности также позволяет представлять тексты для обучающих моделей на ансамблях решающих деревьев. В векторном представлении текст вакансии и резюме обычно составлен из векторов длиной порядка 40 тыс. значений для вакансии и около 60 тыс. для резюме, где преимущественно записаны нули.

Алгоритм hh.ru уменьшает размерности векторов терминов и использует их как признаки для ансамблей решающих деревьев. Такой подход для рекомендаций вакансий дает порядка 2 900 дополнительных откликов в сутки, в поиске вакансий — порядка 4 500 откликов в сутки.

По словам Александра Сидорова, обучение представляет собой перманентный процесс, который подразумевает улучшение алгоритмов умного поиска за счет постоянно обновляемой базы данных.

Эффективность и перспективы технологии

Как отмечено в пояснительной записке к патенту, отказ от изобретения снизил бы число откликов на вакансии примерно на 5%, при этом рекомендованные резюме для 75% вакансий появлялись бы на сутки позже, а не сразу после создания вакансии.

В дополнение, значительно бы увеличилось время обработки данных для рекомендации резюме – с нынешних 200 миллисекунд, и потребовались бы значительно большие серверные мощности, что в конечном итоге повлияло бы на стоимость сервиса для работодателей.

За счет экономии времени пользователей и вычислительных мощностей, алгоритм позволяет внедрять сложные модели машинного обучения для более качественных рекомендаций. В качестве обучающих данных используется реакция пользователей на результаты работы поисковой системы.

Отвечая на вопрос о том, возможна ли интеграция описанных в патенте компонентов технологии в сервисах для других отраслей, Александр Сидоров пояснил, что технология разрабатывалась специально для оптимизации бизнес-процессов компании HeadHunter, однако внедрение компонентов этого изобретения могло бы показать высокую эффективность в любых отраслях, где требуется получение быстрого результата при сопоставлении больших массивов данных.

Источник
Новости по теме
Mail.ru Group перезапустила мессенджер ICQ
Интеллект минус вирус
ФАС предложила запретить производителям смартфонов устанавливать на них программное обеспечение со скрытыми функциями