Компания «Наносемантика» синтезировала голос популярного блогера Руслана Усачева

Разработчик нейросетевых решений «Наносемантика» объявляет о завершении проекта синтеза голоса известного российского блогера Руслана Усачева. В результате проекта команда блогера сможет производить синтезированный аудиоконтент для размещения на своих информационных площадках.

Руслан Усáчев – один из самых известных русскоязычных видеоблогеров. Его по праву можно считать одним из первопроходцев русского Youtube: свои первые влоги он записал еще в марте 2010 года. Руслан является ведущим и сценаристом собственного тревел-шоу и новостного дайджеста Usachev Show, а также шоураннером проекта «КликКлак».

Производство контента для видеоблогов и аудиоподкастов – трудоемкий процесс, требующий тщательной проработки сценария, записи, монтажа аудио- или видеоматериалов. Синтез речи может помочь в этом. Вместо того чтобы записывать ролики в студии, блогеры могут использовать искусственный интеллект (ИИ) в качестве помощника для преобразования текстовых скриптов в аудиофайлы. Так можно существенно ускорить производство контента, а свободное время посвящать другим задачам.

Несмотря на явные преимущества, блогеры могут столкнуться с рядом трудностей. Для качественного синтеза речи нужно решить ряд задач: система должна обучиться тембру голоса конкретного человека и тонкостям произношения, особенно при работе со сложными терминами или профессиональной лексикой.

Голосовая модель Руслана Усачева разработана на базе платформы «Наносемантики» NLab Speech TTS (Text-to-Speech), которая позволяет создать точную копию голоса медийного человека. Платформа специализируется на синтезировании голоса из текстового формата и применяется в различных сферах, в том числе для генерации контента для обучения и развлечения. С помощью NLab Speech TTS можно решить ряд проблем, связанных с синтезированием голоса, таких как склейки, разные уровни шумов и интонации, разная скорость речи, покашливания и др.

Перед разработчиками стояла задача синтезировать оригинальный тембр голоса с особенностями произношения Руслана Усачева. Для обучения модели были использованы 10 часов записи с Youtube-канала блогера. А для тонкой настройки различных нюансов потребовалось еще 10 часов записей чистого голоса заказчика. В процессе разработчики столкнулись с проблемой отображения голосовой дорожки синтезированной записи при публикации в Telegram, впоследствии решив эту задачу с помощью конвертации в подходящий формат файла.

В результате проекта был создан голосовой бот, генерирующий аудиосообщения голосом Руслана Усачева. Доступ к боту имеет заказчик и его команда редакторов, которые приступят с его помощью к производству аудиоконтента для размещения на собственных и, возможно, сторонних площадках.

«Собственный голосовой бот – ценный инструмент, который поможет мне как в решении повседневных задач генерации контента, так и в проектах, на которые мне физически не хватало времени. Помимо автоматической записи подкастов и аудиоинтервью, теперь я смогу легко и просто создавать аудиокниги или озвучивать обучающие курсы. Голосовой бот также может стать помощником в коллаборации с модными брендами или в продвижении собственной продукции из моего интернет-магазина», – подчеркнул Руслан Усачев.

«Работа над каждым новым проектом создания точной копии голоса медийного человека – вдохновляющий опыт. Ранее мы начали синтезировать «голос Победы» Юрия Левитана к юбилею диктора и воссоздали голос известного политика Владимира Жириновского в рамках работы над нейросетью «Жириновский». Новый бот с голосом Руслана Усачева – это очень гибкая модель, настройку и доработку которой мы можем проводить согласно задачам заказчика. Так, например, в перспективе возможна доработка модели с целью записи голоса на иностранных языках для работы с многоязычной аудиторией», – прокомментировал Илья Иванов, коммерческий директор компании «Наносемантика».


О компании

Группа компаний «Наносемантика» объединяет российских разработчиков продуктов на основе нейросетей («Лаборатория Наносемантика», «Нейросети Ашманова», «Синтелли» и другие). За 19 лет на рынке ИТ-компании создали более 12 собственных интеллектуальных продуктов, технологий и платформ, реализовали свыше 180 проектов для бизнеса и госкорпораций. Команды из научных сотрудников и разработчиков обладают уникальными базами знаний и практикой в области искусственного интеллекта: машинном обучении, компьютерном зрении, создании виртуальных роботов, цифровых аватаров и робототехнике.

*фото из аккаунта блогера в Instagram (продукт компании Meta*, которая является экстремистской организацией и деятельность которой запрещена на территории РФ)

Related news
Artezio Named Among 15 Leading Java Development Companies
Auriga Showcased Its Digital Health Projects at Healthcare Summit
SearchInform solution is now available in Microsoft Azure