Поделиться «Наносемантика» создала новую систему для голосового управления в робототехнике Компания «Наносемантика», российский разработчик нейросетевых решений, завершила создание универсального программного комплекса, который позволяет управлять роботами с помощью естественной речи без требований к высокой мощности оборудования. В основе комплекса ‒ DialogOS: платформа обеспечивает голосовой интерфейс , распознает и синтезирует речь, интегрируется с внешними системами через API . Для внедрения достаточно устройства с микрофоном и динамиком. Современные нейросети позволяют роботам воспринимать речь в том виде, в каком она звучит в обычном разговоре. Там, где раньше требовалось строгое соблюдение команд, система теперь корректно обрабатывает свободные формулировки, опираясь на смысл и интонации. В комплекс включены собственные решения компании: диалоговая платформа DialogOS для создания голосовых и текстовых роботов, NLab Speech ASR для точного распознавания речи и NLab Speech TTS для её синтеза. Текущая версия DialogOS совместима с Gemini и отечественной генеративной моделью, при этом архитектура комплекса заранее рассчитана на подключение любых других LLM. «Наносемантика» протестировала все крупные LLM от ведущих разработчиков, и в зависимости от специфики задачи в комплекс может быть подключена наиболее актуальная модель. Егор Кириллов, бизнес-аналитик компании «Лаборатория Наносемантика», сказал: «Ключевой задачей при разработке этого комплекса была модульность и независимость от аппаратной платформы. Мы реализовали клиент-серверную архитектуру, где на конечном устройстве ‒ будь то робот-собака или промышленный манипулятор ‒ запускается лишь ультралегкий клиент. Вся сложная обработка, включая KWS, VAD и интеграцию с LLM через DialogOS, происходит на сервере. Такой подход позволяет нам гарантировать высокую производительность и качество распознавания независимо от вычислительных мощностей самого робота, а также централизованно обновлять и масштабировать «мозг» всей системы». Комплекс уже прошёл испытания на роботе-собаке. Она умеет поддерживать диалог, выполняет голосовые команды и откликается на своё имя ‒ «Квант». Для этого была настроена комбинация KWS и VAD , позволяющая роботу отслеживать обращение в реальном времени. « Квант » говорит синтезированным голосом «Лео» из библиотеки компании, хотя при необходимости можно подключить и сторонние варианты. Цифровизация Сабина Спирина, генеральный директор компании « Лаборатория Наносемантика », отметила: «Мы видим устойчивый спрос на решения, которые позволяют компаниям быстрее внедрять роботизированные системы и снижать стоимость их интеграции. Новый комплекс делает голосовое управление стандартной функцией, а не дорогостоящей кастомной разработкой. Это открывает путь к масштабным внедрениям ‒ от логистики до сервисной робототехники ‒ и значительно ускоряет цифровую трансформацию наших клиентов». Опробовать технологии можно на сайте «Наносемантики» ‒ в роли собеседника выступает цифровой аватар Лили, демонстрирующий работу комплекса в реальном диалоге. Лили ‒ уникальный эксперт по вселенной «Наносемантики»: она свободно ориентируется во всех продуктах, услугах и историях успеха клиентов компании. Пообщаться с аватаром текстом или голосом можно на главной странице сайта «Наносемантики». Source: https://www.cnews.ru/news/line/2025-12-02_nanosemantika_sozdala