+7(495) 651-9313
+7(495) 742-5086
eng pyc ваш заказ login

Анализ и синтез голоса

Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог, который делится на распознавание речи и её синтез, и относящийся к области искусственного интеллекта. Это наиболее простой и натуральный способ общения между человеком и машиной, не требующий особых навыков.

Натуральная, человеческая речь несет не только лингвистическую информацию, но также содержит данные о возрасте и поле говорящего, его отношении к произносимому и эмоциональном состоянии и т.д. Все эти признаки называют паралингвистическими. До последнего времени роль этих признаков в распознавании речи и ее синтезе игнорировалась, что значительно снижает качество этого интерфейса. Например, исследования речи пилотов во время аварийных ситуаций показали, что эмоции сильно изменяют речь. В результате процент правильной классификации снижается на 30-60%, а иногда на 90%. С другой стороны, монотонная речь современных интеллектуальных машинных систем, включая роботов последнего поколения, неприемлема для большинства людей и может вызывать раздражение. Некоторые считают, что робот также должен быть наделен способностью определять эмоциональное состояния человека и изменять свое поведение в зависимости от типа детектируемой эмоции.

Нам представляется, что включение паралингвистических характеристик в речевой диалог является важным шагом в создании интеллектуального интерфейса между человеком и машиной. Так как системы распознавания речи и синтеза речи обычно реализованы в виде программных моделей, выполняемых на обычных или специализированных DSP процессорах, поэтому возможным решением этого вопроса является включение в системы анализа и синтеза речи специального паралингвистического (прозодического) модуля.

В рамках проекта Formanta проводится систематическое исследование паралингвистических характеристик речи и создание системы для их объективной, автоматической оценки. Для этого используются четыре подхода: методы линейного и нелинейного анализа речи, расчет интонационных характеристик и оценка микро-тремора мышц голосовых связок. Целью настоящего проекта является разработка комплекса алгоритмов, их применение для анализа эмоционально окрашенной речи и создание прозодического генератора и парсера.

Дальнейшие материалы по проекту Formanta предоставляются по запросу в Инновационный Центр. Авторизованные пользователи могут также получить дополнительную информацию здесь. Для этого Вы вначале должны зарегистрироваться.

© 2004—2012 ООО «Нейроботикс». Все права защищены