Ученые Высшей школы экономики в Нижнем Новгороде создали новый алгоритм, который позволяет точно измерять частоту основного тона речи. Об этом сообщили в пресс-службе НИУ ВШЭ.
Сейчас голосовые команды человека распознают смартфоны, ноутбуки и даже чайники с утюгами. Все это стало возможно благодаря развитию искуственного интелекта и технологий обработки речи. Но не смотря на это, распознавать эмоции по голосу техника до сих пор не умеет. Основным препятствующим фактором является частота основного тона, которая отражает колебания голосовых связок при произнесении гласных.
Разрешить эту проблему попытались нижегородские ученые, которые разработали новый метод измерения частоты основного тона в речи. Он работает даже при сильном шуме и без задержек, а также использует меньше вычислительных ресурсов, чем известные аналоги. Результаты исследования они опубликовали в научном журнале Journal of Communications Technology and Electronics.
При разработке метода исследователи оценили, как меняется частота основного тона в широком диапазоне в аудиозаписях. Так, у женщин диапазон составляет от 200 до 400 Гц, а у мужчин — от 80 до 200 Гц. В работе ученые применяли специальные математические методы, в том числе быстрое преобразование Фурье (алгоритм ускоренного вычисления).
Чтобы работа была более эффективной даже с самым плохим микрофоном, разработчки воспользовались дополнительной обработкой аудиоспектра. Они создали самообучающийся алгоритм, основанный на нейросети, которая использует принцип обеляющего фильтра. Этот метод фокусируется на частях аудиозаписи, связанных с частотой основного тона и, следовательно, с выражением эмоций.
«Обеляющий фильтр инвертирует процесс речеобразования: из поступающего на вход речевого сигнала извлекаются параметры (коэффициенты линейного предсказания), и на выходе получаем белый шум. Мы предлагаем оценивать параметры обеляющего фильтра так, чтобы получаемый с его помощью спектр сигнала (спектральная плотность мощности) был максимально близок к преобразованию Фурье», — рассказал руководитель проекта, профессор НИУ ВШЭ в Нижнем Новгороде Андрей Савченко.
Новый инструмент позволит работать с акустическими данными в самых разных областях - даже в медицине. Например, с помощью него можно будет выявить патологии голоса во время диагностики заболеваний нервной системы.
Ранее на сайте pravda-nn.ru в эксклюзивном интервью нижегородский биолог рассказала, что значит сегодня быть молодым ученым.