Учёные Томского государственного университета систем управления
и радиосвязи изучают шёпот, чтобы улучшить алгоритмы распознавания речи
человека устройствами. Пока интерфейсы во всём мире не способны идеально понять
сказанное человеком, особенно не распознают аббревиатуры, редкие имена, специфические
термины, сокращения, передаёт инновационный портал Томской области.
Томичи намерены добиться полностью автоматического перевода
устного текста любого объёма в письменный с высокой точностью, без искажений.
«Пока эта цель не достигнута, в том числе из-за подхода,
который чаще всего используется в уже работающих человеко-машинных интерфейсах:
голосовом поиске, чат-ботах, где распознаваемый максимум — это отдельные
словосочетания, например, поисковые запросы или голосовой набор смс-сообщений»,
— рассказал сотрудник университета Антон Конев.
Основой распространенных алгоритмов является обучение на
большом количестве примеров произнесенных звуков, слов, словосочетаний. При
распознавании система вероятностным способом определяет, к какому из заложенных
примеров ближе произнесенное. Томские учёные работают над более точной системой
распознавания речи. Исследования показали, что распознавание ударных звуков
шепотной речи на основе общепринятых параметров возможно с надёжностью не менее
70 %.
«Есть классический термин — форманта — максимум звука в
спектре, параметры которой нам необходимы, но в звучной речи на формантную
структуру накладываются колебания и искажают картину. Именно поэтому мы
исследуем шёпотную речь, которая отделена от голосового источника и лишена этих
искажений», — добавил разработчик.