Звуки вдохов между произнесением слов во время речи можно
использовать для идентификации личности человека — в отличие от других
компонентов речи, вдохи сложнее контролировать и практически невозможно
подделать, выяснили американские исследователи.
Технологии распознавания речи в последние годы сильно
продвинулись и применяются во многих современных смартфонах и «умных
устройствах», говорится в опубликованной на портале arXiv.org работе.
Обычно в этих случаях используются продвинутые алгоритмы
распознавание речи, однако практически всегда такие системы анализируют именно звуки,
издаваемые при произношении самих слов.
Ученые из
Университета Карнеги в США впервые предложили использовать для идентификации
звуки вдохов между словами. При этом для распознавания звуков вдохов отдельные
временные фрагменты речи в виде спектра преобразуются в векторы.
Затем среди этих векторов ищут области «сгущений», которые
анализируются на предмет некоей последовательности. Для распознавания вдохов используется
нейросеть с долгой краткосрочной памятью, которая ранее натренировали на ста
часах записей новостных передач на английском.
В итоге эффективность распознавания личности по вдохам
оказалась выше 91%. Отмечается, что новая технология может быть использованы в
очередных поколениях «умных» устройств и смартфонов.