PowerPoint 8 страница

С развитием электротехники и телефонной связи интерес к синтезу речи возрос. Изобретенный Дадли полосной вокодер (вокодер Р это система телефонной связи, в которой передаются сигналы не речевые, а специального кода, представляющие собой речь в закодированном виде) открыл целую эпоху не только в синтезе речи, но и в технике связи, так как помимо синтезатора он содержал еще и анализатор речи - блок полосовых фильтров, измерявших роль соответствующих спектральных компонентов. В основном этот прибор использовался военными. Модернизация вокодеров шла как по пути повышения естественности речи, так и по пути сокращения количества передаваемых сигналов. Появились корреляционные и форматные вокодеры. Способ передачи речи по корреляционному вокодеру состоит в следующем: по линии связи передается функция корреляции, получаемая быстрым измерением мгновенного спектра речи в дискретных точках, а в синтезаторе на приемном конце по ней восстанавливается мгновенный спектр речи. А в форматном вокодере информация передается не обо всем мгновенном спектре, а только о резонансных максимумах и минимумах - частотах полюсов и нулей передаточной функции речевого тракта, а также частота ОТ и решение тон-шум. Подобные системы давали разборчивость речи почти 100% для гласных звуков и около 70% для согласных при частотной полосе передачи примерно 300 Гц.

Главным фактором, ускорившим развитие программ распознавания речи, было совершенствование компьютеров. С их появлением вокодерные синтезаторы стали подключать к выходу ЭВМ. Затем их стали выпускать в виде небольших периферийных устройств, плат или чипов, содержащих целые словари готовых слов естественной речи. Периферийные записывающие устройства (ПЗУ) нашли свое применение в информационных системах и автоматических переводчиках. В настоящее время синтез речи перешел преимущественно в область программных решений, хотя еще встречаются смешанные продукты для профессионалов. Метод распознавания речи используемый на современном этапе развития данной проблемы заключается в следующем (см. рис. 152): Формально процесс распознавания речи можно описать так: аналоговый сигнал, генерируемый микрофоном, оцифровывается, и далее в речи выделяются фонемы (элементарные фрагменты, из которых состоят все произносимые слова). Затем определяется, какое слово, какому сочетанию фонем соответствует, и строится соответствующий словарь.

Рис. 152.Схема метода распознавания речи

Безусловно, программы для распознавания речи, требуют большой вычислительной мощности и значительных объемов памяти компьютера. Однако главная трудность при реализации данного метода на практике состоит в следующем. Во-первых, человек обычно не делает паузы между словами, а при слитном произнесении к задаче распознавания прибавляется еще и задача выделения слов (особенно односложных) из потока речи, что заведомо более сложно. Поэтому при произнесении слов важно, чтобы человек произносил слова по одному, делая достаточно продолжительные паузы или, чтобы каждое следующее слово произносилось после звукового сигнала. Но в этом случае встает проблема различия голосов, диалектов, дикций и прочих индивидуальные особенности говорящих.

В настоящее время существует два существенно различающихся режима работы: с настройкой на голос определенного человека и без такой настройки.

Размеры словаря при работе с настройкой на голос (speaker-dependent) могут достигать нескольких (и даже многих) тысяч слов при слитном произнесении. Рассмотрим процедуру настройки на голос (см. рис. 153).

Специалисты утверждают, что речь человека столь же индивидуальна, как отпечатки пальцев, поэтому речь человека можно использовать для построения различных охранных систем. В этом случае система настраивается на голос человека (или на голоса некоторого числа людей), которые при входе в систему называют кодовое слово, и компьютер реагирует только на эти голоса.

При втором способе распознавания речи (без настройки на голос) гарантируется, что система распознает любое включенное в словарь слово, кем бы оно ни было произнесено. Словари, в таких программах насчитывают небольшое количество слов (обычно не более двух десятков) и существуют для относительно небольшого числа языков (примерно тридцати). Создание словаря для распознавания речи без настройки на голос процесс дорогой и трудоемкий.

Рис. 153. Процедура настройки на голос

Например, для распознавания десяти-двадцати слов необходимо опросить несколько сотен или

даже тысяч носителей языка, выделять некие общие элементы их речи, а затем вывести усредненные значения. Хотя словарь без настройки на голос пользователя требует раздельного произнесения слов, этого оказывается вполне достаточно для некоторых приложений.

Существующие системы распознавания речи можно классифицировать по разным признакам.

По назначению:

б командные системы,

б системы диктовки текста.

По потребительским качествам:

б диктороориентированные (тренируемые на конкретного диктора),

<== попередня сторінка	\|	наступна сторінка ==>
PowerPoint 7 страница	\|	PowerPoint 9 страница

Не знайшли потрібну інформацію? Скористайтесь пошуком google:

Генерація сторінки за: 0.004 сек.