Новини освіти і науки:

Тлумачний словник
Авто
Автоматизація
Архітектура
Астрономія
Аудит
Біологія
Будівництво
Бухгалтерія
Винахідництво
Виробництво
Військова справа
Генетика
Географія
Геологія
Господарство
Держава
Дім
Екологія
Економетрика
Економіка
Електроніка
Журналістика та ЗМІ
Зв'язок
Іноземні мови
Інформатика
Історія
Комп'ютери
Креслення
Кулінарія
Культура
Лексикологія
Література
Логіка
Маркетинг
Математика
Машинобудування
Медицина
Менеджмент
Метали і Зварювання
Механіка
Мистецтво
Музика
Населення
Освіта
Охорона безпеки життя
Охорона Праці
Педагогіка
Політика
Право
Програмування
Промисловість
Психологія
Радіо
Регилия
Соціологія
Спорт
Стандартизація
Технології
Торгівля
Туризм
Фізика
Фізіологія
Філософія
Фінанси
Хімія
Юриспунденкция

ПРИНЦИПИ ПОБУДОВИ ВОКОДЕРОВ

Мовний сигнал володіє великою надмірністю, оскільки в ньому міститься інформація, що не має відношення до зрозумілості мови. Надмірна інформація характеризує особу того, що говорить: по його голосу можна визначити підлогу, вік, настрій, стан здоров'я. Встановлено, що на ділянці від центральної нервової системи людини до мовного апарату швидкість передачі сигналів управління не перевищує 100 бит/с. Якби з мови виділити тільки сигнали, що несуть корисну інформацію, то необхідна пропускна спроможність каналу зв'язку склала б не більше 100 бит/с.

Загальна характеристика вокодеров. Вокодери діляться на два класи: параметричні і речеелементниє. У параметричних вокодерах з мовного сигналу виділяються параметри, що визначають зрозумілість мови і, у ряді випадків, впізнанність особи абонента; потім по цих параметрах синтезується мова. У р е ч е -элементных вокодерах при передачі визначаються, які елементи мови вимовлені, а при прийомі ці елементи створюються за правилами речеобразованія або беруться з пам'яті пристрою.

Передавальне пристрій вокодера називають аналізатором, а приймальне — синтезатором. У аналізаторі параметричного вокодера виділяються частота основного тону і параметри, що визначальні спектральні огинають звуків мовного сигналу. У синтезаторі є генератор, керований частотою основного тону, виділеною при передачі. Сигнали генератора основного тону (ГОТ) подаються на систему фільтрів, які дозволяють імітувати акустичну систему мовного тракту при вимові дзвінких звуків мови. При передачі глухих звуків генератор створює шумову напругу, а система фільтрів імітує мову людини при вимові глухих звуків. Виділення частоти основного тону і що спектральних огинають мови при передачі дозволяє відновити при прийомі рівні звуків і що спектральні огинають мовних сигналів, а також одержати прийнятні якісні показники і розбірливість.

По типу параметрів мовного сигналу, що виділяються, розрізняють смугові, гармонійні, формантниє і фонемні вокодери. У смугових вокодерах при передачі визначають спектральні складові у вузьких смугах частот, в гармонійних — коефіцієнти Фурье при представленні тієї, що спектральної огинає у вигляді суми гармонік, вформантних — амплітуди і частоти формант, у фонемних — вид вимовленого звуку.

До освоєння цифрової техніки обробки інформація про параметри мовних сигналів вводилася в канал зв'язку в аналоговій формі. По числу параметрів генерувалися несучі частоти, кожна з яких модулювалася своїм параметром. Модульовані сигнали розташовувалися в смузі частот телефонного каналу. Оскільки кожен параметр мав частотний діапазон не ширше 25 Гц, а кількість параметрів не перевищувала 15, то з урахуванням необхідної расфільтровки сигналів на їх передачу було потрібно 400...500 Гц, тобто в смузі одного телефонного каналу можна було розмістити до шести вокодерних каналів.

При використанні цифрової обробки аналогові параметри мовного сигналу діськретізіруются, квантуються, кодуються і вводяться в канал зв'язку так само, як і інші імпульсні послідовності. Якщо кількість спектральних параметрів, наприклад, рівна 11, дискретизація відбувається з частотою 40 Гц, а код — чотирьохрозрядний, то для передачі спектральних параметрів необхідно 11x40x4=1760 бит/с. Оскільки для вокодеров прийняті швидкості передачі 1200, 2400, 4800 і 9600 бит/с, то на передачу основного тону можна виділити 640 бит/с (1760+640=2400 бит/с). Замість одного телефонного каналу з ІКМ і швидкістю передачі 64 000 бит/с теоретично можна одержати 53 вокодерних телефонних каналу для швидкостей 1200 бит/с. В деяких випадках використовують вокодери із швидкістю передачі 400...600 бит/с, але при цьому втрачається інформація про індивідуальність того, що говорить.

Видільники основного тону (ОСЬ) вокодеров умовно можна розділити на три групи: ОСЬ, що використовують тимчасові властивості мовного сигналу, ОСЬ на основі частотних властивостей мовного сигналу і комбіновані. У тимчасових ОСЬ аналізують тривалість періодів основного тону по піках і переходах через нуль кореляційної функції. У частотних ОСЬ застосовують періодичність сигналів по частоті. У комбінованих ОСЬ використовують дві властивості мовного сигналу, наприклад, спочатку вирівнюють частотний спектр, потім по кореляційній функції визначають періоди основного тону. У високоточних ОСЬ аналізується мовний сигнал за допомогою декількох елементарних видільників, сигнали яких поступають на пристрій статистичної обробки і ухвалення рішення. Застосовують також ОСЬ на основі кепстрального аналізу (кепстр — спектр логарифма потужності сигналу). Кепстр має гострий максимум, відповідний основному тону мовного сигналу.

Для визначення переходу від сигналу "тон" до сигналу "шум" (передача дзвінких і глухих звуків відповідно) у вокодерах застосовують видільники сигналу "тон — шум" (ВТШ). У цих видільниках використовуються характер розподілу енергії мовного сигналу по спектру (на дзвінких звуках більше енергії в низькочастотній області, на глухих — у високочастотній), а також ознака періодичності ділянок мовного сигналу. На приймальному кінці каналу зв'язку сигнали ВТШ синтезують глухі звуки мови. Часто ВТШ суміщають з схемою ОСЬ, який повністю або частково містить необхідні для ВТШ елементи, що дозволяє спростити схемні рішення вокодеров.

Смугові вокодери (рис. 5.13). Вхідний сигнал, що поступає на аналізатор вокодера, розділяється узкополоснимі смуговими фільтрами ПФ1...ПФі на частотні смуги (спектральні канали). У кожній смузі сигнал детектує і згладжується фільтрами нижніх частот. Для цієї мети використовують амплітудні детектори ПЕКЛО 1...АДп і фільтри нижніх частот ФНЧ1...ФНЧя аналізатора. На виході фільтрів нижніх частот одержують сигнали, пропорційні середній інтенсивності вхідного сигналу. При передачі виділяється також частота основного тону схемою ОСЬ і визначається характер спектру (тональний або шумовий) схемою ВТШ. Сигнали з схем ОСЬ, ВТШ і ФНЧ1...ФНЧл поступають через кодер в канал зв'язку в цифровій або аналоговій формі.

Рис. 5.13. Схема смугового вокодера

Декодер синтезатора дозволяє виділити кожний з параметрів, переданих по каналу зв'язку. Основний тон управляє частотою генератора основного тону (ГОТ), який створює широкосмуговий сигнал. Електронний ключ (АЧ) подає на входи смугових фільтрів ПФ1...ПФ« синтезатора сигнали основного тону або шумова напруга від генератора шуму (ГШ). Управління АЧ здійснюється сигналами "тон — шум", одержуваними за допомогою ВТШ. Інформація про середню інтенсивність сигналу в кожній смузі поступає через фільтри нижніх частот ФНЧ1...ФНЧл синтезатора на амплітудні модулятори АМ1...АМя, які управляють амплітудами сигналів, що подаються із смугових фільтрів ПФ1...ПФя. Для усунення небажаних продуктів модуляції на виході кожного з модуляторів включені смугові фільтри, розташовані в блоці суматора 2.

Як правило, використовується від 7 до 20 спектральних каналів, причому при збільшенні кількості каналів зростає розбірливість мови і натуральність звучання. Для передачі середньої інтенсивності сигналу в кожному каналі потрібна смуга частот близько 25 Гц, а для передачі основного тону мови — до 50 Гц. Для передачі сигналів десятиканального вокодера необхідна смуга частот 25-10+ + 50 = 300 Гц. З урахуванням реальних частотних характеристик фільтрів для передачі сигналів одного вокодера потрібна смуга частот близько 450 Гц. Якщо для кодування в кожному спектральному каналі використовувати тризначний код з частотою відліків 50 Гц, а символи основного тону кодувати п'ятизначним кодом з частотою відліків 100 Гц, то необхідна пропускна спроможність одного телефонного вокодерного каналу складе 2000 бит/с.

Щоб не пред'являти жорстких вимог до лінійності характеристик детекторів, модуляторів і інших елементів вокодера, динамічний діапазон мовних сигналів стискають до 18...20 дБ. Смуги пропускання фільтрів вибирають близькими до ширини смуг рівної розбірливості, чим забезпечується висока розбірливість мови. Із збільшенням крутизни загасання поза смугою пропускання фільтрів зростає час перехідних процесів, що спотворює швидкі зміни спектрів і приводить до реверберації синтезованої мови. Тому у вокодерах використовують фільтри третього — шостого порядків з монотонною тимчасовою характеристикою без сплесків. Фазові характеристики фільтрів повинні бути лінійними.

Статистичні дослідження спектру тимчасовою огинає на виході детекторів спектральних каналів показали, що 99 % всій енергії лежить в смузі частот 25 Гц, тому смуги пропускання фільтрів нижніх частот беруть рівними 25 Гц. Сигнали тимчасових огинаючих спектральних каналів коррелірованни між собою, тому для зниження необхідної пропускної спроможності каналу зв'язку можна використовувати методи декорреляциі. Один з методів реляції декору — динамічне кодування, яке полягає в тому, що методом ІКМ кодують ту, що огинає спектрального каналу з максимальною амплітудою Umax. Значення амплітуд тих, що огинають Ui в решті каналів кодують у вигляді різниці рівнів f/щах — Ui. Вельми ефективно динамічне кодування по окремих фор-мантним областях. При такому кодуванні визначають максимальні значення тих, що огинають в кожній з формантних областей, а що огинають решти каналів кодують у вигляді різниці рівнів 6W - Uu

У цифрових вокодерах виділення і обробка параметрів в аналізаторі і синтезаторі здійснюються в цифровій формі. Спектри мовних сигналів і що тимчасові огинають спектральних каналів визначаються в них методом дискретного перетворення Фурье.

Формантниє вокодери. Побудова формантного вокодера (рис. 5.14) аналогічно принципу речеобразованія. Мовний тракт є набір резонаторів, резонансні частоти і добротності яких змінюються в процесі мови згідно сигналам, що йдуть від центральної нервової системи людини. У формантном вокодере при передачі виділяються параметри, що управляють, які при прийомі впливають на резонансні контури і дозволяють відтворити ту, що необхідну огинає спектру.

Основними параметрами форманти є частота, рівень і ширина її спектру. Як правило, у вокодерах з мови виділяють три-чотири форманти. Для передачі формантних параметрів необхідні вужчі смуги, ніж для смугових параметрів, тому при організації передачі за допомогою формантного вокодера потрібна менша смуга частот. Для дзвінких звуків мови діапазон частот першої форманти обмежений частотами 140... 1000 Гц, другий — 500...3000 Гц, третьей— 1100...3400 Гц. Для глухих звуків форманти мають менш певні значення із-за нерівномірності тих, що спектральних огинають. Перша форманта глухих звуків знаходиться в межах 1000...4500 Гц, друга — 2500...10 000 Гц.

Умовні динамічні діапазони формант з вірогідністю 0,9 будуть наступні: для першої форманти — 28 дБ, для другої — 31 дБ, для третьої — 25 дБ. При вирівнюванні спектральних складових динамічні діапазони всіх формант будуть однакові — в середньому 25 дБ. Ширина смуги на рівні —3 дБ при передачі голосних звуків для першої форманти складає 50 Гц, для другої — 72 Гц, для третьої — 125 Гц.

Використовують два методи аналізу формант мовних сигналів. При першому методі мовний сигнал розділяється на формантниє області і поступає в аналізатор, що змінює частоту і рівень формант. Другий метод передбачає розділення мовного сигналу комплектом узкополосних фільтрів, а потім визначення місцеположення максимумів спектру і загального рівня мовного сигналу. Найбільшу роль в опознаваємості звуків мови грають формантниє частоти. Такі параметри, як рівень і ширина формант, на опознаваємость мови впливають менше.

Як видно з схеми формантного вокодера (рис. 5.14) узкополосниє фільтри згруповані по трьох формантним областях. Кожна з трьох груп (ПФ1, ПФ2, ПФЗ) містить від 6 до 11 смугових фільтрів. У кожній групі, перемикаючи амплітудні детектори АД1, АД2, АДЗ, знаходять максимуми спектру Ах, А2, А3, які відповідають амплітудам першої, другої і третьої формант. Блоки детекторів формантних частот ЧД1, ЧД2, ЧДЗ дозволяють визначити чисельні значення формантних частот Fu F2, F%. Аналізатор також містить видільник основного тону (ОСЬ), за допомогою якого визначається частота основного тону Fo. Блок видільника "тон — шум" (ВТШ) дозволяє виділити амплітуду шумових (глухих) звуків Аш. Як і в смуговому вокодере, основний тон з частотою ^о управляє генератором основного тону (ГОТ) синтезатора. Залежно від наявності сигналів Fo або Аш на вихід електронного ключа (АЧ) поступає частота основного тону або шумовий сигнал від генератора шуму (ГШ). Вихідні сигнали електронного ключа за допомогою амплітудних модуляторів AMI AM2, АМЗ управляють амплітудами формантних частот. У синтезаторі є також фор-мантниє контури ФК1, ФК2, ФКЗ. Резонансними частотами формантних контурів управляють сигнали Ft F2, F3 зміною місткостей конденсаторов1 (або їх еквівалентів), а шириною смуг управляють, змінюючи активні опори контурів. Сигнал після суматора 2 схожий на природний сигнал мови.

Рис. 5.14. Схема формантного вокодера

Аналіз і синтез сигналів здійснюють в діапазоні частот 20...26 кГц. При цьому мовні сигнали перетворять за допомогою односмугових модуляторів з фільтрацією нижньої бічної смуги. Подвійне перетворення сигналу (вгору по частоті і назад) не змінює тимчасових характеристик сигналу на виході синтезатора. Аналіз і синтез сигналів на високих частотах дозволяє зменшити габарити апаратури і спростити деякі схемні рішення.

Формантниє вокодери на цифровій основі будуються за таким же принципом, але замість аналогових використовують цифрові фільтри. З урахуванням швидкодії сучасних інтегральних схем перебудову кожного фільтру виробляють роздільно, що дозволяє обійтися одним арифметичним пристроєм.

Якщо у вокодере параметри формант передати тризначним кодом, а основний тон і сигнал "тон — шум" — шестизначним, то при 40 відліках в секунду необхідна швидкість передачі для організації одного телефонного каналу складе (3 ? 6 + 6 • 2) • 40 = 1200 бит/с.

Гармонійні вокодери. Що огинає спектру мовного сигналу можна представити у вигляді суми ортогональних функцій. Бажано вибирати такі функції, які забезпечують хороше наближення при передачі спектральній і тимчасовій огинаючій мовного сигналу. Вибираючи функції, необхідно враховувати можливість апаратурного виділення їх з мовного сигналу при передачі і відновлення — при прийомі. Відповідними будуть такі функції, які забезпечують найбільшу точність наближення при найменшій кількості членів суми.

Краще всього в даний час розроблений метод представлення мовного сигналу у вигляді гармонійних функцій. Суть методу полягає в тому, що що спектральну огинає сигналу, усереднену за 20...25 мс, при передачі розкладають в тригонометричний ряд, коефіцієнти якого передають по каналу зв'язку, а на приймальній стороні по цих коефіцієнтах відновлюють ту, що спектральну огинає сигналу.

У одному з варіантів гармонійного вокодера що спектральну огинає мовного сигналу одержували за допомогою гребінки смугових фільтрів. Потім вихідні сигнали фільтрів поступали на матрицю, де перераховувалися ординати спектру в коефіцієнти ряду Фурье, що є сигнал-параметри вокодера. Синтез мовного сигналу на приймальній стороні зводився до відтворення форми його що спектральної огинає для місцевих джерел мовних коливань, як які використовувалися генератор основного тону і генератор шуму. До складу гармонійного вокодера, як і вже розглянутих вокодеров входять видільник основного тону і видільник "тон — шум".

Відмінність гармонійного вокодера від смугового полягає в тому, що в смуговому вокодере в канал зв'язку передають параметри сигналу про ординати спектру сигналу, а в гармонійному вокодере параметри сигналу відповідають коефіцієнтам тригонометричного ряду при розкладанні тієї, що спектральної огинає.

Одним з недоліків смугових і гармонійних вокодеров є виникнення зрушень між складовими спектру із-за застосування смугових фільтрів. Спроба уникнути таких тимчасових зрушень привела до розробки кореляційних вокодеров. Якщо відомі відліки функції кореляції B(ix0) мовного сигналу, то ординати тієї, що огинає енергетичного спектру

де i — номер тієї, що огинає спектру; v — різниця частот між сусідніми ординатами; п — кількість вихідних відведень від лінії затримки; Го = 0,5.F; F — верхня частота спектру сигналу.

Функцію кореляції визначають за допомогою лінії затримки з рядом відведень і помножувачів початкового і затриманого сигналів. Кількість відведень лінії затримки повинна бути не менше кількості ординат спектру. Значення функції кореляції є сигнал-параметри вокодера, передавані по каналу зв'язку. При прийомі синтезуються ординати енергетичного спектру. Відліки функції кореляції перераховуються в ординати енергетичного спектру за допомогою матриці, яка схожа з матрицею перерахунку ординат в коефіцієнти Фурье. Оскільки аналізатор і синтезатор вокодера містять однакові лінії затримки, то схема кореляційного вокодера в режимі дуплексного зв'язку спрощується.

Для аналізу і синтезу мовних сигналів використовується також метод лінійного прогнозу, а вокодери, що використовують цей метод, називають ліпредерамі. Поточний часовий відлік мовного сигналу S(n) приблизно може бути представлений через лінійну комбінацію попередніх значень відліків сигналу:

де т — кількість попередніх відліків; S(n — i) — значення відліків послідовності сигналу; а, — коефіцієнти при відліках (г = 1, 2, ..., т), що підбираються так, щоб помилка прогнозу е{ п) була мінімальною.

Фонемні вокодери. З розглянутих методів стиснення даних речеелементниє методи близькі до граничного стиснення мовного сигналу. При вимові 10 фонем в секунду і шестизначному коді досить пропускної спроможності 60 бит/с. При такій передачі втрачається індивідуальність голосу і її називають звучним телеграфом.

Використовують два напрями розробки речеелементних методів. По методах одного з них мова розпізнається в передавальному пристрої, а відновлюється при прийомі по зразках її елементів, що знаходяться в пам'яті синтезатора. Для цього можуть використовуватися магнітофонні записи відповідних елементів мови. Якість її при відновленні не може бути хорошою із-за неминучості стрибків в стиках елементів.

По методах другого напряму, окрім розпізнавання елементів мови, визначають частоту основного тону, рівень інтенсивності і тривалість звучання кожного елементу, тембр голосу абонента. Ці дані кодуються і передаються по каналу зв'язку. Якість мови в цьому випадку істотно вища, ніж в першому.

Речеелементниє методи використовують не тільки для організації вокодерного телефонного зв'язку, але і для управління машинами і процесами. При управлінні машинами і процесами немає необхідності відновлювати індивідуальні особливості мови, а досить лише правильно розпізнавати її елементи. Наприклад, при розпізнаванні мови автоматичною машинкою, що пише, треба за вимовленими словами правильно визначити їх друкарське уявлення. Тому речеелементниє методи різноманітніші і більшою мірою застосовні. Нижче розглянуті тільки методи, вживані у вокодерах.

Встановлено, що по спектру погано розрізняються приголосні фонеми мови. Краще розпізнавання фонем виходить при використанні спектральновременних характеристик. Додатково для розпізнавання використовують такі характеристики, як крутизна наростання і спаду рівнів сигналу, а також тривалість звуків.

Згідно схемі автоматичного виділення фонем, приведеній на рис. 5.15, мовний сигнал після того, що компресує динамічного діапазону поступає на смугові фільтри. Перші вісім каналів (1...8) називають основними, два останніх (9, 10) — шумовими, оскільки вони служать для розпізнавання приголосних фонем. Нульовий канал призначений для розпізнавання голосних фонем. З тієї, що огинає сумарного сигналу (смуга 0,1...6 кГц) виділяють сигнали, звані супроводжуючими формантамі. Схема автоматичного виділення фонем аналізує сигнал не тільки по місцеположенню і рівню формант, але і за швидкістю наростання і спаду амплітуд тих, що тимчасових огинають частотного спектру. Введено поняття субформант, які є спектральні максимуми похідної за часом від тієї, що тимчасової огинає мовного сигналу для різних смуг частотного спектру. Субформанти характеризуються місцеположеннями і рівнями спектральних максимумів в діапазоні частот тих, що тимчасових огинають сигналу (діапазон частот субформант — 16...76 Гц). Супроводжуючі форманти є спектральні максимуми тієї, що сумарної огинає сигналу в діапазоні частот. Розпізнавання фонем виробляється по формантам, субформантам і супроводжуючим формантам.

Рис. 5.15. Автоматичне виділення фонем: ПФ — смугові фільтри; Д — детектори; ФНЧ — фільтри нижніх частот; СФ2 ... СФ7 — субформантниє блоки; СФО — блок супроводжуючих формант

Сигнали з виходів смугових фільтрів після детектування поступають на фільтри низьких частот з граничною смугою 30 Гц. Сигнали, що виходять з ФНЧ, дозволяють визначити місцеположення і рівень формант. Субформанти визначаються в каналах 2...7 за допомогою блоків субформант. У цих блоках сигнали диференціюють, а потім за допомогою однонапівперіодних детекторів розділяють наростання і спад тієї, що тимчасової огинає сигналу. Чим крутіші спад або підйом амплітуди огинає, тим більше амплітуда диференційованого сигналу. Одержані 26 сигналів детектують і згладжують фільтрами частот.

Після цього сигнали поступають у фонемний аналізатор, який дозволяє ідентифікувати до 1000 варіантів фонем (близько 150 позиційних варіантів, .каждый з яких має в середньому по шість підваріантів). Для передачі фонем необхідно до 90 бит/с, а для передачі основного тону — 60 бит/с, тобто для організації одного телефонного каналу необхідна швидкість передачі 150 бит/с.

Фонемний синтез можна виконувати по наперед записаних натуральних звуках мови, згідно правилам речеобразованія і з використанням електричного еквівалента мовного тракту. Синтез мови здійснюється з наперед записаних сегментів під час вступу на вхід синтезатора сигналів, тому не можна забезпечити відновлення індивідуальних особливостей голосу абонента. При синтезі мови за правилами, які враховують наголос, інтонацію і тривалість звучання фонем, розпізнавана дещо поліпшується і звучання мови стає натуральнішим. Синтез мови з використанням електричного еквівалента мовного тракту виробляється за допомогою контурів із змінною частотою резонансу. До контурів підключені генератори основного тону і шуму. Під час вступу на вхід синтезатора кодових сигналів відповідних фонем резонансні контури перебудовуються, включається той або інший генератор і встановлюються величини сигналів генераторів.

Застосування вокодеров. Вокодери застосовуються в телефонному зв'язку і інформаційних мовних автоматах, при лінгвістичних і медичних дослідженнях, при зв'язку з водолазами, управлінні машинами, автоматичному перекладі, мовному висновку з ЕОМ, ідентифікації особи, навчанні нормам вимови іноземців і людей з дефектами мови, при читанні книги сліпими. Вокодери для телефонного зв'язку в аналоговому режимі звичайно не застосовують із-за високої вартості устаткування. Смугові і формантниє вокодери використовуються при цифровій передачі телефонних сигналів по короткохвильових каналах радіозв'язку і в супутникових системах передачі. Фонемні вокодери із-за низьких якісних показників застосовують тільки в лініях командного зв'язку, мовного управління, в автоматах інформаційно-довідкової служби, що говорять. Вокодери використовуються також для кодування телефонних сигналів в системах зв'язку озброєних сил і комерційних системах зв'язку.

Якщо порівнювати вокодери по складності технічної реалізації, то, прийнявши складність адаптивного модулятора дельти за одиницю, одержимо: у смугового вокодера така складність складає 100...200, у формантного — 500, у фонемного — 2000 одиниць. При швидкості передачі 1200 бит/с якнайкращим по розбірливості і якості звучання є формантний вокодер.

Якщо окремі ділянки каналу зв'язку обладнані вокодерамі різних типів, то при переприйманні по низькій частоті різко погіршується розбірливість і якісні показники мовних сигналів. Щоб усунути ці недоліки, переприймання здійснюють не по низькій частоті, а з використанням спеціальних пристроїв, що погоджують, які дозволяють перетворити параметри одного вокодера в систему параметрів іншого.

Розпізнавання звуків на рівні фонем привело до створення машин, що управляють, і пристроїв встановлення достовірності (верифікації) особи. Розроблені машинки, що фонетичні пишуть, які пізнають мову, а після корекції результати видають на друк. Є алгоритми пізнання фраз і слів; тривалість пізнання одного слова — 0,5 с. У Франції розроблено пристрій "Секретар", що ідентифікує абонента, що викликається, по імені, вимовленому в мікрофон, і що виробляє автоматичний набір номера телефону.

При зверненні абонента по телефону до банку даних з метою отримання певних відомостей необхідно встановлювати достовірність його особи. При верифікації (встановленні достовірності) особи порівнюють фразу (пароль) з еталоном, який зберігається в пам'яті ЕОМ. Якщо достовірність особи встановлена, ЕОМ видає необхідні дані. Фраза (пароль) аналізується по таких параметрах, як середній спектр тональних і шумових ділянок мови, середнє значення рівнів тієї, що огинає і мовного сигналу і його похідних, частота основного тону і її похідної. При цьому визначають ту, що також огинає парольної фрази і тривалість сигналу, оцінюють спектри ключових слів парольної фрази.

Програма навчання полягає в статистичній обробці чотирикратного вимовлення парольної фрази і виробленні еталону. Перевірка алгоритму верифікації дала високі результати.

Завдання ідентифікації істотно відрізняється від верифікації. В цьому випадку ЕОМ повинна точно визначити одного з абонентів серед безлічі інших. Такі завдання можуть виникати, зокрема, в слідчій практиці; вирішують їх порівнянням однієї або декількох фраз. З погляду алгоритму обробки, тобто порівняння еталонної фрази, що зберігається в пам'яті ЕОМ, з фразами, вимовленими різними людьми, завдання ідентифікації і верифікації схожі. Обидві вони успішно розв'язуються за допомогою ЕОМ.

Принципи побудови вокодеров використовуються в мовних автоматах, що входять до складу інформаційно-довідкової служби. Такі автомати будуються на базі ЕОМ, в пам'яті яких зберігаються сигнали управління, правила синтаксису, словник вимови слів, включаючи транскрипцію і наголос. По запиту абонента ЕОМ дає відповідь у вигляді тексту, потім послідовність слів обробляється програмою синтезу з обчисленням сигналів синтезатора мови, що управляють. Для створення зв'язної мови імітується динаміка мовного тракту людини з урахуванням акустичних властивостей речеобразованія. Якість мови порівнянна з природною.

Таким пристроєм користуються для видачі мовних команд монтажнику автоматичної телефонної станції. У текст команд закладена інструкція з вказівкою довжини провідника, його кольору і інших параметрів. Після виконання команди монтажник натискає ножну педаль і одержує наступну команду. Для прослуховування команд використовують головні телефони. Бібліотека інструкцій монтажнику виконана у вигляді карт, які легко замінюються.

Вокодерні пристрої, що синтезують мову за правилами, можуть використовуватися при читанні тексту сліпими, при навчанні іноземців правильній вимові.

Читайте також:

<== попередня сторінка	\|	наступна сторінка ==>
ОБРОБКА МОВНОГО СИГНАЛУ	\|	СТИСНЕННЯ СИГНАЛІВ ЗВУКОВОГО ВІЩАННЯ

Не знайшли потрібну інформацію? Скористайтесь пошуком google:

Генерація сторінки за: 0.046 сек.