Ввод в ЭВМ и машинный синтез речи

Особое место в системах мультимедиа занимает использование аудиоаппаратуры для речевого общения. Структура-задач речевого общения приведена на рис.7.15.

Рис.7.15. Структура задач речевого общения

Для распознавания и понимания речи дикторов необходимо ввести речевые сигналы в ЭВМ с помощью акустических устройств ввода и проанализировать вводимую речь. Устройства ввода-вывода с магнитными носителями информации. Магнитные носители информации - это магнитные ленты, карты, барабаны и диски.

Системы речевого ввода делятся на два типа по характеру распознаваемой речи:

·          системы, ориентированные на восприятие отдельных команд;

·          системы, воспринимающие связную речь.

Разница между ними весьма существенна, так как при слитном произношении слов изменяется их звучание.

При анализе отдельных команд осуществляются их оцифровка, идентификация и инициируется выполнение программы, отрабатывающей принятую команду. Этот же режим используется и для речевого ввода цифровой информации; в этом случае после идентификации введенное слово преобразуется в соответствующий код ASCH (за счет чего достигается существенное сжатие речи). Фирма Курцвейл выпускает на этом принципе устройство Voice Writer, которое распознает около 10 000 отдельно произнесенных английских слов и печатает их на принтере.

В настоящее время практически отсутствуют устройства для ввода динамически развивающихся звуковых сцен. Устройства ввода и программы-анализаторы не позволяют выделить эмоциональную составляющую речи, которая значительно корректирует смысл (и может даже изменить его до противоположного). Чаще всего эмоциональная составляющая рассматривается как помеха (за исключением систем контроля эмоционального состояния). Как дополнительный источник информации эмоциональная окраска голоса (и введенного сообщения) в настоящее время не используется.

Системы речевого вывода называются синтезаторами речи.

Существуют три основных технологически различных подхода к проблеме синтеза речи:

·          метод кодирования-восстановления формы сигналов;

·          аналоговый метод синтеза формантных частот;

·          цифровое моделирование голосового тракта.

[an error occurred while processing this directive]

Первый метод- самый простой: ЭВМ в этом случае служит как цифровой магнитофон. Фразы и слова записываются раздельно и выбираются для воспроизведения в нужный момент по командам, поступающим от соответствующей программы. В такой системе невозможно воспроизвести слово, которое не было заранее записано.

Для хранения оцифрованной речи необходима память большого объема, хранить необходимо каждое слово из лексикона ЭВМ с учетом различных падежных окончаний, рода (пошел-пошла-пошло), числа... Но зато качество воспроизведения речи очень высокое.

Разновидностью синтезаторов этого типа являются автоответчики, построенные из ЭВМ и Voice-модема; речевая телепочта (передача речевого сообщения по вычислительным сетям).

Считается, что этот метод эффективен, когда словарный запас невелик -не превышает 10-15 слов (например, говорящий приборный щиток автомобиля, говорящие часы, калькулятор, календарь).

Второй метод использует принципы акустического моделирования голосового тракта человека. Речь составляется из формантных частотных полос, которые создаются полосовыми фильтрами. Суммарный выходной сигнал формантных фильтров достаточно близко соответствует частотному спектру человеческой речи. Но такая речь звучит, как голос робота, разборчивость ее оставляет желать лучшего.

Этот метод универсален: с его помощью можно синтезировать любые слова, иметь неограниченный словарь, так как речь создается из отдельно генерируемых звуков. Синтезатор может быть реализован программным путем.

Наиболее распространенный способ возбуждения синтезатора формантных частот состоит в использовании отдельных, поддающихся идентификации звуков речи, называемых фонемами.

Фонемный синтезатор образует последовательность фонем, которая при воспроизведении на акустическом устройстве вывода звучит как речь.

Фонемный синтез речи практически не требует дополнительной аппаратуры; он может быть реализован на ЭВМ стандартной конфигурации программным путем.

Речь разделяется на отдельные элементарные части - фонемы. Например, в английском языке выделяются такие фонемы для гласных звуков, как ее, i, eh и др. (табл.7.1).

Таблица 7.1

Фонемы гласных звуков английского языка

Фонема

Произношение

F1

F2

F3

ее

feet

250

2300

3000

i

hid

375

2150

2800

eh

head

550

1950

2600

ае

had

700

1800

2550

ah

tot

775

1100

2500

aw

talk

575

900

2450

u

Took

425

1000

2400

00

Tool

275

850

2400

F1, F2, F3 - три основные формантные частоты, наблюдаемые в спектрограмме, При произношении Средним Мужским голосом.

Но кроме гласных в речи человека существуют фрикативные, взрывные и носовые согласные. Кроме того, каждая фонема имеет вариации - аллофоны.

В русском языке согласные фонемы бывают мягкие и твердые, глухие и звонкие (шумные, сонорные, губные, зубные, альвеолярные, велярные).

Третий метод использует словарь, который создается голосом человека, но в память записывается не оцифрованный акустический сигнал, а его частотные параметры, при этом уменьшается объем памяти, занимаемый словарем. Синтез же речи производится интегральными микросхемами, генерирующими заданный набор частот с заданными амплитудами и смешивающими их.


На главную