Слаботочка Книги

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 [17] 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91

декодеров (кодеков) для передачи снижается и все большее число функций передачи и коммутации объединяется, техника преобразования речи на повышенных скоростях (только для коммутации) перестает применяться.

Цифровые устройства хранения речевых сигналов также можно подразделить в соответствии со скоростью передачи преобразованного в цифровую форму сигнала, которая, естественно, непосредственно влияет на требования к устройствам цифровой памяти. Нижней границе скорости соответствуют устройства для записи сообщений, где необходим минимальный объем памяти и реализуются только минимальные требования к качеству речи. Одним из них является обучающий аппарат Спик-энд-спел , разработанный фирмой Texas Instruments [3].

В этом устройстве использованы некоторые из наиболее изощренных достижений в технике цифрового преобразования речи; оно способно запоминать до 200 слов (в среднем примерно по 1000 битов на слово). При таких данных эквивалентная скорость передачи получается несколько меньшей, чем 1200 бит/с. Отсюда следует, что запись сообщений при ограниченном объеме памяти требует наиболее сложной техники кодирования и декодирования. Вследствие этого, способ получения таких низких скоростей передачи в настоящее время не может обеспечить качество, требуемое для применений в реальном масштабе времени.

Другим примером запоминающего устройства является цифровая система запоминания речи типа 1А [4], разработанная инженерами фирмы Bell Laboratories. Эта система работает совместно с коммутационными системами с управлением по записанной программе и служит для записи механического голоса, сообщений от абонентов и сообщений для абонентов. Для кодирования используется адаптивная дельта-модуляция (рассматривается далее) со скоростью передачи 32 кбит/с.

Верхней границе скоростей передачи соответствует применение цифровых устройств хранения для записи речи и музыки с высоким качеством воспроизведения. Многие из преимуществ цифровой передачи (по отношению к аналоговой) можно отнести и к цифровой записи. Первым из этих преимуществ является возможность определения качества воспроизведения во время записи и поддержания этого качества бесконечно долго путем периодического копирования (регенерации) записанной цифровым образом информации, прежде чем неизбежные ухудшения не вызовут ошибок в двоичных символах. Таким образом, высококачественные (с высокой скоростью передачи) цифровые записи выдающихся певцов (в зависимости от вашего музыкального вкуса) могут быть сохранены для потомства. Это невозможно сделать с аналоговыми записями, как бы хорошо с ними не обращались или сохраняли их. Другое достоинство цифровых систем запоминания состоит в возможности использовать низкокачественный (нелинейный) носитель записи. Вследствие этого цифровые проигрыватели и магнитофоны станут экономически привлекательными для потребите-

Это означает в переводе: говори и произноси по буквам .- Прим. перев.

лей, поскольку стоимость электроники продолжает уменьшаться, а дешевые носители записи производятся в массовом количестве. Цифровые магнитофонные системы с высоким качеством воспроизведения уже применяются в некоторых студиях звукозаписи, в основном чтобы способствовать гибкости обработки высококачественного сигнала при подготовке окончательного продукта. В этих системах скорости передачи составляют около 400 кбит/с.

Анализ и синтез речи является еще одной областью широко распространенных исследований, тесно связанных с преобразованием речи в цифровую форму. Действительно, в некоторых из кодеров и декодеров речи, работающих на самых низких скоростях, применяется в определенной степени анализ и синтез речевых сигналов, представленных в цифровой форме. Однако в своей основной разновидности анализ и синтез имеют особые задачи и приложения, фундаментально отличающиеся от целей и применений цифрового представления речи. В основном эти задачи состоят в распознавании слов и машинной генерации речи.

Один из подходов к анализу речи состоит в обработке сигналов с целью распознавания фонем - основных единиц речи, из которых построены произнесенные слова. После распознавания фонем им приписываются определенные индивидуальные кодовые комбинации, используемые для запоминания или передачи. Синтезатор может затем образовать речевой сигнал, воссоздавая комбинации фонем. Анализ этой техники показывает, что содержание речевой информации может быть передано со скоростью порядка 50 бит/с [5]. Следует, однако, подчеркнуть, что передается только та информация, которая связана с самими словами, но не передается ни одно из более субъективных качеств речи, таких как натуральность речи, интонация, акцент, распознаваемость говорящего и т. п. Вследствие этого такая техника сама по себе не применима для общей телефонии, которая обычно воспроизводит также особенности речи, отличные от содержания произнесенных слов.

Следующий уровень анализа речи позволяет распознавать сами произнесенные слова. Одна из таких систем, представленная недавно в действии фирмой NEC (Япония),способна распознавать до 1000 отдельных слов с вероятностью ошибки менее 1 % [6]. Такие системы предназначаются для ввода данных в ЭВМ или для управления машинами голосом и в общем случае не включают средства для воспроизведения (синтеза) произнесенных слов, за исключением получения 1Ц1фро-буквенного выходного сигнала. С улучшением этой техники распознавания, особенно распознавания связанных слов, станут возможными телетайпы, управляемые голосом.

В широком смысле способы преобразования речи в цифровую форму могут быть подразделены на два класса: способы кодирования аналоговых сигналов с максимально возможной точностью и способы обработки сигналов с целью кодирования только значимых для восприятия элементов процессов речи и слуха. Первая категория относится к общей проблеме аналого-цифрового и цифро-аналогового преобразований и не ограничивается только преобразованием речи. Двумя наи-



более общими способами, используемыми для кодирования речевых сигналов, являются импульсно-кодовая модулящ1я (ИКМ) и дельта-модуляция (ДМ). За исключением специальных случаев в цифровой телефонии используются только эти способы. Таким образом, изучая наиболее общие способы цифрового кодирования речи, мы фактически исследуем более широкий класс аналого-цифровых преобразований.

Вторая категория способов цифрового преобразования речи относится, в основном, к созданию кодеров и декодеров речи, работающих с очень низкими скоростями передачи и предназначенных для узкополосных систем передачи или цифровой аппаратуры хранения с ограниченным объемом. Устройства этого специального класса обычно называют вокодерами. Речь, воспроизводимая вокодерами, обычно достаточно разборчива, но в общем случае лишена натуральности (имеет синтетическое звучание). По этой причине вокодеры не обеспечивают качества, достаточного для общей телефонии. В последующем рассмотрении основное внимание уделяется способам кодирования аналогового сигнала, но описываются также и общие принципы работы вокодеров.

3.1. АМПЛИТУДНО-ИМПУЛЬСНАЯ МОДУЛЯЦИЯ

Первым шагом в превращении аналогового сигнала в цифровой является формирование последовательности дискретных моментов времени, в которые осуществляется дискретизащ1я сигнала. Способы аналого-цифрового преобразования основываются преимущественно на использовании периодических моментов дискретизации, размещенных на равных расстояниях. Если дискреты формируются достаточно часто, то исходный сигнал может быть полностью восстановлен из последовательности дискретов путем применения фильтра низких частот для интерполяции или формирования сглаженного по величинам дискретов сигнала. Эти основные понятия иллюстрирует рис. 3. 1. Представленный на этом рисунке аналоговый сигнал дискретизируется с постоянной частотой дискретизации fs= 1 /Т и восстанавливается с помощью фильтра низких частот. Отметим, что процесс дискретизации эквивалентен амплитудной модуляции последовательности импульсов с постоянной амплитудой. Отсюда метод, представленный на рис. 3. 1, называют обычно амплитудно-импульсной модуляцией (АИМ).


Входной сигнал

iiimiiii

Импупьсная последовательность

Амплитудная модуляция

Дискреты АИМ сигнала


Фильтр низких частот

3.1.1. Частота дискретизации по Найквисту

Классические результаты в системах с дискретизацией были получены в 1933 г. Г. Найквистом , когда он определил минимальное значение частоты дискретизации, необходимое для извлечения всей информации из непрерывного, меняющегося во времени сигнала. Эти результаты - критерий Найквиста - определяются соотношением fs > 2BW *, где fg - частота дискретизации, BW - ширина полосы входного сигнала.


Спектр входного сигнала

Спектр импульсной последовательности


Выходной фильтр г



fs-BW

Рис. 3.2. Спектр сигнала с амплитудно-импульсной модуляцией

Этот результат поясняет рис. 3. 2, где представлен спектр входного сигнала и результирующий спектр импульсной последовательности АИМ сигнала. Спектр АИМ сигнала можно получить, если учесть, что непрерывная последовательность импульсов имеет частотный спектр, состоящий из дисретных гармоник частоты дискретизации. Входной сигнал модулирует каждую из этих гармоник отдельно. В результате этого создаются две боковые полосы около каждой дискретной частоты в спектре импульсной последовательности. Исходный сигнал восстанавливается с помощью фильтра низких частот, рассчитанного на подавление всех частот, кроме частот исходного сигнала. Как показано на рис. 3. 2, восстанавливающий фильтр низких частот должен иметь частоту среза, которая расположена между BW и fg - BW. Следовательно, разделение возможно только в том случае, если fg-BW больше, чем BW (т. е. если fg > 2BW).

Теорема дискретизации была сформулирована и доказана академиком В. А. Ко-тельниковым в 1931 г.- Прим. перев.

* По теореме Котельникова fZeW. Прим. ред.



3.1.2. Помехи наложения спектров

Если входной сигнал системы с АИМ дискретизируется с частотой fs <i2B]V, то исходный сигнал не может быть восстановлен без искажений. Как показано на рис. 3. 3, искажения в выходном сигнале возникают вследствие того, что боковые полосы частоты дискретизации попадают в исходный спектр и не могут быть выделены из него путем фильтрации.

По существу, помехи наложения спектров создают в требуемой полосе частот составляющие, которые не существовали в исходном сигнале. Проблемы наложения спектров не являются особенностью только процессов преобразования речи в цифровую форму. Возможности дая возникновения таких искажений существуют в любой системе с дискретизацией. Кинофильмы, например, являются еще одной системой с дискретизацией, в которой могут возникнуть помехи наложения

Энергия искажений



-bw bw

Спектр входного сигнала

Рис. 3.3. Спектр с перекрытием боковых полос, получаемый при недостаточно высокой частоте дискретизации входного сигнала

спектров. Возьмем всем известный пример, когда снимают движущиеся дилижансы в старых вестернах. Часто процесс дискретизации осуществляется слищком медленно по сравнению с вращением колес дилижанса и создается ложная скорость вращения. Если между кадрами колесо поворачивается на 355°, это выглядит на глаз, как если бы оно повернулось назад на 5°.

Источник сигнала с частотой 5,6 кГц

Устройство дискретизации

В кГц

Дискреты АИМ сигнала

4 кГц

-2.5 кГц

Фильтр низких частот

Дискреты АИМ сигнала


Рис. 3.4. Преобразование сигнала с частотой 5,5 кГц в сигнал с частотой 2,5 кГц 104

illl

фильтр, огреничивающий

Импульсы дискретизации

Аналоговая Восстанавливающий память фильтр

полосу

Рис. 3.5. Структурная схема системы с амплитудно-импульсной модуляцией

На рис. 3. 4 показан процесс возникновения помех наложения спектров в речевых сигналах на примере, когда сигнал с частотой 5,5 кГц дискретизируется с частотой 8 кГц. Отметим, что значения дискретов идентичны значениям, получаемым для входного сигнала с частотой 2,5 кГц. Вследствие этого после прохождения дискретизи-рованным сигналом выходного фильтра с частотой среза 4 кГц возникнет сигнал с частотой 2,5 кГц, который не поступал от источника. Этот пример показывает, что входной сигнал перед дискретизацией должен быть ограничен по полосе, чтобы можно было удалить из него составляющие с частотой выше, чем fs/2, даже если этими составляющими, как неслышимыми, можно было бы пренебречь. Таким образом, полная АИМ-система, показанная на рис. 3. 5, должна иметь фильтр, ограничивающий полосу сигнала перед дискретизацией, для гарантии того, что никакие ложные или связанные с источником сигналы не приведут к появлению помех в требуемой полосе вследствие наложения спектров после дискретизации. Входной фильтр может быть рассчитан также на подавление очень низкочастотных составляющих, чтобы удалить фон частоты 60 Гц, проникающий из цепей электропитания.

На рис. 3. 5 показано восстановление сигнала с помощью устройства аналоговой памяти, которое формирует ступенчатую аппроксимацию дискретизированного сигнала. За счет использования ступенчатой аппроксимации уровень мощности сигнала на выходе восстанавливающего фильтра получается почти таким же, как и уровень дискретизированного входного сигнала. В этом случае частотная характеристика восстанавливающего фильтра должна быть несколько изменена, чтобы учесть спектр расширенных (ступенчатых) дискретов. (Величина этого изменения определяется путем деления плоской характеристики фильтра на спектр импульса конечной длительности, см. приложение В.)

Предполагается, что ограничивающий полосу и восстанавливающий фильтры, показанные на рис. 3. 5, имеют идеальные характеристики .

Под идеальным понимается такой фильтр, у которого задержка не зависит от частоты (линейная фаза), затухание в полосе пропускания отсутствует (за исключением такого, которое желательно для образования нужной формы импульса), срез произвольно крутой и затухание во всей полосе задерживания бесконечно большое.




1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 [17] 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91
Яндекс.Метрика