Слаботочка Книги

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 [22] 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91

ван на медленном изменении уровней мощности. Этот режим работы иногда называют задержанной оценкой .

Другой режим работы предусматривает измерение уровня мощности отрезка речи и использование полученного на его основе коэффициента усиления для приспособления кодера к тому же самому отрезку речи. Этот подход, называемый прямой оценкой , имеет то очевидное преимущество, что в кодере и декодере используются коэффициенты усиления именно для тех отрезков речи, из которых эти коэффициенты получены. Недостаток этого режима состоит в том, что каждый отрезок речи необходимо задерживать на время определения коэффициента усиления. Однако этот недостаток становится менее неприятным благодаря использованию таких новых достижений технологии, как приборы с зарядовой связью для аналоговой задержки или цифровой памяти и регистров сдвига для цифровой задержки.

Адаптивная регулировка усиления с явной передачей коэффициентов усиления также не лишена недостатков. Во-первых, когда периодическая информация об усилении вводится в передаваемый цифровой сигнал, необходимы некоторые средства для образования блоков в цифровом потоке таким образом, чтобы было возможно отличить информацию об усилении от кодированного сигнала. Во-вторых, периодическое введение информации об усилении разрывает поток информации, приводя к повышенным тактовым частотам, которые зачастую находятся в неудобном соотношении с частотой дискретизации сигнала. В-третьих, качество речи критично к правильному приему коэффициентов усиления, что указывает на необходимость избыточного кодирования информации об усилении.

В [15] описан модифицированный вариант ИКМ, использующий прямую оценку коэффициентов усиления и называемый ИКМ с почти мгновенным компандированием . Необходимость в блочной передаче отрезков речи в упомянутом в [15] применении (телефонная связь с подвижными объектами) не является недостатком, поскольку повторяющиеся блоки с контролем ошибок используются как средство преодоления кратковременных замираний из-за многолу-чевости.

Адаптивная регулировка усиления с явной передачей информации об усилении для цифровой передачи речи широко не использовалась. Единственное исключение представляет аппаратура абонентского каналообразования фирмы Bell System [16], которая в настоящее время вышла из употребления. Разновидность регулировки усиления, использующая задержанную оценку для получения информации об усилении при кодировании сигнала, используется успешно в большинстве систем с дельта-модуляцией. В этих системах не осуществляется непосредственная подстройка уровней мощности, показанная на рис. 3.21, а реализуется эквивалентная функция подстройки размеров шагов квантования в кодерах и декодерах. Эти способы более полно описаны в разд. 3.5.3.

3.3. ИЗБЫТОЧНОСТЬ РЕЧИ

Как уже упоминалось в предыдущих разделах, в обычной системе с ИКМ каждый дискрет входного сигнала кодируется независимо от всех остальных. Таким образом, система с ИКМ, по существу, способна кодировать произвольные случайные сигналы, в которых частоты компонент не превышают половину частоты дискретизации. Анализ речевых сигналов показывает, однако, что при переходе от одного дискрета к другому проявляется значительная избыточность. В действительности, как показано в [7], коэффициент корреляции (мера предсказуемости) между соседними дискретами, следующими с частотой 8 кГц, составляет в общем случае 0,85 или больше. Следовательно, избыточность при обычном, ИКМ-кодирова-нии указывает на возможность значительной экономии полосы передачи, что можно осуществить за счет более эффективных методов кодирования. Все методы аналого-цифрового преобразования, описанные в последующей части этой главы, с целью уменьшения скорости передачи приспособлены в той или иной степени к характеристикам речевых сигналов.

Таблица 3.3. Виды избыточности речевого сигнала

Во временной области

1. Неравномерное амплитудное распределение

2. Корреляция между дискретами

3. Корреляция, связанная с периодичностью в сигнале

4. Корреляция между периодами основного тона

5. Избыточность, связанная с неактивностыо речи (паузы)

В частотной области

6. Неравномерный усредненный спектр

7. Кратковременный спектр звука

В дополнение к корреляции, существующей между соседними дискретами речевого сигнала, для уменьшения скорости передачи кодированного сигнала можно использовать и несколько других видов избыточности. Они перечислены в табл. 3.3. В нее не включены виды избыточности высокого уровня, относящиеся к контексту передаваемой речи и обусловленные интерпретацией звуков речи (фонем), слов и предложений. Эти вопросы здесь не освещаются, поскольку способы, в которых речевые сигналы анализируются только для извлечения информационного содержания, устраняют субъективные качества, существенные для обычной телефонной связи.

3.3.1. Неравномерное распределение амплитуд

Как уже упоминалось при определении понятия компандирования, дискреты с меньшими значениями встречаются чаще, чем дискреты с большими значениями. Большая часть дискретов с малыми значениями обусловлена паузами в разговоре. Однако и в актив-



ных сигналах речи вероятность появления уровней мощности вблизи нижнего края диапазона кодирования также велика. Процедуры компандирования, описанные в предыдущем параграфе, дают слегка пониженное качество (т. е. пониженное отношение сигнал-шум) для малых сигналов по сравнению с большими сигналами. Вследствие этого среднее качество речи при ИКМ-преобразовании может быть улучшено за счет дальнейшего уменьшения размеров шагов квантования для низких уровней и увеличения шагов квантования для высоких уровней. Однако степень улучшения, которую можно было бы получить за счет этого, вероятно, не была бы оправдана из-за дополнительных сложностей, особенно при необходимости сохранить реализуемость линейно-ломаных характеристик для современных компандеров.

Наиболее выгодный подход к обработке амплитуд сигналов для уменьшения скорости передачи на выходе кодера заключается в использовании некоторых видов адаптивной регулировки усиления, которые рассматривались выше. При усреднении за большой период уровень мощности речи одиночного телефонного абонента ограничен диапазоном более узким, чем диапазон для всех абонентов. При рассмотрении меньших отрезков времени в течение длительности отдельных отрезков речи (слогов) поддерживается довольно постоянный уровень мощности. Поскольку слог длится примерно 30 мс, в типовом случае за время между изменениями уровня мощности в цифровом сигнале речи со скоростью передачи 64 кбит/с формируется 1920 битов. Таким образом, добавка скорости для передачи значения уровня мощности незначительна с точки зрения требований к полосе. Системы с ИКМ и почти мгновенным компандированием, упомянутые выше [15], позволяют уменьшить скорость передачи примерно на 30% по сравнению с обычной ИКМ.

3.3.3. Корреляция, связанная с периодичностью в сигнале

Хотя для передачи речевого сигнала и требуется вся полоса от 300 до 3400 Гц, предоставляемая каналом ТЧ, в любой конкретный момент времени определенные звуки могут быть построены только из колебаний нескольких частот в пределах этой полосы. Если звук имеет только несколько основных частот, то в сигнале наблюдается сильная корреляция между большим числом дискретов, относящихся к нескольким периодам колебаний. Периодический характер гласных и звонких согласных звуков виден на рис. 3.22.

Период


Рис. 3.22. Сигнал гласного или звонкого согласного звука

Кодеры, использующие избыточность, обусловленную периодичностью речи, являются существенно более сложными устройствами, чем кодеры, предназначенные только для удаления избыточности в соседних дискретах. Фактически эти кодеры представляют собой более или менее переходную форму от кодеров сигнала, работающих с относительно высокой скоростью передачи и обеспечивающих натургипь-ное звучание, к вокодерам, работающим с относительно низкой скоростью передачи и дающим синтетическое звучание.

3.3.2. Корреляция между дискретами

Высокий коэффициент корреляции порядка 0,85 (см. разд. 3.3) показывает, что при любой попытке существенно уменьшить скорость передачи необходимо учитывать корреляцию между соседними дискретами. Фактически при частоте дискретизации 8 кГц существует также значительная корреляция между дискретами, расположенными через один и через два дискрета. Естественно, что корреляция между дискретами возрастает с увеличением частоты дискретизации.

Простейшим способом использования корреляции между дискретами речи является кодирование только разностей между соседними дискретами. Результаты измерений разностей накапливаются затем в декодере для восстановления сигнала. По существу, эти системы кодируют крутизну или производную сигнала на передающей стороне и восстанавливают сигнал путем интегрирования на приемной стороне. Алгоритмы аналого-цифровых преобразований такого типа рассматриваются в последующих разделах.

3.3.4. Корреляция между периодами основного тона

По способам генерации звуки человеческой речи часто относят к одной из двух категорий. Первая категория охватывает звуки, которые создаются в результате вибрации голосовых связок. При каждой вибрации поток выдыхаемого воздуха пропускается из легких в речеобразующий тракт. Интервал времени между прохождением струй воздуха, возбуждающих речеобразующий тракт, называется периодом основного тона, или, более просто: частота возбуждения соответствует основному тону. В общем смысле такие звуки возникают при генерации гласных звуков и некоторой части согласных. Пример реализации такого звука представлен на рис. 3.22.

Вторая категория звуков включает в себя щелевые, или глухие звуки. Глухие звуки возникают при непрерывном протекании воздуха от легких через речеобразующий тракт, суженный в некоторой точке для образования турбулентностей воздуха. Глухие звуки относятся к некоторым согласным, таким как ф, с. Пример сигнала глухого звука представлен на рис. 3.23. Отметим, что




Рис. 3.23. Сигнал глухого звука

глухой звук существенно больше похож на случайный сигнал, чем гласный или звонкий согласный.

Как показано на рис. 3.22, на гласных или звонких согласных звуках заметна не только избыточность, связанная с периодичностью в сигнале и упомянутая в разд. 3.3.3, но и долговременная периодичность, относящаяся к основному тону. Вследствие этого одним из наиболее эффективных способов кодирования звонких отрезков речи является кодирование сигнала на одном периоде основного тона и использование результатов этого кодирования как шаблона на каждом последующем периоде основного тона в одном и том же звуке. Периоды основного тона составляют обычно от 5 до 20 мс для мужчин и от 2,5 до 10 мс для женщин. Поскольку типовой гласный или звонкий согласный звук длится примерно 100 мс , в один звук может уложиться 20-40 периодов основного тона. Хотя кодирование на периоде основного тона может значительно уменьшить скорость передачи, иногда основной тон очень трудно выделить. (Отнюдь не все звонкие согласные звуки содержат четко идентифи-Щ1руемый период основного тона, какой показан на рис. 3.22.) Если же закодировать сигнал на периоде основного тона с ошибками, то это приводит к созданию необычных звуков.

Интересный аспект кодирования на периоде основного тона состоит в том, что это дает средства для ускорения речи при сохранении разборчивости. При удалении некоторой части периодов основного тона из каждого звука (фонемы) частота генерации речи существенно возрастает, что в некоторой степени аналогично более быстрому формированию слов. Основной тон звуков остается неизменным. В противоположность этому, если просто увеличить скорость восстановления, то все частоты, включая и основной тон, пропорционально увеличатся. Небольшое ускорение дает заметные искажения, а при значительном ускорении речь становится неразборчивой. Устройства, предназначенные для имитации ускоренного формирования слов, показали, что люди способны воспринимать речевую информацию намного быстрее, чем нормально ее производят.

3.3.5. Избыточность, связанная с неактивностью речи

Анализ телефонных переговоров показал, что активная часть разговора в типовом случае составляет около 40% его длительности. Большая часть неактивных участков является результатом того, что один человек слушает, когда другой говорит. В результате

Имеется противоречие между длительностью гласного звука (100 мс) и длительностью слога (30 мс), указанной на с. 132 и 152. - Прим. перев.

этого обычное дуплексное соединение (при коммутации каналов) существенно недоиспользуется. Метод TAS1 (Time Assignment Speech Interpolation), описанный в гл. 1, реализует улучшение использования каналов дорогих аналоговых линий. Термин цифровое статистическое уплотнение речевого сигнала представляет собой термин, применяемый, когда речь идет об аналоге метода TASI для цифровых каналов. По сути, цифровое статистическое уплотнение речевого сигнала включает в себя: определение речевой активности, занятие канала, кодирование и передачу отрезков речи и освобождение канала по завершению каждого отрезка.

Очевидно, что цифровое статистическое уплотнение речевого сигнала можно применить к цифровым системам запоминания речи, где длину паузы можно закодировать и передать более эффективно, чем саму паузу. Однако в записанных сообщениях длительности пауз, как правило, невелики, так как здесь нет полудуплексного разговора. Цифровое статистическое уплотнение речевого сигнала было предложено для многочисленных систем передачи, обсуждаемых в гл. 8.

3.3.6. Неравномерный усредненный спектр

Виды избыточности во временной области, описанные в предыдущих разделах, указывают на такие характеристики в частотной области, которые можно в определенной мере использовать для уменьшения скорости передачи кодированного сигнала. Избыточность в частотной области не является независимой от избыточности во временной области. Способы, основанные на обработке в частотной области, просто являются другим подходом к анализу и обработке избыточности.

Полностью независимый или непредсказуемый сигнал во временной области создает плоский частотный спектр во всей полосе, представляющей интерес. Таким образом, для сигнала, в котором дискреты не коррелированы во временной области, полоса используется в максимальной степени. С другой стороны, неравномерный спектр сигнала соответствует неэффективному использованию полосы и указывает на избыточность в сигнале во временной области. На рис. 3.24 представлен спектр речевого сигнала, усредненный для мужчин и женщин [17]. Отметим, что уровни мощности на верхних частотах полосы шириной 3 кГц, предоставляемой телефонной сетью, значительно уменьшаются. Пониженные уровни моищости на верхних частотах являются прямым следствием рассмотренной выше корреляции между дискретами во временной облас-

1 ? -10 -

-20-


1000 2000 Частота, Гц

Рис. 3.24. Усредненный спектр речи

8000




1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 [22] 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91
Яндекс.Метрика