Слаботочка Книги Период основного тона Выбор вида возбуждения Генератор импульсов Гласный или звонкий согласный звук - Глухой звук Коэффициент усиления С Шумовой I генератор Модель цепи возбуждения Коэффициенты предсказания Линейная обратная связь y<t) Модель речеобразующего тракта Рис. 3.42. Модель генерации речевого сигнала при кодировании с линейным предсказанием кодирования ошибок предсказания вытекает из того факта, что в КЛП используются параметры предсказания, полученные из отрезков реального речевого сигнала, к которым эти параметры и применяются (прямая оценка). В противоположность этому кодеры с предсказанием, упомянутые выше, основывают свое предсказание только на измерениях прошедшего сигнала (задержанная оценка). Быстрые изменения в речеобразующем тракте или возбуждении приводят к тому, что модели, основанные на измерениях прошедшего сигнала, становятся менее точными. В кодере (анализаторе) с линейным предсказанием определяется и передается в сторону декодера (синтезатора) следующая информация: 1) о характере возбуждения (гласные или звонкие согласные звуки в сопоставлении с глухими звуками); 2) о периоде основного тона (для возбуждения гласных или звонких согласных звуков); 3) о коэффициенте усиления; 4) о коэффициентах предсказания (параметрах модели речеобразующего тракта). Как и в других типах вокодеров, характер возбуждения определяется тем, содержится или нет значительная периодическая компонента в сигнале. Частота основного тона определяется измерением периодичности, если она существует. Помимо того, что кодер (анализатор) с линейным предсказанием измеряет основной тон способами, аналогичными используемым другими типами вокодеров, он обладает еще и специфическими свойствами, которые содействуют определению параметров основного тона [35]. Коэффициенты предсказания можно определить, используя одну из нескольких различных процедур вычисления [35]. Во всех этих процедурах в качестве желаемого выходного сигнала синтезатора используются дискреты реального сигнала. При этом образуется система из р линейных уравнений с р неизвестными коэффициентами. В результате эти коэффициенты определяются путем инвертирования матрицы размером рХр- Поскольку порядок р может варьироваться от 6 до 12 в зависимости от желаемого качества речи, прямая инверсия матрицы требует огромного объема вычислений. Однако, если принять для модели специальные ограничения, матрицы приобретают особые свойства, которые существенно упрощают решение уравнений. Хотя кодеры с линейным предсказанием обрабатывают сигнал речи во временной области, они обеспечивают хорошие оценки пиков в спектре речи. Кроме того, КЛП способен эффективно отслеживать медленные изменения огибающей спектра. Итоговый результат состоит в том, что КЛП дают более естественное звучание речи, чем вокодеры, основанные на анализе только в частотной области [19]. Большая часть исследований в области КЛП сконцентрирована на кодировании речи со скоростью передачи в диапазоне от 1,2 до 2,4 кбит/с. 3.9. СООБРАЖЕНИЯ ПО ВЫБОРУ КОДЕРА (ДЕКОДЕРА) В этой главе описано несколько способов цифрового преобразования сигналов речи и показано, что возможно также множество других вариантов и типов. В этом, последнем разделе суммируются основные соображения, которые следует принять во внимание при выборе для реализации конкретных типа кодека или алгоритма цифрового преобразования. К факторам, имеющим основное значение, относятся: качество речи, скорость передачи, чувствительность к ошибкам передачи, форматы кодирования и способ построения структуры цифрового сигнала, требования к обработке сигнала, требования к хронированию и стоимость реализации. Естественно, что относительная важность этих факторов зависит от области применения: все области применения предъявляют требования к определенному минимальному уровню качества. Кроме этих требований важнейшими характеристиками кодека для передачи являются его стоимость, скорость передачи и качество работы при наличии ошибок в канале. Для кодера цифровой коммутации важнейшей является стоимость реализации. При выборе способа преобразования в объединенных системах передачи и коммутации преобладают соображения, касающиеся передачи, особенно в связи с тем, что стоимость кодека для передачи, выполненного на БИС, не намного больше стоимости кодека для коммутации, выполненного на БИС. Требования к кодеку для цифрового запоминания речи в основном связаны с объемом памяти (скоростью передачи), но при этом допускается значительная гибкость при выборе формата цифрового сигнала. Следовательно, ряд факторов, таких как чувствительность к ошибкам в канале и форматы кодирования, которые могут оказать влияние на выбор типа кодека для целей передачи, являются несущественными для применения в устройствах запоминания. 3.9.1. Качество речи Как уже упоминалось в начале этой главы, качество речи характеризуется двумя основными понятиями: приемлемостью для слушателя и разборчивостью. Для суждения об обоих факторах необходимы оценки слушателей. Факторы, определяющие приемлемость речи для слушателя, включают в себя натуральность, распознавание говорящего и восприятие шумов или искажений. Один из методов оценки приемлемости состоит в субъективной оценке группой слушателей общего качества различных отрезков речи. Приемлемость пары кодер-декодер определяется долей слушателей, оценивающей качество отрезков речи как достаточное. Обычно более логичная процедура требует, чтобы слушатели сделали выбор между двумя различными парами кодер-декодер или между одной парой и необработанным речевым сигналом. Вообще говоря, только такие кодеры, которые работают с высокими скоростями передачи (ИКМ, ДИКМ или ДМ), дают высокие показатели приемлемости. Однако продолжающиеся исследования с использованием вокодерной техники на промежуточных скоростях передачи (от 10 до 20 кбит/с) могут привести в будущем к созданию кодеров речевого сигнала с повышенным качеством и средними скоростями передачи. Исследователи в области речевых сигналов уже давно искали способ объективного измерения качества речи, который был бы связан с субъективными оценками. Измерение отношения сигнал-шум квантования является простейшей попыткой получить такую оценку. Однако, как было показано при рассмотрении дельта-модуляции, шум перегрузки по крутизне субъективно мешает меньше, чем гранулярные (некоррелированные) шумы с существенно меньшим уровнем мощности. Кроме того, измерения ОСШК бессмыслены для большинства вокодеров, поскольку их алгоритмы преобразования в цифровую форму преследуют цель сохранить не форму сигнала, а только факторы речи, существенные для восприятия. Следовательно, измерение ОСШК целесообразно лишь в тех случаях, когда сопоставляются кодеры с различными характеристиками шумов. Тем не менее, измерения (ХИШК часто используются как мера сопоставления кодеров формы сигнала. Более полезной, но и более сложной мерой качества речи является степень сохранения кратковременного амплитудного спектра сигнала [7]. Другой проблемой, связанной с объективным определением качества речи, соответствующего паре кодер-декодер, является выбор подходящего входного сигнала. Из соображений удобства часто используют синусоидальные колебания. Однако синусоидальный сигнал по ряду признаков отличается от типового сигнала речи. Во-первых в один и тот же момент времени речь обычно содержит несколько сильных частотных составляющих (формант), а некоторые алгоритмы кодирования обрабатывают разные частоты с различным качеством. Во-вторых, речевой сигнал имеет больший пик-фактор, чем синусоида. Таким образом, появление перегрузки или ограничения для речевого сигнала более вероятно. В-третьих, активность речевого сигнала носит прерывистый характер. Следовательно, в дополнение к характеристикам сигнала с постоянными параметрами необходимо анализировать переходные характеристики (скорость адаптации). При испытаниях на разборчивость требуется, чтобы слушатели распознавали специально разработанные выражения, состоящие из изолированных слогов, слов или целых фраз и предложений. Очевидно, что эти испытания являются более объективными, чем другие виды оцениваний, поскольку они при этом не требуют оценок на предпочтение от части слушателей. Однако результаты испытаний еще зависят от характера испытательного материала (знакомство со словами или звуками, акценты и т. д.) и от способностей слушателей. Для улучшения объективности этих испытаний созданы стандарты речевого материала и рекомендовано создание небольших групп тренированных слушателей [36]. Способы кодирования, которые получают хорошие оценки при испытаниях на предпочтение по качеству, получают хорошие оценки и при испытаниях на разборчивость. Поэтому испытания на разборчивость используются чаще всего для вокодеров с низкой скоростью передачи, где разборчивость может быть единственным реализуемым и необходимым критерием. В дополнение к обеспечению качества речи может потребоваться выбор или разработка кодека исходя из того, насколько хорошо он сохраняет существенные характеристики других аналоговых сигналов, таких как частоты сигнализации, факсимильные сигналы или сигналы данных, передаваемые в полосе ТЧ (сигналы модемов). Поскольку существующие телефонные сети содержат большую часть аналогового оборудования, универсальным способом могут быть обслужены только аналоговые сигналы. В соответствии с этим кодек, внедряемый в гибридную сеть, должен с достаточно хорошим качеством преобразовывать в цифровую форму эти неречевые сигналы. Высокоскоростные ИКМ- и ДМ-кодеки с адаптацией дают приемлемое и примерно одинаковое качество для сигналов большинства модемов [37]. Однако не следует ожидать, чтобы кодеры с низкой скоростью передачи, разработанные специально для речевого сигнала, давали хорошее качество для сигналов с характеристиками, отличающимися от характеристик речи. Детальное теоретическое рассмотрение цифрового преобразования сигналов данных, передаваемых в полосе ТЧ, дано в [38]. Что касается кодеров с низкой скоростью передачи (рассчитанных специально для речевого сигнала), то полезной может быть также оценка их характеристик при наличии фонового шума на передающей стороне. Поскольку узкополосные кодеры подогнаны под определенные характеристики процесса речи, они могут оказаться неспособными обрабатьшать комбинации из речевого сигнала и фонового шума. Другим, более тонким соображением, связанным с качеством кодека, является то, насколько хорошо он работает последовательно с другими кодеками, уже используемыми на сети. Высококачественные кодеки формы сигнала при последовательном включении вносят обычно ухудшение не большее, чем предсказуемое увеличение шума квантования, вызванное многократным кодированием. Как уже упоминалось, ИКМ-кодеки с р. =255 и скоростью передачи 64 кбит/с были выбраны исходя из возможности девяти последовательных перекодирований при междугородном соединении. В противоположность этому, некоторые из вокодеров с низкой скоростью передачи не обеспечивают необходимого качества при последовательном включении с такими же вокодерами, а особенно с другими. Ухудшение в канале связи от одного оконечного устройства до другого может оказаться большим, чем ожидалось от каждого кодека в отдельности. Кроме того, степень ухудшения может зависеть от того, какой из кодеков обрабатывает речевой сигнал первым [14, 39]. 3.9.2. Скорости передачи При рассмотрении скоростей передачи для различных типов кодеков Флэнаган и другие [7] описали три обобщенные категории качества: качество переприемного участка, качество канала связи и синтетическое качество. Качество переприемного участка определяется как качество, эквивалентное качеству канала ИКМ с логарифмической характеристикой компандирования и скоростью передачи 56 кбит/с (в каналообразующих блоках типа D1) . Качество канала связи относится к системам, допускающим заметное ухудшение, но с хорошей разборчивостью и, по крайней мере, некоторой натуральностью речи. Синтетическое качество несколько неопределенно, и его относят к системам, которые обеспечивают разборчивость и еще некоторые дополнительные свойства. Следующая таблица, также полученная из [7], содержит минимальные значения скоростей передачи для каждого Таблица 3. 4. Требуемые скорости передачи для различных типов кодеров
в лействительности, в странах Северной Америки качество переприемного участка, еТ;:Г:Гжны многокрные преобразования, опреде- - в светствии со спецификацией каналообразующего блока типа рЗ [9] llLTfovocTUO преобразования с логарифмической характеристикой компандирования и скоростью передачи 64 кбит/с. 170 ИЗ способов преобразования, при которых достигается указанное качество . Как можно увидеть из табл. 3. 4, дифференциальные системы (с адаптивными ДМ и ДИКМ) имеют значительные преимущества по полосе перед системами с ИКМ и логарифмическим компандированием. Еще более специализированные кодеры с разделением на полосы и с адаптивным предсказанием дают еще большую экономию полосы, но являются значительно более сложными, чем первые три вида. Способы вокодерного преобразования, включенные в табл. 3. 4, создают речевой сигнал с уникальными особенностями. Качество для вокодеров и для кодеров формы сигнала (при низких скоростях передачи) часто зависит как от диктора, так и от речевого материала. 3.9.3. Чувствительность к ошибкам передачи Среди алгоритмов кодирования, рассмотренных в этой главе, лучшей характеристикой по отношению к случайным независимым ошибкам в канале обычно обладает дельта-модуляция. И действительно, даже если коэффициент ошибок достигает 10%, ДМНИК-кодек обеспечивает разборчивость выше 90 % [20]. Порог восприимчивости для коэффициента ошибок в канале у ДМНИК-кодека располагается около 10~, т. е. ошибки с вероятностью появления менее 0,001 вообще незаметны. Относительная нечувствительность ДМ-кодеков к ошибкам в канале вытекает из того факта, что одиночная ошибка в канале создает в декодере ошибку величиной только в один шаг квантования . Кроме того, в системах с ДМНИК большинство ошибок в канале не создает ошибочной подстройки размера шага. Если же ошибочные подстройки все-таки и происходят, то их действие со временем ослабевает. В противоположность системам с ДМ в системах с ИКМ некоторые биты при декодировании имеют большее значение, чем другие. Если ошибка возникает на наиболее весомом разряде, то появляется относительно большой импульс ошибки. Это приводит к тому, что системы с ИКМ и другие системы, в цифровом сигнале которых значения битов существенно отличаются друг от друга, имеют пониженный порог восприимчивости к ошибкам в канале. Однако для уменьшения чувствительности к ошибкам могут быть использованы различные законы кодирования для ИКМ дискретов. Как уже упоминалось, в каналообразующих блоках типа D2 формат кодирования был изменен с арифметического с инверсией битов, принятого для каналообразующего блока типа D1, на симметричный относительно абсолютного значения величины сигнала. Ошибка в наиболее весомом разряде при формате с инверсией вызывает всегда ошибку на выходе, равную половине максимального диапазона кодера. Ошибка в наиболее весо- в этой таблице проведено в основном качественное сопоставление при однократном преобразовании. Категории качества и скорости передачи четко не определены и не являются общепринятыми. Точнее, в два шага квантования.- Прим. перев. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 [28] 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 |
|