Автоматический синтез речи – проблемы и методы генерации речевого сигнала



Скачать 139.47 Kb.
Дата22.04.2016
Размер139.47 Kb.

АВТОМАТИЧЕСКИЙ СИНТЕЗ РЕЧИ – ПРОБЛЕМЫ И МЕТОДЫ ГЕНЕРАЦИИ РЕЧЕВОГО СИГНАЛА.

А. В. Бабкин


avb@science.park.ru

Abstract

This report the acoustical signal generation in Russian female voice text-to-speech system being developed at the Faculty of Philology of Moscow State University. In any concatenation-based synthesizer the availability of efficient concatenation algorithms depends on the database preparation. That’s why in this report we concentrate on the methods and tools used for speech database creation and correction. Also discussed are problems and algorithms of prosody modification strategies used in our speech synthesis.


1. Введение.

Системы синтеза речи традиционно классифицируются по способу генерации речевого сигнала. Два основных направления – это параметрический и конкатенативный синтез. В системах параметрического синтеза речи, основанных на наборе правил, выделяется два подхода. Первый подход направлен на построение модели речепроизводящей системы человека, он известен под названием артикуляторного синтеза. Второй подход - формантный синтез по правилам, является на сегодняшний день более разработанным и популярным.


Формантные синтезаторы используют возбуждающий сигнал, который проходит через цифровой фильтр, построенный на нескольких резонансах, похожих на резонансы голосового тракта. Для синтеза довольно разборчивой речи достаточно смоделировать три первых форманты, но для качественного синтеза моделируют четыре или пять формант, есть некоторые системы, которые моделируют семь формант. Форманты обычно моделируются с помощью двухполюсного резонатора, который позволяет учесть частоту, ширину и уровень форманты и ее динамику.
В отличие от параметрического синтеза речи, в системах конкатенативного синтеза (раньше он назывался компилятивным), синтез осуществляется путем склейки нужных единиц из имеющегося акустического инвентаря. На этом принципе построено большое количество систем, использующих разные типы единиц и различные методы составления инвентаря. В таких системах необходимо применять обработку сигнала для приведения частоты основного тона, энергии и длительности единиц к тем, которыми должна характеризоваться синтезируемая речь. Кроме того, требуется, чтобы алгоритм обработки сигнала сглаживал разрывы в формантной (и спектральной в целом) структуре на границах сегментов. В системах конкатенативного и компилятивного синтеза применяются два разных типа алгоритмов обработки сигнала: LP (сокр. англ. Linear Prediction - линейное предсказание) и PSOLA (сокр. англ. Pitch Synchronous Overlap and Add). LP-синтез основан в значительной степени на акустической теории речеобразования, в отличие от PSOLA-синтеза, который действует путем простого разбиения звуковой волны, составляющей единицу компиляции, на временные окна и их преобразования. Алгоритмы PSOLA позволяют добиваться хорошего сохранения естественности звучания при модификации исходной звуковой волны.
В основе развиваемой нами системы речевого синтеза лежит идея совмещения методов конкатенации и синтеза по правилам. Такие гибридные системы синтеза популярны, и как показывает обзор современных методов автоматического синтеза речи, метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спектральных характеристик речевого сигнала, а набор правил - возможность формирования естественного интонационно-просодического оформления высказываний. Выбранная нами стратегия построения русского синтезатора, основанная на применении метода конкатенации, показала свою работоспособность и перспективность при создании первой версии синтезатора, осуществленной в 1992-1995 г. на базе мужского голоса (синтезатор “АГАФОН”).
Структура большинства систем синтеза речи, а также структура нашей системы автоматического синтеза может быть представлена блок схемой (Рис. 1). В ее основе лежат два блока: блок лингвистической обработки и модуль озвучивания.

РЕЧЬ



Блок лингвистической обработки

и подготовка текста к озвучиванию:

  1. Нормализация текста

  2. Исправление ошибок входного текста

  3. Лингвистический анализ: синтаксический, морфемный анализ

  4. Формирование просодических характеристик

  5. Фонемный транскриптор

ТЕКСТ






Модуль озвучивания:


  1. Выбор математической модели, алгоритма

  2. Акустическая база данных: Организация, доступ, проверка, выборка.

  3. Формирование управляющей информации

  4. Вычисление акустических параметров речевого сигнала

  5. Генерация речевого сигнала.

РЕЧЬ


Рис. 1 Упрощенная блок-схема системы автоматического синтеза речи.


Цель данной статьи рассмотреть и описать методы работы модуля озвучивания в новой версии русского синтеза.

2. Акустическая база данных: подготовка и корректирующие алгоритмы.

Основой любой системы синтеза речи, основанной на конкатенативном методе, является база данных фрагментов реального акустического сигнала - элементов конкатенации. Размерность этих элементов может быть различной в зависимости от конкретного способа синтеза речи, это могут быть фонемы, аллофоны, слоги, дифоны, слова и т.д. В разрабатываемой нами системе эти фрагменты в большинстве случаев соответствуют сегментам фонемной размерности и являются тем самым аллофонными реализациями традиционных фонем. Микрофрагменты, соответствующие частям фонемных сегментов, имеются только для взрывных согласных (типа /п/, /б/, /п’/, /б’/ и т.д.) и вибрантов (/р/ и /р'/). В первом случае отдельными элементами базы являются участки смычек и взрывы, во втором - смычки и вокализованные участки. Главное же отличие от традиционных фонетических представлений состоит в том, что для получения естественно звучащей речи необходимо учитывать гораздо больше различий, обусловленных контекстными фонетическими влияниями, чем это делается даже в достаточно детальных транскрипционных системах. Так, уже в первой версии "Агафон" акустический инвентарь включал 688 единиц: 158 для согласных и 530 для гласных. В разрабатываемой версии для женского голоса в инвентаре содержится 200 согласных и около 1100 гласных аллофонов. Возможно, что и эта степень акустической детализации является недостаточной и потребуется некоторое расширения имеющегося инвентаря, однако, как мы полагаем, оно должно быть не столь большим сравнительно с тем, что произошло при переходе от первой версии к нынешней.


В новой версии синтезатора в качестве диктора-донора используется женский голос. Для получения акустической базы данных был составлен специальный список слов, который содержит слова и словосочетания с аллофонами во всех учитываемых контекстах. Словник включает 1130 словоупотреблений. Этот словник был прочитан выбранным диктором-донором и записан в следующем режиме оцифровки: частота дискретизации 22кгц с разрядностью 16 бит. При использовании большей частоты оцифровки, например 44кгц (что является общепризнанным стандартом cd записи) объем речевой базы данных возрастает в два раза, также возрастает в несколько раз объем вычислений, а качество записанного сигнала остается приблизительно тем же. Из произнесённых диктором слов были вырезаны вручную с помощью звукового редактора акустические аллофонные фрагменты, необходимые для создания акустической базы. Вокальные аллофоны были, кроме того, подвергнуты попериодной разметке с помощью специального созданного инструментария. В результате для каждого элемента компиляции созданы два файла: звуковой с расширением wav и файл попериодной разметки с расширением mrk. Все эти файлы потом были объединены в единую базу данных, размер которой составляет около 7Мб (акустическая база, используемая в системе “АГАФОН”, занимает 0.9MB).

2.1. Проблема выделения периода.

Всегда в рамках этой технологии возникает проблема выделения начала периода. В нашей системе началом периода считалась точка перехода речевого сигнала через “ноль”, ближайшая к точке с максимальным значением амплитуды периода (рис.2). В некоторых системах автоматического синтеза речи начало периода определяется точкой, имеющей максимальное значение амплитуды на отрезке периода. Этот вариант более прост в реализации, но в наших алгоритмах модификации частоты основного тона он показывает плохие результаты.






Рис. 2 Попериодная разметка аллофона.



При подготовке акустической базы данных для нашей системы попериодная разметка вокальных аллофонов осуществлялась полуавтоматическим способом: оператор выделяет начальные два или три периода вручную, дальше специально составленная программа автоматически ставит метки остальных периодов, а оператор контролирует правильность разметки, и в случае ошибок исправляет неправильно поставленные метки.


Выделение периодов основного тона во многих системах синтеза речи проводится с помощью алгоритмов автоматического определения частоты основного тона, например основанного на использовании быстрого преобразования Фурье, где частота основного тона является самой низкой из значимых частот в спектре. Но так как частота основного тона изменяется непрерывно, часто возникают неточности, требующие ручной коррекции.
О

Рис. 3 Осциллограмма частично оглушенного аллофона “й”, требующего неполную попериодную разметку.




дним из достоинств полуавтоматической системы разметки оказалось то, что это позволило выделить часть аллофонов с так называемой неполной разметкой. (например аллофон “й” в конце фразы). В таких аллофонах только его первая часть является вокальной, требующей попериодной разметки, вторая часть – оглушена (Рис. 3). Учёт таких аллофонов вызвал дополнительные изменения в алгоритмах модификации частоты основного тона (см. ниже).

2.2. Проблема корректировки возможных ошибок попериодной разметки.

Модуль озвучивания, для увеличения быстродействия, основывается только на файлах попериодной разметки, не осуществляя проверку их корректности. Так как разметка аллофонов осуществлялась полуавтоматическим способом, нами был разработан специальный модуль, осуществляющий проверку и коррекцию попериодной разметки аллофонной базы. Он проверяет соответствие разметки и реального речевого сигнала: а именно, соответствие требованию “перехода через ноль”, корректности расставленных меток периода в соответствие со средним значением периода в текущем аллофоне и др.



2.3. Проблема “дефектных” аллофонов.


Одной из существенных особенностей любой аллофонной базы данных является то, что ее элементы были вырезаются из различных слов, которые могут произноситься диктором с определенными колебаниями в громкости и темпе произнесения. Предусмотреть эти спонтанные изменения заранее невозможно, однако возможно, и даже необходимо, иметь подробную акустическую информацию о каждом аллофоне. Необходимость в такой информации возникает в процессе отладки синтеза, когда сильно проявляется, что данный аллофон плохо звучит в определенных контекстах. В этом случае может понадобиться информация о размере аллофона, его энергии, количестве периодов и т.д. Она помогает обнаружить и исправить скрытые особенности, такие как: длительность аллофона базы данных больше чем ожидаемая, энергия не соответствует прототипическому значению, один или часть периодов дефекты и т.д. Эта информация помогает решить часть подобных проблем, например, заменой “дефектного” аллофона на аллофон с более подходящими характеристиками. Для оптимальной работы в режиме отладки синтезатора в справочной базе данных должны содержаться следующие сведения:



  • количество периодов в аллофоне

  • длительность аллофона,

  • энергия минимальная, средняя, максимальная для аллофона в целом,

  • длительность периода минимального, максимального, среднего

Кроме того, все эти характеристики должны быть доступны для каждого периода в аллофоне.

2.4. Справочная информационная база данных об акустических характеристиках базовых аллофонов.

Д


Рис. 4 Справочная информационная база данных об акустических характеристиках базовых аллофонов.




Рис. 5 Подробная информация для аллофона 911316 (один из аллофонов фонемы ¨а¨).



ля получения этих сведений была составлена специальная программа, которая по акустической базе данных собирает нужную информацию и сохраняет ее в информационной базе данных, созданной на основе Ассеss, которую легко можно просматривать с помощью запросов (Рис. 4). Пользуясь этой технологией, можно мгновенно поучить любую информацию об аллофоне, быстро реализовать любые сортировочные и арифметические операции, например, выявить все аллофоны с энергией меньше критического уровня; вычислить средние значение частоты основного тона конкретного аллофона; выявить аллофоны с чрезмерными отклонениями акустических параметров от средних значений и т.п. В информационной базе данных записана подробная информация о каждом аллофоне (Рис. 5) . При замене аллофона в базе или его модификации соответственно изменяются записи о нем в информационной базе.


3. Модуль озвучивания.

С описанной выше акустической базой данных работает модуль озвучивания. На вход модуля озвучивания передается информация о коде аллофона в акустической базе, его временная, энергетическая и тональная характеристики. Например слово "значение" предстваленно на входе модуля озвучивания в виде:

220301 75 168 178

420101 80 178 188

911316 77 188 199

340104 95 0 0

851616 146 168 133

440104 75 133 131 a50

981716 85 131 129 a50

951618 215 129 126 a50

100000 800 0 0
Где в первой колонке – идентификационный номер аллофона в базе данных, представляет собой специальный код, который определяется типом аллофона, его левым и правым контекстом. Соответствующая кодировка осуществляется специальным блоком синтезатора (кодировщиком), реализованным в модуле лингвистической обработки текста.

Во второй колонке – длительность звучания в мс для вокальных аллофонов или в процентах для остальных.

Третья и четвертая колонки - частота основного тона в начале и в конце аллофона, дополнительно могут быть указаны значения частоты в некоторых точках внутри аллофона (при сложном тональном контуре). Количество таких точек может доходить до 10. Изменение частоты между двумя соседними точками считается линейным.

а50 - задание изменения энергии аллофона (приведение к конкретному значению или выравнивание по сравнению с соседними аллофонами).

Описанный способ представления называется управляющим файлом.

Модуль озвучивания генерирует на основании исходного аллофона записанного в базе данных аллофон с требуемыми просодическими характеристиками. В блоке озвучивания можно выделить четыре основных модуля: модуль модификации длительности аллофона, модуль изменения частоты основного тона, модуль изменения энергии, модуль генерации выходного сигнала.



3.1 Метод модификации длительности и изменения частоты основного тона.

Рассмотрим методы работы модулей модификации длительности и изменения частоты основного тона для вокальных аллофонов. Основная задача этих модулей – модифицировать исходный аллофон в соответствии с заданными параметрами для придания речевому сигналу конкретной интонации и сохранения при этом естественности звучания. Так как предполагается, что система должна работать в реальном времени, то дополнительным требованием является быстродействие. Простейший метод, используемый в нашей системе синтеза речи, реализован следующим образом: при уменьшении периода из него последовательно удаляются отсчеты, а при удлинении добавляются отсчеты с нулевой амплитудой (такой метод известен как “cut and slice”). Также в нашей системе реализован метод, заключается в следующем: исходный звуковой аллофон умножается на последовательность окон синхронизованных с разметкой по периодам основного тона, согласно формуле:





Полученная последовательность акустических отрезков, предварительно сдвинутых друг относительно друга, суммируется, образуя требуемый, модифицированный аллофон. В нашей системе можно задать можно задать какой тип оконной функции будет использоваться в системе: с квадратным окном, треугольным или косинусоидальным. Легко заметить, что минимальный объём вычислений приходится на простейший метод, что является существенным при разработке системы синтеза речи, работающей в реальном времени. Этот метод, однако, даёт хорошие результаты при незначительных изменениях тональных характеристик звукового сигнала.

Для изменения длительности аллофона используется технология повторения или удаления окон (Рис. 6). В случае заметного увеличения длительности речевого сигнала и связанного с этим многократное повторение отдельных окон, наблюдается появление некоторой неестественности в звучании. Более естественное звучание получается при случайном повторении окон и при этом повторение окон должно осуществляться только на стационарном участке звучания аллофона. Требование использования стационарного участка вводится в связи с тем, что для сохранения естественности речевого сигнала переходные участки должны подвергаться минимальным изменениям.


Рис. 6 Изменение длительности аллофона.




На Рис. 7 показаны результаты применения двух способов изменения (увеличение) частоты основного тона с использованием простейшего способа и способа со сложным косинусоидальным окном.




Рис. 7 Уменьшение частоты основного тона методом Cut and slice и по технологии PSOLA с




Исходный аллофон:

Мы видим, что при увеличении периода простейшим методом на осцилограмме заметны места, где произведены добавленеия отсчетов с нулевой амплитудрой. На рис 8 предствлены результаты при увеличении частоты основного тона (сокращение периода).






Рис. 8 Увеличение частоты основного тона методом Cut and slice и по технологии PSOLA с косинусоидальным окном.



По предварительным тестам разница между двумя этими методами (в качестве синтезированного речевого сигнала) при незначительной модификации частоты основного тона является незначительной. Что касается, ситуаций существенного изменения частоты основного тона, то метод PSOLA со сложным окном дает более естественное звучание, хотя для его реализации необходимо больше математических вычислений. В реальной ситуации, при синтезе в реальном времени, можно использовать сложный метод в случаях с достаточными вычислительными мощностями компьютера, и переходить к более простым в противном случае.

3.2 Модификации длительности в случае невокальных аллофонов.

Что же касается модификации длительности сигнала в случае невокальных аллофонов, то в нашей системе используется проверенный простой алгоритм, дающий неплохие результаты. В начале определяется стационарный участок аллофона. При уменьшении длительности аллофона удаляется часть речевого сигнала стационарного участка аллофона, при увеличении длительности – добавляется (рис 9). Этот метод дает более хорошие результаты, чем с использованием последовательности окон, потому что при этом в исходный речевой сигнал вносятся минимальные изменения.





Рис. 9 Увеличение длительности невокального аллофона

При использовании описанных алгоритмов при удлинении конечных аллофонов с ярко выраженным спаданием энергии в конце, наблюдается дефект, заключающийся в том, что удлиняемая часть аллофона попадает на спадающую часть и в результате аллофон слышится более коротким, чем предполагалось по расчетам. Для корректировки этого дефекта используется алгоритм выделения более короткого стационарного участка, не затрагивающего энергетически слабую спадающую часть.

Особый алгоритм используется также при работе с аллофонами, имеющими “неполную” периодную разметку (частично оглушенными). Он заключается в комбинации алгоритмов, используемых для вокальных и невокальных звуков.

Модуль изменения частоты основного тона позволяет задать до 10 точек тонирования на аллофонном сегменте, моделируя тонкие изменения интонации речевого сигнала. В нынешней версии синтезатора используется пока три точки.


Одним из важных элементов в модуле озвучивания является изменение энергии аллофона. Изменение энергии аллофона осуществляется в соответствии с двумя схемами. Первая из них – это изменение энергии аллофона в N количество раз (в %), по сравнению с исходной, вторая - приведение энергии аллофона к заданному значению относительно общего диапазона. Необходимость в этом модуле возникла прежде всего из-за того, что исходные аллофоны были вырезаны из различных слов, и довольно часто уровень энергии в аллофоне не соответствует нужному уровню энергии в генерируемом речевом сигнале. Вообще говоря, нужны правила, генерирующие энергетический контур фразы. Пока их нет.
Для дальнейшего улучшения качества синтеза речи можно осуществить модификацию соответствующих промежуточных сигналов, чтобы компенсировать изменения в энергии и спектре конечного речевого сигнала в соответствии с технологией PSOLA.
Результирующим является модуль генерации выходного сигнала. Основной его задачей является образование выходного файла или непосредственно вывод акустического сигнала через устройство ввода/вывода (звуковая карта). На этот модуль налагается требование генерации сигнала в реальном времени. Кроме этого в этом модуле можно осуществить фильтрацию генерируемого сигнала для придания ему большей естественности и т.д.

Для сокращения объема синтезированной информации в нем могут использоваться различные схемы сжатия.
Каталог: ~otipl -> SpeechGroup -> publications
publications -> Рецензия на книгу Р. К. Потапова и В. В. Потапов «Язык, речь, личность», 491 стр
publications -> С. В. Кодзасов просодия обращений
publications -> Паузирование в естественной и синтезированной речи О. Ф. Кривнова, И. С. Чардин
~otipl -> Основы нейробиологии
publications -> Законы фразовой акцентуации введение Среди функций, выполняемых интонационными средствами, важнейшими являются
~otipl -> Основы нейробиологии
~otipl -> И. М. Кобозева. Немец, англичанин, француз и русский
~otipl -> Комбинаторная модель русской интонации


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©psihdocs.ru 2017
обратиться к администрации

    Главная страница