Это сложное действие

Это сложное действие - синтез речи

Speech synthesis - процесс преобразования текста в речь. И сложный и простой процесс одновременно. Простой в теории, и такой сложный в практике, причем наибольшую сложность вызывает качество синтеза. Собственно, синтезировать речь совсем не сложно, гораздо труднее придать ей естественное человеческое звучание. Вот мы и поговорим о том, какие проблемы стоят на пути от символьного представления текста к его озвучиванию человеческим голосом, и чем эти проблемы устраняются в настоящее время.

Синтез является одной из форм обработки речи, связанной с задачей чтения заранее неизвестного текста некоторым аппаратно-программным устройством. Существует несколько методов синтеза речи. Один из них заключается в построении слов путем комбинирования фонем и алломорфов. Фонемой называется звуковая единица языка, обозначенная совокупностью различительных признаков (глухость-звонкость и тому подобными). С помощью фонем выделяются морфемы, то есть минимально значимые части слова, которые в свою очередь могут состоять из одного или нескольких морфов - минимально значимых частей словоформы. Алломорфами называются морфы, принадлежащие к одной морфеме.

Возвращаемся к методу синтеза. Полученная путем комбинации фонемная последовательность после выбора высоты тона и интонации превращается в речь. При таком подходе генерируется вполне понятная речь, но слушающему пользователю ясно, что ее произносит робот. Второй метод синтеза речи заключается в ее имитации с использованием модели голосового тракта человека. Здесь глухие и звонкие согласные в речи представляются источниками периодических и шумовых сигналов соответственно. Затем сигналы проходят через каскад фильтров. Другие методы используют другие методики, но в общем случае они часто являются определенной комбинацией первых двух методов. Сам же выбор того или иного метода определяется различными накладываемыми ограничениями. Рассмотрим те 4 вида ограничений, которые влияют на выбор метода синтеза.

Ограничения, прямо связанные с постановкой задачи. Возможности синтезированной речи зависят от того, в какой области она будет применяться. Когда необходимо произносить ограниченное число фраз (и их произнесение линейно не меняется), необходимый речевой материал просто записывается на носитель информации, находящийся в синтезаторе. С другой стороны, если задача состоит в стимулировании познавательного процесса при чтении вслух, когда решающее значение имеют интонации, незначительные выдержанные паузы и прочие элементы передачи эмоционального смысла произносимого текста, используется совершенно другой ряд методик. То есть для одной задачи подойдут одни методы, в то время как для другой задачи такие же методы могут в корне не подойти.

Ограничения по уровню голосового аппарата человека. Все системы синтеза речи должны производить на выходе какую-то речевую волну, но это не произвольный сигнал. Чтобы получить речевую волну определенного качества, сигнал должен пройти путь от источника в речевом тракте, который возбуждает действие артикуляторных органов, а они действуют как изменяющиеся во времени фильтры. Артикуляторные органы накладывают специфические ограничения на скорость изменения сигнала, отчего синтезатору не всегда удается поспевать за динамикой изменений вследствие каких-либо отличительных базовых концепций построения синтезатора. Артикуляторные органы также имеют природную функцию сглаживания: гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток. У синтезатора эквивалентных природных функций нет, они замещаются концептуальными решениями, и здесь понятно, что такие решения не всегда получается подвести близко к уровню голосового аппарата человека.

Ограничения, накладываемые структурой используемого языка. Ряд возможных звуковых сочетаний определяется природой той или иной языковой структуры. Было обнаружено, что единицы и структуры, используемые лингвистами для описания и объяснения языка, могут также использоваться для указания характеристик речевой волны и ее построения. Таким образом, при воссоздании выходной речевой волны используются основные фонологические законы, правила ударения, морфологические и синтаксические структуры, фонотактические ограничения. Все они относятся непосредственно к тому языку, которым будет пользоваться синтезатор.

Ограничения в связи с доступной технологией. Возможности успешно моделировать и создавать устройства для синтеза речи в сильной степени зависят от состояния технико-технологической стороны дела. Речевая наука сделала большой шаг вперед благодаря появлению различных технологий, в том числе: рентгенография, кинематография, теория фильтров и спектров, а главным образом - цифровые компьютеры. С приходом интегральных сетевых технологий с постоянно возрастающими возможностями стало допустимо построение мощных, компактных, недорогих устройств, действующих в реальном времени. Этот факт вместе с основательными знаниями алгоритмов синтеза речи стимулировал дальнейшее развитие систем синтеза речи и переход их в практическую жизнь, где они находят все же пока узкое применение. Собственно, этот вопрос, как показывает жизнь, снимается запасом времени и совершенствованием технологий.

Методы синтеза

Различные подходы в синтезе речи могут быть сгруппированы по областям их применения, по сложности их воплощения. Синтезаторы делят на два типа: с ограниченным и неограниченным словарем. В устройствах с ограниченным словарем речь хранится в виде слов и предложений, которые выводятся в определенной последовательности при синтезе речевого сообщения. Речевые единицы, используемые в синтезаторах подобного типа, произносятся диктором заранее, а затем преобразуются в цифровую форму, что осуществляется с помощью различных методов кодирования, позволяющих компрессировать речевую информацию и хранить ее в памяти синтезирующего устройства. Сегодня существует несколько методов записи и компоновки речи.

Волновой метод кодирования. Самый легкий путь - просто записать материал на носитель информации и по необходимости проигрывать. Этот способ обеспечивает высокое качество синтезируемой речи, так как позволяет точно воспроизводить форму естественного речевого сигнала. Однако такой путь синтеза не позволяет реализовать построение новой фразы, поскольку не предусматривает обращение к различным ячейкам памяти и вызов из памяти нужных слов. В зависимости от используемой технологии этот способ может представлять задержки в доступе и иметь ограничения, связанные с возможностями записи. Никаких знаний об устройстве речевого тракта и структуре языка не требуется. Единственно серьезное ограничение в данном случае имеет объем памяти.

Существуют способы кодирования речевого сигнала в цифровой форме, позволяющие в несколько раз уплотнять информацию: простая модуляция данных, импульсно-кодовая модуляция, адаптивная дельтовая модуляция, адаптивное предикативное кодирование. Данные способы могут уменьшить скорость передачи данных с 50 килобитов в секунду (нормальный вариант) до 10 килобитов в секунду, в то время как качество речи сохраняется. Естественно, сложность операций кодирования и декодирования увеличивается со снижением числа битов в секунду. Такие системы хороши, когда словарь сообщений небольшой и фиксированный. В случае же когда требуется соединить разные сообщения в одно длинное, тогда сгенерировать высококачественную речь трудно, так как значения параметров речевой волны нельзя изменить, а они могут не подойти в новом контексте. Во всех системах синтеза речи устанавливается некоторый компромисс между качеством речи и гибкостью системы. Увеличение гибкости неизбежно ведет к усложнению вычислений.

Параметрическое представление. С целью дальнейшего уменьшения требуемой памяти для хранения и обеспечения необходимой гибкости было разработано несколько способов, которые абстрагируются от речевой волны как таковой, а представляют ее в виде набора параметров. Эти параметры отражают наиболее характерную информацию либо во временной (просто набор дискретных отсчетов звукового сигнала), либо в частотной области (звуковой сигнал трансформирован в набор частот, из которых он состоит). Например, речевая волна может быть сформирована сложением отдельных гармоник заданной высоты и с заданными спектральными выступами на данной частоте. Альтернативный путь состоит в том, чтобы форму речевого тракта описать в терминах акустики и искусственным путем создать набор резонансов. Этот метод синтеза экономичнее волнового, поскольку требует значительно меньшего объема памяти, но при этом он требует больше вычислений, чтобы воспроизвести исходный речевой сигнал.

Данный способ дает возможность манипулировать теми параметрами, которые отвечают за качество речи (значение формант, ширина полос, частота основного тона, амплитуда сигнала). Это предоставляет возможность склеивать сигналы, так что переходы на границах совершенно незаметны. Изменения таких параметров как частота основного тона на протяжении всего сообщения дают возможность существенно изменять интонацию и временные характеристики сообщения. Наиболее популярными в настоящее время методами кодирования в устройствах, использующих параметрическое представление сигналов, является метод, основанный на формантных резонансах, и метод линейного предсказания (LPC - linear predictive coding). Для синтеза используются единицы речи различной длины: параграфы, предложения, фразы, слова, слоги, полуслоги, дифоны. Чем меньше единица синтеза, тем меньшее их количество требуется для синтеза. При этом требуется больше вычислений, и сразу же возникают трудности плавной артикуляции на стыках. Преимущества этого метода: гибкость, немного памяти для хранения исходного материала, сохранение индивидуальных характеристик диктора. Но здесь требуется соответствующая цифровая техника и знание моделей речеобразования, при этом лингвистическая структура языка не используется.

Синтез по правилам. Описанные выше методы синтеза ориентированы на такие речевые единицы как слова, предварительно введенные в устройство прямо с голоса диктора. Данный принцип лежит в основе функционирования синтезаторов с ограниченным словарем. В синтезаторах с неограниченным словарем элементами речи являются фонемы или слоги, поэтому в них применяется метод синтеза по правилам, а не простая компоновка. Этот метод весьма перспективен, ведь обеспечивает работу с любым необходимым словарем, однако качество речи значительно ниже, чем при использовании метода компоновки.

При синтезе речи по правилам также используются волновой и параметрический методы кодирования, но уже на уровне слогов. Метод параметрического представления требует компромисса между качеством речи и возможностью изменять параметры. Исследователи обнаружили, что для синтеза речи высокого качества необходимо иметь несколько различных произношений каждой единицы синтеза (например, слога), что ведет к увеличению словаря исходных единиц без каких бы то ни было уточняющих сведений о контекстной ситуации, оправдывающих тот или иной выбор. По этой причине процесс синтеза получает еще более абстрактный характер и переходит от параметрического представления к разработке набора правил, по которым вычисляются необходимые параметры на основе вводного фонетического описания. Это вводное представление содержит само по себе мало информации. Это обычно имена фонетических сегментов (например, гласные и согласные) со знаками ударения, обозначениями тона и временных характеристик. Таким образом, метод синтеза по правилам использует малоинформативное описание на входе (менее 100 битов в секунду). Этот метод дает полную свободу моделирования параметров, но необходимо подчеркнуть, что правила моделирования несовершенны. Синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестам по разборчивости и понятности. На уровне предложения и параграфа правила предоставляют необходимую степень свободы для создания плавного речевого потока.

Преобразование текста в речь

Синтез по правилам требует детального фонетического транскрибирования (преобразования текста в специальные знаки с целью точной передачи звучания) на входе. Хотя для запоминания этой информации требуется мало памяти, все же чтобы извлечь из нее необходимые параметры, необходимы знания эксперта. Для преобразования неограниченного английского текста в речь необходимо сначала проанализировать текст с целью получения транскрипции, которая затем синтезируется в выходную речевую волну. Анализ текста - по своей природе задача лингвистическая, она включает в себя определение базовых фонетических, слоговых, морфемных и синтаксических форм, плюс вычленение семантической и прагматической информации. Системы преобразования текста в речь являются наиболее комплексными системами синтеза речи, включающими в себя знания об устройстве речевого аппарата человека, лингвистической структуре языка, а также такие системы должны учитывать ограничения, накладываемые областью применения системы, технико-технологической базой. Необходимо заметить, что и текст и речь являются поверхностными представлениями базовых лингвистических форм, поэтому задача преобразования текста в речь состоит в выявлении этих базовых форм, а затем в воплощении их в речи.

На примере системы MITalk проиллюстрируем сильные и слабые стороны коммерческих версий подобных систем. Разработка MITalk началась в конце 60-х годов прошлого века. Изначально предполагалось разработать читающую машину для слепых, но теоретически MITalk может применяться в любых ситуациях, где необходимо преобразовать текст в речь. Система имеет блок морфологического анализа, правила преобразования буква-звук, правила лексического ударения, просодический и фонематический синтез. Мы рассмотрим детали механизмов анализа текста и синтеза речи, реализованные в такой системе. Заодно учтем, что разговор ведется о системе синтеза английской речи. Для иных языков некоторые особенности исполненных механизмов могут оказаться просто непригодными или требовать существенной переработки алгоритмов функционирования. К тому же полезно будет в общих чертах узнать о тех схемах, которые используются в тех или иных формах практически в любых синтезаторах речи.

Механизмы анализа текста

Преобразование символов в стандартную форму. В самых различных текстах можно обнаружить символы и аббревиатуры, которые не принадлежат к категории правильно образованных слов. Такие символы как знак процента или знак амперсанда (в английском иногда обозначает "и"), аббревиатуры типа "Mr" и "Nov" должны быть преобразованы в нормальную форму. Были разработаны подробные руководства по транскрибированию чисел, дат, сумм денег. Иногда возникают двусмысленные ситуации, такие как, например, использование знака дефиса в конце строки. Человек в таких случаях, чтобы определить подходящее произношение, обращается к контексту и к практическим знаниям, которые на сегодня пока не поддаются алгоритмизации.

Морфологический анализ. В вводном тексте границы слов легко определяются. Можно хранить произношение всех английских слов. Размер словаря будет большим, но в таком подходе есть несколько привлекательных сторон. Во-первых, в любом случае необходим словарь слов, произношение которых является исключением из общих правил. Такими являются, например, заимствованные слова (parfait, tortilla). Более того, все механизмы преобразования цепочки букв в фонетические значки допускают ошибки. Интересный класс исключений составляют часто употребительные слова. Например, звук th в начале слова произносится как глухой фрикативный в большинстве слов (thin, thesis, thimble). Но в наиболее частых в употреблении, таких как короткие функциональные слова the, this, there, these, those и так далее, начальный звук произносится как звонкий. Также f всегда произносится глухо, за исключением слова "of".

Другой пример. В словах типа "shave", "behave" конечный e удлиняет предшествующий гласный, но в таком частом слове как "have" это правило не действует. Наконец, конечный s в "atlas", "canvas" глухой, но в функциональных словах is, was, has он произносится звонко. Таким образом, приходим к выводу, что все системы должны иметь такой словарь исключений.

Что касается нормальных слов, то здесь имеется два варианта. Первый крайний случай состоит в том, чтобы составить полный словарь. Хотя число слов ограничено, составить абсолютно полный словарь невозможно, так как постоянно появляются новые слова. Кроме того, в словарь необходимо будет внести все изменяемые формы слова. Другой крайний подход состоит в установлении ряда правил, которые преобразовывали бы цепочки букв в фонетические значки. Хотя эти правила очень продуктивны, нельзя избежать ошибок, что опять ведет к созданию словаря исключений. Чтобы правильно определить фонетическую транскрипцию слова, нужно правильно разбить слово на структурные составляющие. Было обнаружено, что важную роль в определении произношения играет морфема, минимальная синтаксическая единица языка.

MITalk использует морфемный лексикон, что может рассматриваться как некоторый компромиссный подход между двумя крайними случаями, упомянутыми выше. Многие английские слова можно расчленить на последовательность морфов, таких как префиксы, корни, суффиксы. Так, слово "snowplows" имеет два корня и окончание, "relearn" имеет приставку и корень. Такие морфы являются атомными составляющими слова, и они относительно стабильны в языке, новые же морфы формируются в языке очень редко. Эффективный лексикон может иметь не более 10 тысяч морфов. Морфемный словарь действует вместе с процедурами анализа. Этот подход эффективен и экономичен, ведь хранение морфемного словаря не занимает много места, а хранить все изменяемые формы слова не нужно.

Поскольку морфы являются основными составляющими слова, проиллюстрируем их полезность при определении произношения. При соединении морфов они часто меняют свое произношение. Например, при образовании множественного числа существительных "dog" и "cat" конечный s будет звонким в первом случае и глухим во втором. Это и есть пример морфофонемного правила, касающегося реализации морфемы множественного числа в различных окружениях. Становится очевидным, что для эффективного и легкого определения произношения нужно распознать составляющие морфемы слова и обозначить их границы. Еще один плюс морфемного анализа - обеспечение подходящей базы для использования правил преобразования буква-звук. Большинство таких правил рассматривают слово как неструктурированную последовательность букв, используя окно сканирования для нахождения согласных и гласных кластеров, которые преобразуются в фонетические значки. Буквы "t" и "h" в большинстве случаев выступают как единый согласный кластер, но в слове "hothouse" кластер th разрывается границей двух разных морфем. Гласный кластер ea представляет много трудностей для алгоритмов буква-звук, но в слове changeable он явно разрывается.

В системе MITalk морфемный анализ всегда проводится перед правилами преобразования букв в звуки. Лежащие в основе слова морфы не всегда очевидны. Например, некоторые морфы множественного числа не всегда легко определить: mice, fish. Подобные формы заносятся в словарь. При помощи морфемного лексикона и соответствующего алгоритма анализа 95-98 процентов слов анализируется удовлетворительно. В результате им приписывается фонетическая транскрипция и часть речи.

Правила "буква-звук" и лексическое ударение. В системе MITalk нормализованный вводный текст подвергается морфологическому анализу. Может быть, что целое слово есть в словаре морфов, как, например, слово "snow". С другой стороны, слово может быть проанализировано как последовательность соединенных морфов. В английском языке среднее число морфов в слове - примерно два. Если ни целое слово не может быть найдено в словаре морфов, ни проанализировано как последовательность морфов, в этом случае применяются правила преобразования "буква-звук". Важно подчеркнуть, что этот метод никогда не применяется, если морфемный анализ удался. Преобразование последовательности букв в последовательность звуков при помощи этих правил проходит в три этапа.

Первый этап - отделение префиксов и суффиксов. Возможность отделения аффиксов не такая сильная, как в морфемном анализе, но действует удовлетворительно. Предполагается, что после отделения префиксов и суффиксов остается одна центральная часть слова, которая состоит из одного морфа, подвергаемого затем правилам преобразования. Второй этап состоит в преобразовании согласных в фонетические значки, начиная с наиболее длинного согласного кластера до тех пор, пока все отдельные согласные не будут преобразованы. Последний этап - оставшиеся гласные преобразуются при помощи контекстов. Гласные преобразуются последними, потому что это наиболее трудная задача, зависящая от контекста. Например, гласный кластер ea имеет 14 разных произносительных контекстов и несколько произношений (reach, tear, steak, leather).

В MITalk правила преобразования букв в звуки действуют в паре с широким набором правил расстановки лексического ударения. Еще 25 лет назад лингвистам не удавалось обнаружить никакой системы расстановки ударений в английских словах. В настоящее время разработан ряд правил, эффективно справляющихся с этой задачей. Ударения зависят от синтаксической роли слова, например, прилагательное "invalid" отличается от существительного. Таких слов немного, но учитывать их необходимо. Кроме того, на некоторые суффиксы автоматически падают ударения в словах, как, например, в "engineer". Но бывают более сложные случаи, которые разрешаются применением циклических правил, для чего в MITalk разработаны несколько наборов таких правил, и некоторые из них включают в себя до 600 правил. Конечно, большинство из них употребляются довольно редко. Подразумевается, что все сильные и неправильные формы преобразуются на стадии морфологического анализа. Правила же "буква-звук" используются для преобразования новых и неправильно написанных слов. Например, слово "recieved" с явной опечаткой получает правильную транскрипцию благодаря этим правилам преобразования.

Парсинг. Каждая схема преобразования неограниченного текста в речь должна включать синтаксический анализ. Необходимо определить синтаксическую роль слова, ибо она часто влияет на произношение и ударение. Кроме того, синтаксический анализ важен для определения правильного тонального контура и временных характеристик. Просодические характеристики важны для синтеза речи, чтобы она звучала живо и естественно. К сожалению, полный синтаксический анализ на уровне сложного предложения (clause-level parsing) осуществить нельзя. Тем не менее, возможно провести синтаксический анализ на уровне фразы (phrase-level parsing), в результате которого определяется большая часть необходимой для синтеза речи структуры, хотя в некоторых ситуациях неизбежны ошибки из-за отсутствия анализа целого предложения. Встречается множество синтаксически двусмысленных предложений, таких как "he saw the man in the park with a telescope", для которых фразовый анализ достаточен.

В английском языке существует ряд синтагматических маркеров, по которым можно формально разграничить фразы: это вспомогательные глаголы, детерминативы в номинативных фразах. Система MITalk широко использует это и проводит высокоточный грамматический анализ (augmented-transition-network grammas). Фразовый анализ показал удовлетворительные результаты, хотя эффективный анализатор предложений, несомненно, улучшил бы работу системы. Пока анализаторы предложений сталкиваются со значительными трудностями, когда встречают неполное или синтаксически омонимичное предложение. По завершении деятельности блока синтаксического анализа система приписывает словам маркеры функциональных частей речи, отмечает синтаксические паузы как основу для дальнейшего уточнения произношения, временных характеристик, частоты основного тона.

Модификация ударения и фонологические уточнения. Последняя фаза анализа состоит в некоторых незначительных поправках к имеющейся уже фонетической транскрипции на основе анализа контекстного окружения. Простой пример - определение произношения артикля "the", которое зависит от начального звука последующего слова. Кроме того, на этом этапе используются некоторые эвристические методы проверки правильного соотношения общего контура предложения с контурами отдельных слов. На этом этапе заканчивается подготовка исходного текста собственно к самому процессу синтеза речи.

Механизмы синтеза речи

Важно осознать, что в системе MITalk не используются готовые речевые волны даже в параметрическом представлении. Система не хранит параметрические представления множества морфов или слов. Вместо этого были разработаны правила контроля параметров, так что можно реализовать любую желаемую речевую волну на выходе.

Просодическая рамка. Первый шаг в создании выходной речевой волны - создание временного контура и частоты основного тона (основные корреляты интонации), на основе которых строится детальная артикуляция отдельных фонетических элементов. Распределение ударения, которое было вычислено на стадии анализа, во многом ответственно за контур временного распределения и тональный контур. Часто интенсивность принимают за коррелят ударения, тогда как главными ключами являются длительность и изменения в тональном контуре. Согласные мало меняются по длительности, в то время как гласные более пластичны и могут легко сжиматься или растягиваться. Существует также тенденция растягивать слова на границе основных абзацев предложения, и наоборот, сжимать интервалы на относительно невыделенных участках. Кроме того, на основе временной рамки задается частота основного тона (или тональный контур). В утвердительных предложениях обычно высота тона резко поднимается на первом ударном слоге, затем плавно снижается до последнего ударного слога, где она резко падает. Вопросительные и повелительные предложения имеют различные тональные контуры. Кроме целостного контура предложения существуют еще локальные ударения. Большее ударение получают слова, выражающие отрицание или сомнение (например, слово might), значение частоты основного тона на них возрастает; новая информация в предложении также больше выделяется ударением. С другой стороны, высота тона используется в семантических и эмоциональных целях, что не может быть строго логически выведено из письменного текста. Необходимо лишний раз подчеркнуть важность составления правильного просодического контура, поскольку неправильный просодический контур может привести к трудностям в восприятии синтезированной речи.

Синтез фонетических сегментов. Когда завершено создание просодической рамки, создаются параметры, соответствующие модели речевого тракта. Обычно таких параметров 25, которые изменяются с интервалом 5-10 миллисекунд. В настоящее время используются около 100 контекстных правил описания траектории изменения параметров. Когда значения параметров вычислены, они должны быть перенесены на соответствующую модель речевого тракта (обычно это формантная модель или LPC-модель). Выходная дискретная модель создается обычно на частоте 10 килогерц.

Заключение

Можно себе представить, насколько вычурно выглядит тот процесс, с которым наш речевой аппарат справляется ежедневно без особых усилий. Сравнительный анализ естественной и синтезированной речи безусловно и по праву отдает первенство в пользу естественной речи. С точки зрения понятности, разборчивости качество синтезированной речи достаточно хорошее у многих синтезаторов. Был проведен тест, где одна группа испытуемых прослушивала синтезированную речь с письменным вариантом перед глазами, а другая - без. Выяснилось, что результаты прослушивания мало отличаются друг от друга. Тем не менее, любой современной синтезированной речи больше всего не хватает живости и естественности, поэтому воспринимать ее на протяжении длительного времени трудно. Даже лучшие экземпляры синтезаторов произносят речь едва (но все же) ощутимыми рывками, иногда лишь пародируя интонацию, а чаще просто бормоча что-то похожее на человеческую речь. Исследования показали, что как фрикативные звуки, то есть издаваемые за счет создания микропреград в движении воздушных потоков во рту (например, кластер тр в слове "трение"), так и назальные звуки (проходящие еще и через носовую полость) требуют дальнейшего улучшения качества. Они в большинстве случаев или вовсе не синтезируются, или синтезируются далеко непохоже с оригиналом. И это касается любого из современных синтезаторов.

Знайкина копилка, 10 октября 2004 года