26 января 2009

Речь – дело техники, или История электронных голосов

Написал Nik (последнее обновление: 19 февраля 2012), Нет комментариев

Вряд ли кто-то из нас, слыша синтезированный компьютером человеческий голос, задумывался о природе этих звуков. Как машина, лишённая лёгких, гортани и языка, может имитировать человеческую речь? И главное, когда она этому научилась? Ответы на оба эти вопроса даст первая статья сегодняшней «Темы номера».

Предания старины…
Сейчас я, наверное, очень удивлю вас, уважаемые читатели, но первые исторические записи о попытках синтезировать человеческую речь с помощью механических средств относятся аж к X веку. Некий Герберт Аврилакский научился изготавливать устройства, наречённые терафимами — говорящие бронзовые головы, которые могли словами «да» и «нет» отвечать на вопросы обращавшихся к ним. По некоторым сведениям успехи древнего учёного в XIII веке пытались повторить монах-доминиканец Альберт фон Больштедт и английский философ и естествоиспытатель Роджер Бэкон (известный также как Удивительный доктор («Doctor Mirabilis»)).
Более достоверные сведения, однако, датируются концом XVIII века. В 1779 году датский учёный профессор Христиан Кратценштейн, бывший действительным членом Российской Академии Наук создал модель речевого тракта человека, которая могла имитировать пять долгих гласных звуков (а, э, и, о, у).
Эта модель являла собой систему акустических резонаторов различной формы, через которые проходил воздушный поток, заставлявший язычки вибрировать и издавать звуки. Пример формы резонаторов вы можете увидеть на рисунке. Спустя десятилетие, в 1791 году австрийский учёный Вольфганг фон Кампелен доработал модель Кратценштейна, дополнив её моделями языка и губ. Новая «акустическо-механическая говорящая машина» могла имитировать уже не только отдельные звуки, но их комбинации. Следующей модификации машина подверглась в 1837 году, когда учёный Чарльз Уитстоун (Charles Wheatstone) научил механизм воспроизводить не только гласные, но и почти все согласные звуки. А спустя ещё девять лет Джезеф Фабер (Joseph Faber) представил публике говорящий орган Euphonia, ставший первым механизмом, синтезировавшим не просто речь, а пение (вместе с музыкой). А в конце XIX «говорящую» механическую модель, похожую по конструкции на машину Уитстоуна, сконструировал Александр Белл.
Все эти механизмы использовали метод синтеза, который современная наука называет аддитивным или суммирующим (additive synthesis). В его основе лежит создание сложных гармонически насыщенных звуков из простых изменяющихся синусоидальных волн, различных по амплитуде и/или частоте.

На этом же принципе были построены и первые электрические синтезаторы речи, появившиеся в начале XX века. Одним из первых устройств такого рода стал аппарат Parallel Bandpass Vocoder (от английских слов «voice» — голос и «coder» — кодировщик), созданный в 1939 году инженером Bell Laboratories Хомером Дадли (Homer.W. Dudley). Работая над проблемой низкой пропускной способности телефонных каналов, Дадли решил, проанализировав голосовой сигнал, разобрать его на части и преобразовать в более компактный с точки зрения удобства передачи код. Продемонстрированное на Всемирной выставке в Нью-Йорке устройство напоминало печатную машинку, при нажатии на клавиши которой раздавался звук, похожий на человеческую речь.
Собственно, основные принципы работы синтезаторов речи, заложенные столетия назад, остались неизменными по сей день. Тем не менее, алгоритмов синтеза существует несколько.

Как же так?
Самый просто вариант синтеза — параметрический. Речевой сигнал в данном случае кодируется набором небольшого числа непрерывно изменяющихся параметров. С помощью такого алгоритма можно записать речь любого диктора на любом языке, однако такой метод удобен лишь для ограниченного (заранее заданного) числа сообщений и не может быть применён для сообщений произвольных.
Ещё один алгоритм, компиляционный, являет собой составление речи из отдельных, заранее записанных элементов (например, слов). Такой метод позволяет синтезировать сообщения, включающие только элементы, имеющиеся в словаре, что делает его малопригодным при очень большом словаре — потребуется слишком много места для хранения данных (да и записывать такой словарь — то ещё удовольствие, уж поверьте).
Чаще всего такой синтез используется в различных автоответчиках или информаторах (к примеру, справочные сотовых операторов).
Наконец, самый точный с точки зрения «цифровой дикции» способ — полный синтез речи по правилам. Он позволяет управлять всеми параметрами речевого сигнала и генерировать речь по заранее неизвестному тексту. Шаблон для такого синтеза обычно формируется путём моделирования речевого тракта с помощью цифровой или аналоговой техники, без использования элементов человеческой речи.
Впрочем, с ростом мощностей цифровой техники стало возможным использовать синтез по правилам с использованием предварительно запоминаемых отрезков естественного языка (комбинацию методов второго и третьего). Обычно в качестве базовых элементов такого синтеза используют полуслоги — сегменты, содержащие половину согласного и половину примыкающего к нему гласного звука. При этом, однако, очень трудно управлять интонацией искусственной речи, да и качество последней не соответствует естественной речи, поскольку на стыках дифонов часто возникают искажения.
Тем не менее, полный синтез речи по правилам позволяет во многих случаях добиться качества речи, сопоставимого с человеческой.

Речь – дело техники, или История электронных голосов

Понравилась статья? Поделись с друзьями!

Добавить комментарий

Понравилась статья? Поделись с друзьями!

Похожие публикации

Добавить комментарий Отменить ответ

Добавить комментарий