Партнеры

Счетчики






Революционный метод поиска текста в аудиофайлах

Американская Fast-Talk Communications представила новую технологию поиска текстовых фрагментов в звуковых файлах. Подобный инструментарий может оказаться весьма полезным для компаний, обрабатывающих значительные объемы речевой информации. Новая технология может пригодиться и журналистам, у которых отпадет необходимость в длительной и трудоемкой расшифровке интервью.

Работа системы Fast-Talk Communications основана на фонетическом поиске информации. Движок программы анализирует аудиофайл с записанной речью и разбивает его на отдельные фонемы. В случае английского языка число фонем составляет 42. Индексирование записей ведется в реальном времени, то есть обработку интервью можно вести во время его записи.

Для поиска информации в полученном индексе аудиофайла необходимо ввести запрос. Он может быть задан в виде набора фонем (транскрипцию слов можно найти в словарях), либо в виде написанного слова или фразы. Программа автоматически преобразует написанное слово в набор фонем. При этом слово может быть набрано с ошибками и опечатками, главное, чтобы произношение правильного и ошибочного варианта написания было одинаковым. К примеру, информацию о президенте Ливии можно с равным успехом искать по запросам QUADAFY или KADDAFI.

По заявлению разработчиков, поиск текста в аудиофайлах осуществляется с точностью порядка 98%. Результаты практически не зависят от особенностей произношения конкретного человека: акцента, использования диалекта, интонационных особенностей и так далее. Качество записи может быть и невысоким. Поиск информации ведется с высокой скоростью: необходимые данные в тридцатичасовой записи можно найти за одну секунду.

Журналист издания InfoWorld Джон Юделл провел собственные испытания демонстрационной версии системы поиска от Fast-Talk. Он использовал программу для записи 45-минутного интервью и последующего поиска в нем определенных фраз. Юделл остался очень доволен результатами, и, по его мнению, разработка Fast-Talk является революционной. Хотя при вводе запросов нужно учитывать, что поиск ведется по фонемам. Например, по запросу MySQL никаких результатов получено не было, тогда как запрос my sequel оказался более эффективным. С другой стороны, фонетическая модель облегчает поиск имен, так как исчезает необходимость в их точном написании.

Юделл также испытал Fast-Talk на уже готовых интервью с людьми, для которых английский язык не является родным. Результаты оказались вполне удовлетворительными, однако максимально эффективно программа обрабатывает все же речь носителей английского языка. В настоящее время Fast-Talk предлагает свой поисковый движок в комплекте с инструментарием для разработчиков. Компания также предлагает демонстрационную версию программы поиска, работающую с файлами формата WAV.

Компьюлента, 23 декабря 2002 года

Hosted by uCoz