Машина видит, слышит, говорит

Разговор с электрическим мозгом

Как удивительно работает человеческий глаз! Тайну его деятельности еще не полностью разгадали ученые. Но уже сегодня они думают о создании машины, способной видеть. Зачем это нужно? - скажут те, кто плохо знаком с проблемами кибернетики и автоматизации. Как - зачем? В этом случае машина еще более приближается к человеческому мозгу, становится более послушным и чутким помощником человека, гораздо легче может общаться с ним без посредников.

Видящая машина способна обучиться грамоте. Она может различать не только буквы, цифры и детали машин. Она сможет работать сборщиком на конвейере, лаборантом в институте и даже наборщиком. Обучи машину грамоте, дай ей любую рукопись, и она прекрасно встанет за машину - линотип. Однако проблема видения и узнавания для кибернетических машин - одна из самых сложных.

Посмотрите, как мы пишем. У каждого свой почерк - не бывает, чтобы два человека писали совершенно одинаково. Вот я рассматриваю записи великих людей мира - Маркса, Ленина, Пушкина, Наполеона, Достоевского, Маяковского. Какое разнообразие почерков! Но мы читаем знаки, нанесенные на бумагу, и воспринимаем мысли великих людей, навечно запечатленные в сознании человечества, при помощи буквы, слова, фразы.

По каким же признакам мы способны понимать различные почерки? Очевидно, при самом различном написании букв есть необходимое, в чем-то устойчивое единообразие, которое дает возможность не путать букву "а" с буквой "о", букву "б" с буквой "в".

Представьте себе электронный глаз, состоящий из 60 фотоэлементов. Перед этим глазом кибернетической машины ставятся цифры, написанные совершенно по-разному: и твердо, и округло, и жестко, и еле нацарапанные на листке бумаги. Зачем? Да машину нужно научить общности восприятия, отучить от машинной узости.

Такие машины уже существуют. Пока они осваивают зачатки знаний. Известный исследователь М.М.Бонгард работает в этом направлении - он "натаскивает" машину, заставляя ее привыкать к различным изображениям. И когда после такой тренировки перед электронным глазом ставили цифры или буквы в новом, незнакомом начертании, машина их узнавала.

Удивительное и неожиданное предложение сделал советский математик Э.М.Браверман. Он создал так называемую гипотезу "компактных множеств". Каждое изображение буквы или цифры, написанных по-разному, вызывает как бы ряд близко лежащих точек в машине. Множество изображений дает и множество точек, которые группируются достаточно компактно, чтобы в массе своей определить тот или иной знак. И когда машина, в соответствии с усвоенной программой, неожиданно знакомится с новой цифрой или буквой, то по тому, к какому множеству точек будет отнесена эта буква или цифра, машина опознает ее.

Американцы предложили узнающую машину, названную ими "Персептрон". Эта машина имеет сетчатый экран из 400 фотоэлементов, воспринимающих изображение. Электрические сигналы от фотоэлементов поступают к электронным клеткам машины, как бы моделирующей живую нервную систему. Процесс обучения машины был довольно трудным. Она должна была узнавать выставленные перед экраном геометрические фигуры. Обучение машины проходило при взаимоотношениях, какие иногда создаются между строгим учителем и легкомысленным учеником: за каждую ошибку "Персептрон" наказывали, ослабляя сигналы, поступающие к главному электронному устройству машины. В этом случае ошибочные сигналы имели меньшее значение, чем сигналы правильные. Так машина училась на своих собственных ошибках.

Более интересной оказалась машина "Марк-1", способная опознавать буквы алфавита. В этой машине тоже 400 фотоэлементов и соответствующих им электронных узлов, моделирующих нервные узлы. Память машины состоит из 512 элементов. Кстати, второй вариант этой машины, находящейся в периоде сборки, имеет в 20 раз больше элементов памяти. Машина научилась распознавать печатные буквы и цифры в различных начертаниях.

Пройдет какое-то время, и машина сумеет читать печатный текст - книги, газетные сообщения. А если машина различает буквы, значит, она может различать и образы. Уже сегодня машина в состоянии производить зрительные подсчеты количества кровяных шариков во время анализов крови. А ведь раньше эту кропотливую работу мог делать только человек. Машина в состоянии не только подсчитывать количество деталей, но определять их характер, их разнообразие. Вероятно, зрячая машина станет тем механизмом, который сможет не только узнавать детали, поступающие на конвейер, но и закреплять их там, где это необходимо.

Однако живой глаз не только различает форму предмета, его яркость, но и цвет его. Способна ли на такое машина? Во-первых, не все животные различают цвет. Взять, к примеру, осьминога - его мир бесцветен, сер и однообразен. Зрение осьминога ахроматично - оно различает лишь яркость освещения, но не цвет. Человек видит трихроматно, то есть трехцветно. Из трех основных цветов и их смешения складывается весь яркий, многоцветный мир вокруг нас.

Но, оказывается, и машины начинают осваивать цветное зрение, используя чувствительные фотоэлементы. Кремниевый и селеновый фотоэлементы как раз и обладают неожиданной способностью "различать" цвета. Используя это свойство, советские ученые М.Бонгард и А.Вызов создали установку, моделирующую цветовое зрение. Этот удивительный прибор безошибочно распознает не только яркость, но и цвет.

Разве это не чудо: электронная машина видит радугу! Однако обратимся к другим способностям машины. Сможет ли она логически понимать написанное? Да, сможет. Уже сегодня в наших институтах есть машины, которые могут различать предложения: правильно оно построено или нет. В Киевском вычислительном центре проделали интересный опыт. Взяли 50 существительных, 16 глаголов и наиболее часто употребляемые предлоги. Из этих слов составили фразы, конечно, довольно примитивные, но все же осмысленные: ""Соловей поет на дереве", "Рыба плавает в воде" и тому подобные. Машина рассортировала имена существительные и глаголы в соответствии со смыслом. И когда ей предлагали совершенно бессмысленные фразы: "Рыба поет на дереве" или "Соловей плавает в воде", машина немедленно реагировала на эти ошибки.

Сегодня мы уверенно можем сказать, что пройдет несколько лет, и появятся машины, способные читать и понимать человеческую речь. Но как заставить машину понимать живую речь? Ведь написанные слова можно разделить на буквы алфавита. А как автомату распознать слитную речь человека? Здесь произнесение букв взаимно перекрещивается, их невозможно свести к алфавиту.

Исследователи языка пошли по иному пути - они установили, что можно создать звуковые символы, подобные алфавиту. Фонемы - это небольшое число звуковых символов, которые могут быть записаны фонетически. Из 41 русской фонемы может быть составлено любое слово, любая фраза, так же как из трех десятков букв алфавита составляются слова, фразы, книги.

Фонемы отличаются одна от другой, значит, нужно приучить машину различать фонемы в слитном тексте, то есть находить ее буквенный или цифровой эквивалент, с тем чтобы зафиксировать фонему в памяти машины. Вот почему, когда машину учат слышать, то отдельные слова с помощью электронной техники разбивают на фонемы, тщательно анализируя каждую из них. При этом случайные признаки фонем всячески устраняются, с тем чтобы максимально увеличить различие между ними.

Впервые такое исследование провел русский профессор Л.Л.Мясников еще в начале 1940-х годов. После войны этой проблемой занимались другие советские ученые. Мало того, что ученые анализировали состав речи, они создавали устройства, с помощью которых можно заставить машину говорить, то есть можно создать искусственную речь. Ученые заметили, что существует много различий между гласными и согласными.

В спектре гласных звуков создаются и концентрируются как бы сгустки энергий, названные формантами. Источником гласных являются наши голосовые связки. Проходя через систему резонаторов полости рта, черепа, в результате соответствующего положения языка и челюсти звук усиливается или подавляется. Совсем иначе образуются согласные. Они образуются больше дыханием, а не участием голосовых связок.

Различна длительность гласных и согласных. Самой длительной является гласная "а", на которую затрачивается 260 миллисекунд, самой короткой - согласная "п", для произнесения которой нужно всего 20 миллисекунд.

Анализ, проведенный ленинградскими учеными, показал и другое. В начале и в конце слова длительность гласных значительно больше, чем в середине; во фразах меньше, чем в отдельных словах. Именно по этим многочисленным признакам машина в состоянии различать звуки - она как бы слышит их. Исходя из всего этого, можно заставить машину не только слышать, но даже и говорить.

Как подобрать звуки, чтобы можно было из них создать голос машины? Опыт за опытом ставили ученые и после многочисленных исследований сделали неожиданное открытие: сигналы, вырабатываемые генератором пилообразных импульсов, чрезвычайно похожи на колебания голосовых связок. Голос можно получить искусственно - вот к какому выводу пришли исследователи. Нужно лишь отработать сгустки звуковой энергии в форманты. Для каждой гласной. В конце концов ученым удалось получить звуки, очень похожие на гласные русского языка.

Звуки, полученные от генератора, прослушивались специальной группой операторов в составе 10-15 человек. Они искали звуки, сходные с формантами, необходимыми для будущей речи машины.

А как получить согласные? Это оказалось значительно проще. Их создали с помощью шумового генератора.

Отбор звуков - длительный и сложный процесс. По ряду признаков звуки делятся на две группы, затем снова на две группы и опять на две части. Эти операции проводятся до тех пор, пока не удастся окончательно распознать все фонемы. В этом сложном процессе участвует не только акустика, но и электроника - искусственно осуществляется речевой сигнал.

Машина распознает звуки речи с помощью цифр электронно-вычислительных элементов. Иначе строится распознание живой речи человека, живого человеческого голоса.

Для опыта было отобрано 50 дикторов - 25 мужчин и 25 женщин. Их речи записывались на магнитофон. Но, как известно, с магнитофона речь проникает в машину в виде непрерывного электрического сигнала, а цифровые данные электронная машина принимает только прерывистыми сигналами. Специальным устройством преобразовали непрерывный сигнал в прерывистый. Машина вычисляла соотношение энергии в различных частях спектра речи, условно делила речь на гласные и согласные и в результате правильно опознала 97 процентов слов.

Недавно в Соединенных Штатах Америки был проведен интересный эксперимент по вводу в машину информации с голоса. Оператор неоднократно повторял в микрофон слово. Специальное устройство обрабатывало его и в виде цифр вводило информацию в машину. Запоминающие устройства машины создали как бы репродукцию или маску каждого слова. При узнавании слова машина сравнивала его со всеми масками слова, хранящимися в ее памяти, и определяла, на какую маску больше всего похоже произносимое слово.

7 женщин и 9 мужчин однообразно говорили: "Один, два, три, четыре..." и так далее. 16 голосов создали в машине большой выбор интонаций разных людей. И когда впоследствии они разговаривали с машиной, она пыталась узнать, кто именно с ней беседует. В результате она давала такие ответы: "Это Джон сказал "три"... Говорящего определить нельзя, но сказана цифра "три"... Невозможно определить ни личность говорящего, ни произносимое им слово". Интересно, что машина сумела опознать каждую из семи женщин, слова же, произнесенные мужчинами, узнавались хуже - только на 98 процентов.

Уже сегодня в Москве, Ленинграде и Тбилиси созданы специальные лаборатории экспериментальной фонетики. Здесь вы видите сложные приборы для записи звуков, специальные механизмы для резки и склейки фонем. Здесь создаются спектры звуков. Вы видите объемные рисунки гласных и согласных звуков и даже карточки целых слов. Это удивительный мир застывших звуков, которые оживают в вашем присутствии. Но все направлено к тому, чтобы в конечном счете научить машину говорить. Она может произносить слова, рожденные либо звуком генератора, либо куском магнитной ленты, на которой записаны отдельные фонемы, созданные голосом человека.

В Новосибирском институте автоматики и электрометрии машина разборчиво и внятно произносит многозначительную фразу: "Наша машина училась. Она узнала жизнь". Машина произносит эту фразу каким-то отвлеченным, "ничьим" голосом. В произношении исчезли все особенности живого голоса. Но ведь звуки эти рождены машиной!

Зимой 1963 года в дни международного женского шахматного турнира научные работники Тбилиси решили подбодрить грузинскую шахматистку Нону Гаприндашвили. И вот впервые в истории радиотехники из Тбилиси по радио была передана фраза, произнесенная машиной: "Будь внимательна, дорогая Нона!" Теплое приветствие было сказано железным голосом автомата, но как дороги нам эти первые слова машины.

...Еще до войны американская телефонная компания на Всемирной выставке демонстрировала аппарат, названный "Вокодер". Он отвечал на вопросы посетителей необычным, лишь отдаленно напоминающим человеческий, голосом. Сложная система специальных приборов управлялась оператором. Ответ поступал на магнитофон, соединенный с громкоговорителем. Немногословен был механизм, самостоятельно воспроизводящий звуки речи, подобно сложному голосовому аппарату человека. А то, что передавали из Тбилисского института автоматики и электроники по радио, было подлинной речью машины.

В институте сконструирована тележка, управление которой подчинено человеческому голосу. Вы можете сказать: "Вперед!" - и тележка двинется вперед. "Направо! Налево! Стоп!" - машина выполняет все приказы с голоса. Это только начало. Придет время - кибернетические помощники человека будут не только с голоса понимать своего хозяина, но также голосом будут говорить ему о своих ощущениях, о своих нуждах и желаниях.

Представьте себе на мгновение такую картину. Вы заболели. Вы рассказываете диагностической машине о своем самочувствии - в чем выражается ваше недомогание. Вы говорите ей о составе крови, о результатах тех или иных анализов. И машина отвечает вам - тоже голосом. Не только о характере вашего заболевания говорит она - машина дает вам советы, рецепты. И это не фантастика, это - одно из реальных явлений живой жизни завтрашнего дня.

Часто в научно-фантастических романах нам приходится читать об умных роботах, которым вверяется управление космическим кораблем, на долгие годы уходящим в бескрайние просторы Вселенной. Роботы предупреждают людей о грозящей опасности, о положении корабля живым, почти человеческим голосом. С этими роботами космонавты разговаривают дружески, как со своими приятелями. Такая картина представлялась нам нереальной, условной. Но сегодня, прикоснувшись к миру кибернетических машин, которые подобно ребенку учатся понимать речь, видеть окружающий мир, познавать его и высказываться живой человеческой речью по поводу своих "машинных переживаний", мы начинаем понимать, как близко подошли люди к осуществлению самой пылкой фантастики. Да, стираются границы между фантазией и действительностью.

12 мая, вторник. Сегодня обычный день. Во время работы было много разговоров о том, как интереснее провести свободное время. Кузовкина об этом можно было и не спрашивать: сегодня вечером у него ответственный матч: Тула-Новомосковск. Он заметно волнуется - он правый нападающий. От него во многом зависит исход игры.

Коля Трошин обеспокоен другим - быстро надвигающимися зачетами. Он, конечно, мог бы на время экзаменов полностью освободиться от работы, но не хочет - монтаж затягивается. Да и обкатка оборудования хоть и очень хлопотливое дело, но чрезвычайно увлекательное.

Меньше всех говорила Нина. Я давно заметил, что она все время что-то бормочет про себя. Завтра Нина выступает в концерте, во Дворце культуры. Я даже не спрашивал ее, какой номер она подготовила. Все было и без того ясно: целый день Нина повторяла "Письмо Татьяны к Онегину". Не понимаю, почему всех девушек так привлекает "Письмо Татьяны"? Казалось бы, и эпоха не та, и характеры не те, но все читают Пушкина, и обязательно письмо.

Возможно, Кибер впервые попал в обстановку наших забот и увлечений. Вечером он спросил меня:

- Что это все время зубрила Нина Охотникова? Я не расслышал.

Автор: "Письмо Татьяны". Пушкина.

Кибер: Как же, знаю. Пушкин Александр Сергеевич, камер-юнкер, родился в 1799 году, умер в 1837 году. Убит на дуэли неким Дантесом. Писал стихи, прозу, исследования.

Автор: Абсолютно правильно. Хотя и несколько суховато.

Кибер: Как странно вы, люди, запоминаете! Повторяете одно и то же по десять раз. То ли дело мы, машины: один раз информация попала к нам и, пока ее специально не сотрут, будет держаться неизменно.

Автор: Но ведь память человека более емкая, чем ваша, машинная, да и глубина этой памяти удивительна. Как-то я встречался на Кавказе со старушкой, которая в 127 лет помнила события, пережитые ею в семилетнем возрасте. Разве с машинами случалось такое?

Кибер: Вы спрашиваете о машинной памяти? У меня и память нестареющая! Что мне дали, то я крепко держу при себе. А вы, люди?.. Ведь у вас все время происходит пускай естественный, но все же распад памяти. Подсчитали даже период полураспада - одни сутки. Через сутки вы, люди, забываете половину того, что удалось вам узнать за день.

Автор: Ну, это, пожалуй, не совсем точно. Хотя действительно, людям обязательно нужно что-то забывать. Это прекрасно, что так устроен человеческий мозг. Если бы все, что мы узнаем, оставалось в нашей голове, эти знания довольно скоро забили бы все каналы нашей памяти. Замечательно другое: мы оставляем в своей памяти только главное и существенное. Это и есть удивительное свойство мозга - раскладывать всю поступающую информацию по полочкам памяти и так, что главное поступает точно в нужный отдел, а случайное отфильтровывается и забывается.

Кибер: Ну, пока что вы, люди, составляющие программу нашей машинной памяти, работаете за нас, подбирая все необходимое. Но придет час, и мы приобретем возможность сами отлично отсеивать главное от третьестепенного. И будем делать это побыстрее людей!..

Василий Дмитриевич Захарченко, 1975 год