История машинного перевода: развитие и появление

1930-е годы: период экспериментов

История данной технологии берет начало в 30-х годах прошлого века. Тогда пресса, радио и средства связи способствовали распространению информации на иностранных языках. Возникла необходимость в ее быстром переводе.

В 1935 году двое ученых запатентовали первые устройства МП. Француз Жорж Арцруни придумал «Механический мозг» — автоматический словарь на перфоленте, знающий 4 языка. Педагог из СССР Петр Троянский — ленточный параллельный словарь. Эти проекты так и не были массово воплощены в жизнь, ведь в скором времени появились электронные вычислительные машины, и развитие технологии стало связано с ними.

1940-е года: 4 новых принципа МП

Американский математик Уоррен Уивер сыграл ключевую роль в истории машинного перевода. В 1947 году он предложил использовать криптографический метод для расшифровки материалов на иностранном языке. Ученый считал, что изначально текст написан на английском, но закодирован неизвестными символами. Чтобы понять смысл написанного, достаточно просто расшифровать их, найти к ним ключ.

Представители научных кругов не поддержали идею Уивера. Но он все равно продолжил работу над ней и в меморандуме “Translation” предложил 4 принципа машинного перевода:

Значения слов нужно интерпретировать исходя из контекста.
Перевод должен подчиняться законам формальной логики.
Для расшифровки текста необходимо задействовать криптографические инструменты.
Для облегчения процесса перевода нужно использовать лингвистические универсалии, то есть общие почти для всех языков явления.

Меморандум получил неоднозначную реакцию, но большинство ученых посчитали идею перспективной.

1950-е годы: первые американские и советские исследования

В 1954 году исследователи Джорджтаунского университета (США) провели первый эксперимент по МП — так называемый «Гарвардский тест». Они использовали коммерческий компьютер IBM 701. Машина смогла перевести 60 предложений с русского на английский со скоростью 2,5 стр/сек.

Полученный результат был далек от совершенства, но «Гарвардский тест» все равно привлек внимание всего мира. В частности, он послужил мощным толчком для развития МП в СССР — уже в 1955 году в Институте точной механики и вычислительной техники увидел свет первый советский компьютерный переводчик, включавший словарь на 2300 единиц.

Параллельно разработки вела лаборатория академика и основателя кибернетики Александра Ляпунова. А лингвисты из Института иностранных языков (будущего иняза имени Мориса Тореза) объединились с математиками в редколлегии журнала «Машинный перевод и прикладная лингвистика».

Именно в 50-е годы была заложена идея эволюции систем МП. Сначала переводили «слово на слово», что вело к буквальному восприятию значений без контекста и раздельному переводу каждой фразы. Это сильно губило текст. Далее были внедрены переводческие преобразования — разбирали структуру исходного предложения, переводили в верную структуру на нужном языке, а затем подставляли иностранные слова. Улучшения были заметны, но часть исходного смысла все равно терялась.

Только после этого появилось представление о том, что из исходного текста, помимо структуры, следует извлекать смысл — его то и нужно передавать средствами другого языка. Эту идею поддержал Ляпунов. Однако оказалось, что воплотить ее имеющимися на тот момент средствами и технологиями было практически невозможно. Потребовались годы труда и формирование нового направления науки — структурной или математической лингвистики.

1960–1970-е: прекращение финансирования

История развития машинного перевода в США в 60–70-е годы практически стала на паузу. Был создан специальный комитет APLAC, который принял решение прекратить финансирование исследований в этой области. В отчете 1964 года было отмечено, что работа специалиста-переводчика более качественная и обойдется не так дорого.

Почти 20 лет американские ученые не интересовались МП. Лишь некоторые частные предприниматели продолжили разрабатывать программное обеспечение для перевода. Среди них и Питер Тома, основатель компании Systran.

В СССР же работы продолжались. В 1972 году лаборатория Юрия Апресяна в Москве приступила к созданию новой системы автоматического перевода, а в Ленинграде открылась лаборатория инженерной лингвистики, сотрудники которой в 90-е годы создали переводчик PROMT.

1990-е и 2000-е года: статистические системы

Компьютерная программа руководствовалась правилами, которые не учитывали все особенности языка. Поэтому МП нуждался в улучшении. В 1990-х годах ученые стали искать новый подход.

Компания IBM вернулась к истокам и разработала программу Candide, которая базировалась на криптографическом методе Уоррена Уивера. Она анализировала, как и в каком тексте было переведено определенное слово, после чего предлагала наиболее подходящий по смыслу вариант. Расшифровка текста была понятной, хоть и не без ошибок.

Затем появились статистические системы МП — SMT (Statistical machine translation), которые анализировали большое количество параллельных текстов и выделяли из них правила. Еще такие вычислительные программы могли накапливать информацию, учитывать контекст и собирать статистику, поэтому с каждым разом качество перевода улучшалось. Программа со временем смогла анализировать целые фразы, благодаря чему перевод стал более естественным.

2016–2022: нейросети как принципиально новая система перевода

С 2016 года история развития машинного перевода тесно связана с нейросетями. Тогда компания Google представила GNMT — систему нейронного перевода, обученную на огромном количестве текстов. Ее алгоритм воспринимал предложение целостно, а не как набор фраз. Благодаря этому удалось повысить точность перевода.

Спустя год Google усовершенствовала архитектуру нейросети. Новая модель получила название Transformer и отличалась тем, что правильно считывала связи между удаленными друг от друга частями фраз.

Параллельно компания Microsoft выпустила систему перевода Skype Translator. Она позволяет переводить звучащую речь на несколько языков в режиме реального времени.

В 2018 году разработчики из OpenAI представили систему GPT. Искусственный интеллект способен выполнять не только перевод, но и генерировать текст на разных языках.

В настоящее время возможности МП стали гораздо шире. Например, его внедряют для перевода видео и трансляций в режиме реального времени. Эти опции можно протестировать в Яндекс.Браузере.

Получите консультацию специалиста

по телефону через несколько минут

Звоните Пн-Пт с 9:00-18:00

+7 (495) 481-05-70

Пишите нам в мессенджер