История машинного перевода

Машинный перевод-это автоматический перевод текста на исходном языке в текст на целевом языке. Переводчики-люди могут участвовать в предварительном редактировании или после редактирования, то есть в начале или в конце, но обычно они не участвуют в процессе перевода.

Хотя концепции машинного перевода восходят к XVII веку, именно в 1950-х годах финансируемые правительством США исследования стимулировали международный интерес к исследованию и производству систем машинного перевода.

Первоначально планировалось создать полностью автоматическую высококачественную систему машинного перевода, но к 1952 году “уже было ясно, что цели полностью автоматизированных систем нереальны и что вмешательство человека будет иметь существенное значение”. Многие исследователи были учеными, а не лингвистами и не осознавали необходимости знания реального мира в процессе перевода. Многие сложные элементы языка не могут быть легко запрограммированы в компьютере, например, понимание омонимов или метафор.

Первая публичная демонстрация автоматизированной системы перевода, которая перевела 250 слов с русского на английский язык, состоялась в США в 1954 году. Использовался подход прямого перевода. Эта архитектура первого поколения основана на словаре и пытается сопоставить исходный язык с целевым языком слово в слово, то есть непосредственно переводить. “Этот подход был простым и дешевым, но выходные результаты были плохими и имитировали...синтаксические структуры исходного языка”. Поэтому он больше подходит для пар исходного и целевого языков, которые структурно связаны между собой. Несмотря на низкое качество перевода, проект был хорошо принят и стимулировал дальнейшее финансирование исследований в США и Советском Союзе.

Системы машинного перевода второго поколения.

К середине 1960-х годов исследовательские группы существовали во многих странах. Подход прямого перевода все еще использовался, и новые исследования в области основанных на правилах подходов: transfer и interlingua, положили начало системам машинного перевода второго поколения. В 1964 году правительство США заказало доклад о ходе исследований в области машинного перевода Консультативному комитету по автоматической обработке языков (ККПАОЯ). В докладе ККПАОЯ подчеркивалась медлительность, недостаточная точность и дороговизна машинного перевода по сравнению с переводчиками-людьми и предсказывалось мрачное будущее развития машинного перевода. Большая часть американского финансирования прекратилась, а исследования в области машинного перевода во всем мире сократились.

Хотя автоматизированные системы перевода оказались непригодными для замены переводчиков-людей на общем уровне, было отмечено, что они достаточно точны, когда вводимый язык ограничен или очень специфичен. Проекты в рамках конкретных языковых областей, такие как система Météo, разработанная в Канаде в 1976 году для перевода прогнозов погоды с французского на английский, были успешными.

К концу 1970-х годов исследования в области межъязыкового перевода второго поколения пришли в упадок. При таком подходе исходный текст анализируется и преобразуется в специальный “межъязыковой” язык, из которого затем формируется целевой текст. Проблема заключалась в неспособности создать “действительно нейтральное к языку представление, представляющее” все "возможные аспекты синтаксиса и семантики для "всех" известных языков». Эта задача остается нерешенной, и системы interlingua доступны только в качестве прототипов.

Трансферный подход к машинному переводу.

В конце 1970-х и начале 1980-х годов исследования были сосредоточены в большей степени на трансферном подходе. В этой архитектуре исходный текст анализируется словарем исходного языка и преобразуется в абстрактную форму. Эта форма переводится в абстрактную форму целевого текста с помощью двуязычного словаря, а затем преобразуется в целевой текст с помощью словаря целевого языка. Этот подход, основанный на правилах, был менее сложным, чем Интерлингва (interlingua), и более пригодным для работы с несколькими языками, чем прямой перевод. Проблемы возникали там, где словари содержали недостаточные знания для решения двусмысленных вопросов. Использование включало онлайн-перевод и японский рынок IT-переводов.

Программирование и обновление словарей для машинного перевода - это трудоемкий и дорогостоящий процесс. Они должны содержать огромное количество информации для решения таких проблем, как лексическая неоднозначность, сложные синтаксические структуры, идиоматический язык и анафора во многих языках. Аустермюль подчеркивает, что “мировое знание особенно трудно реализовать в системах машинного перевода”; компьютер не может принимать те же решения, основанные на знаниях, что и человек. Если словарь слишком мал, в нем будет недостаточно информации, если он слишком велик, у компьютера будет меньше шансов выбрать правильный вариант перевода.

Подъем статистического машинного перевода.

В 1990-х годах исследования привели к созданию третьего поколения систем машинного перевода: корпусных архитектур, а именно статистического и примерного подходов. Статистический подход разбивает исходный текст на сегменты, а затем сравнивает их с выровненным двуязычным корпусом, используя статистические данные и вероятности искажений для выбора наиболее подходящего перевода. Подход, основанный на примерах, имитирует комбинации примеров предварительно переведенных данных в своей базе данных. Чтобы этот подход был успешным, база данных должна содержать близкие совпадения с исходным текстом. Этот подход лежит в основе средств памяти переводов.

Эффективность машинного перевода.

Все архитектуры машинного перевода лучше всего работают с техническими текстами с ограниченным или повторяющимся словарем. Гросс демонстрирует, как общие переводы, требующие знания реального мира, лучше подходят для переводчиков-людей, в то время как математические и абстрактные понятия больше подходят для систем машинного перевода. Переводчикам-людям не хватает скорости и терминологической последовательности машинного перевода, и они могут заскучать от повторений и технического языка.

1980-е годы ознаменовались огромным движением к использованию управляемого языка, который до сих пор играет ключевую роль в успешном машинном переводе. На этапе предварительного редактирования автор упрощает исходный текст в соответствии с определенными правилами, чтобы облегчить перевод компьютеру. Процесс перевода после этого быстро выполнен машиной. Затем человек - переводчик пост-редактирует документ до публикуемого качества. Европейская комиссия (которая занимается исследованиями и использованием машинного перевода с 1960-х годов) пришла к выводу, что “до тех пор, пока перевод может быть ограничен по предмету или типу документа...может быть достигнуто улучшение качества”.

С появлением международных коммуникаций и ростом индустрии локализации стало ясно, что переводчики-люди не в состоянии удовлетворить массовый спрос на дешевый, быстрый (даже мгновенный), часто крупномасштабный обмен информацией между языками. Огромные инвестиции были вложены в разработку систем машинного перевода для частного и государственного использования, в первую очередь на основных языках. Гибридные системы, сочетающие в себе архитектуру на основе правил и корпусов, были введены вместе с системами для повышения точности, позволяя человеку вводить информацию на этапе перевода.

Эпоха массовых коммуникаций изменила то значение, которое компании придают переводам “в полном облачении”, поскольку их целью часто является простой обмен информацией. Например, работникам ЕС часто требуется только представление о содержании документа, чтобы понять, стоит ли его переводить для публикации, домашние пользователи могут удовлетвориться бесплатными системами машинного перевода на основе Интернета, чтобы понять суть того, что говорится на веб-сайте. В тех случаях, когда требуется усвоение текста, например, инструкции по эксплуатации для технического специалиста, а не распространение текста для получения перевода публикуемого качества, машинный перевод часто оказывается гораздо более быстрым и экономичным решением, чем переводчики-люди.

Последние достижения в области машинного перевода.

Последние достижения в области машинного перевода привели к внедрению методов глубокого обучения и нейронных сетей для повышения точности. Поставщики языковых услуг в настоящее время предлагают индивидуальные механизмы машинного перевода, в которых помимо включения терминологии из конкретной области, такой как науки о жизни, индустрия путешествий или IT, пользователь также может загружать свои собственные данные перевода, чтобы попытаться улучшить точность, стиль и качество результатов машинного перевода.

Недавно Google объявил, что они вводят в действие нейронный машинный перевод в своем инструменте Google Translate. Они позиционируют его в общей сложности с восемью языковыми парами на английский и обратно в сочетании с французским, немецким, испанским, португальским, китайским, японским, корейским и турецким языками.

Поделиться: