Вряд ли среди нас есть хоть один человек, который бы ни разу не пользовался Яндекс- или Google-переводчиком. Однако далеко не все осознают, что эти сервисы есть не что иное, как системы машинного перевода. Давайте разберёмся, что из себя представляет машинный перевод и как он появился.
Стоит отметить, что за последнее время технологии не только машинного перевода, но и искусственного интеллекта в целом сделали огромный шаг вперёд: никого уже не удивишь словосочетанием «нейронная сеть» или «самообучающаяся система». Однако так было далеко не всегда — долгое время учёные пытались создать механизм перевода с одного естественного (это важное условие в определении машинного перевода) языка на другой, но попытки были безуспешными.
Всё началось в 1930-е годы, когда советский учёный П.П. Смирнов-Троянский представил Академии наук СССР разработанную им «машину для подбора и печатания слов при переводе с одного языка на другой». Машина состояла из стола, перед которым был закреплён фотоаппарат, синхронизированный с печатной машинкой. На поверхности стола было расположено «глоссарное поле» — свободно двигающаяся пластина с напечатанными на ней словами на трёх и более языках.
Оператор фотографировал карточку, соответствующую определённому слову, а на печатной машинке набирал его морфологическую информацию — часть речи, число, падеж и т.д. Лента печатной машинки и плёнка камеры выходили одновременно. Таким образом получался набор кадров со словами и их морфологией.
Затем лингвисты превращали набор фотографий в связный литературный текст: чтобы переводить тексты, и оператору, и лингвистам достаточно было знать только свой родной язык.
К сожалению, изобретение было встречено скептически и на долгое время было забыто. Только в 1956 году уже другие советские ученые нашли патенты в архивах. И это произошло не случайно. Дело в том, что незадолго до этого, в 1954 году, в штаб-квартире IBM в Нью-Йорке был проведён так называемый «Джорджтаунский эксперимент», после которого Советский союз ощутил необходимость догонять США в разработке машинного перевода.
В ходе данного эксперимента компьютер IBM 701 впервые в мире автоматически перевёл 60 предложений с русского языка на английский. Впоследствии эксперимент не раз подвергался критике: примеры для перевода были тщательно подобраны и исключали любую неоднозначность. Для повсеместного использования эта система, безусловно, не подходила. Но интерес учёных и публики к машинному переводу заметно возрос, и с 1970-х годов его развитие стремительно набирало обороты. В настоящее время машинный перевод является одной из наиболее перспективных отраслей искусственного интеллекта.
Виды машинного перевода
Системы машинного перевода делятся на три категории: системы на основе грамматических правил (Rule-Based Machine Translation, RBMT), статистические системы (Statistical Machine Translation, SMT) и гибридные системы, сочетающие преимущества первых двух групп. Есть ещё один, относительно новый вид машинного перевода — нейронный. О нём подробнее будет рассказано далее, а пока давайте разберёмся в первых двух видах.
Системы RBMT анализируют текст и строят его перевод на базе встроенных словарей и набора грамматических правил для данной языковой пары. ПРОМТ и Systran — самые известные примеры RBMT-систем. Качество таких переводов оставляет желать лучшего, но они до сих пор используются (например, во всеми любимых переводах названий товаров на Aliexpress).
Среди плюсов RBMT можно отметить морфологическую точность (слова при переводе не путаются), воспроизводимость (всегда одинаковый результат) и возможность настроить систему под предметную область (обучить специальным терминам).
В системах SMT применяется принцип статистического анализа: в программу загружаются огромные объёмы текстов на исходном языке и их переводы, выполненные человеком. Программа анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. п., затем опирается на неё при выборе вариантов перевода — это и есть самообучение.
Тут уже в дело вступает нейронный машинный перевод (англ. Neural Machine Translation, NMT), т.к. самообучение характерно, в первую очередь, для перевода на базе нейросетей. Данный вид перевода начал появляться в 1990-х годах и сейчас является основным видом машинного перевода.
Нейросеть — математическая модель, построенная по принципу сетей нервных клеток живого организма. Возможность обучения является одним из главных преимуществ нейронных сетей перед традиционными алгоритмами перевода. Систему может обучать и человек, корректируя результаты перевода. Именно так и работают онлайн-переводчики Яндекс и Google. Благодаря самообучению качество перевода у них повышается с каждым новым переведённым текстом.
В середине 2000-х годов популярность приобрело «глубинное обучение» (англ. Deep learning). Главное его отличие от классических нейросетей в том, что его сети обучаются находить характерные свойства объектов, не задаваясь вопросами об их происхождении. Таким образом, при таком виде перевода независимо друг от друга действуют два механизма: сначала одна нейросеть кодирует текст на основе каких-либо характеристик, затем вторая декодирует их в текст переводного языка. Студенты переводческого отделения наверняка сейчас вспомнили любимую фразу преподавателей: «Переводите смыслы, а не слова» J
За последние несколько лет нейросети превзошли всё, что было придумано в переводе за последние 20 лет. Они даже научались согласовывать роды и падежи в разных языках (сами!). Кроме того, впервые стало возможно напрямую переводить между языками, у которых не было ни одного общего словаря. Ранее методы статистического перевода всегда работали через английский язык. Нейронному переводу же это не нужно.
А теперь неожиданный вопрос — вы когда-нибудь задумывались, чем отличается Яндекс-переводчик от Google-переводчика? Ничем? А вот и нет, различия всё-таки есть, пусть они и незаметны на первый взгляд.
GOOGLE TRANSLATE
В 2016 году Google включил нейронный перевод девяти языков между собой, в 2017 был добавлен и русский. Google разработал собственную систему под названием Google Neural Machine Translation (GNMT). GNMT улучшает качество перевода, применяя метод машинного перевода на основе примеров (англ. Example-based machine translation, EBMT). Таким образом, система обучается на основе аналогии, используя базу примеров переводов, выполненных человеком.
ЯНДЕКС ПЕРЕВОДЧИК
Яндекс запустил свой нейросетевой перевод в 2017 году и среди своих главных отличий выделял гибридность. Яндекс переводит предложение сразу двумя методами — статистическим и нейросетевым, а потом с помощью специального алгоритма находит наиболее подходящий. Google пользуется только нейросетевым методом.
У гибридного метода есть ряд преимуществ. Например, нейронный перевод не всегда хорошо справляется с короткими фразами. Простой статистический перевод, как правило, лучше находит эквиваленты устойчивых словосочетаний. Получается, что в этом плане Яндекс продвинулся немного дальше.
При этом, когда дело касается перевода предложений целиком, лучше добавлять точку в конце предложения. Тогда система включает механизм нейронного перевода и работает лучше, чем через статистический перевод. С Google-переводчиком такое срабатывает не всегда. Выходит, и тут Яндекс впереди.
Можно ли однозначно утверждать, что один онлайн-переводчик лучше другого? Скорее всего нет, так как учтены далеко не все факторы. Но это уже тема для отдельного исследования, а пока решать вам, каким переводчиком пользоваться. Ну а если верить преподавателям нашего факультета, то лучше ими не пользоваться вовсе и выполнять переводы самим – если даже нейросеть учится, то и вы точно можете!
Источники:
- «Машинный перевод: от холодной войны до диплёрнинга» (блог Вастрик.ру, vas3k.ru/blog/machine_translation).
- Википедия (статьи «Машинный перевод», «Смирнов-Троянский, Пётр Петрович», «Джорджтаунский эксперимент», «Глубокое обучение», «Google Neural Machine Translation»).
Обложка статьи: From Bēhance by Penelope Mavromiti.
Полина Колосёнок
Latest posts by Полина Колосёнок (see all)
- Классика сквозь время: «Маленькие женщины» и «Эмма.» - 3 октября, 2020
- Экоактивизм в МГУ - 3 июня, 2020
- Бальные традиции в МГУ - 29 марта, 2020
Ваш комментарий будет первым