Разработка системы машинного перевода текстов в англо-русском направлении

Аннотация

Сорокин Р.А., Оверченко Я.Ю. Разработка системы машинного перевода текстов в англо-русском направлении. Рассмотрены основные подходы к построению систем машинного перевода. Реализована система машинного перевода с английского языка на русский, основанная на правилах. Описаны некоторые особенности лексического анализа и синтеза в системах машинного перевода текстов.

Общая постановка проблемы

С развитием информационных технологий и международных связей с каждым годом возрастает количество различной информации, требующей перевода на родной язык людей, работающих с ней. Таковой информацией является техническая документация, художественная литература, множество всевозможных деловых и официальных документов и так далее. Требуется также перевод при взаимодействии друг с другом представителей различных стран. Для обработки столь больших объѐмов данных порой недостаточно работы человека, поэтому автоматизация набирает обороты и в сфере переводов.

С развитием технологий возрастает необходимость в программном обеспечении, которое способно выполнить качественный и осмысленный перевод больших объѐмов информации за короткое время. Эта потребность способствует развитию систем машинного перевода различных типов, способных выполнять работу человека-переводчика.

Цель проекта

Целью данного проекта является изучение морфологических особенностей русского и английского языков, исследование существующих подходов к машинному переводу, их особенностей и основных этапов, а также разработка на основе полученных данных программного продукта, позволяющего произвести перевод с английского языка на русский.

Постановка задачи

Объектом разработки является система машинного перевода текстов с английского языка на русский, основанная на правилах.

Разрабатываемый программный продукт будет предоставлять пользователю возможность перевода различных текстов с английского на русский язык, основываясь на данных морфологического анализа и правилах словоизменения.

Простота и удобство в использовании играют важную роль в процессе работы пользователей с программным продуктом. Поэтому разрабатываемая система машинного перевода будет обладать простым дизайном, реализующим основной функционал данного программного продукта – непосредственно перевод.

В основе систем машинного перевода часто лежит словарь пословных переводов или двуязычные корпуса текста. От их полноты напрямую зависит качество получаемого системой перевода. Работа разрабатываемого программного продукта основана на словаре пословных переводов, содержащем 50 000 записей.

Исследования

Программный продукт будет полезен в случае необходимости перевода слов и текста с английского языка на русский. В ходе проведения подготовительной работы и непосредственно разработки системы машинного перевода был исследован ряд следующих теоретических и практических аспектов:

  • теория машинного перевода;
  • история развития систем машинного перевода;
  • анализ и синтез в системах машинного перевода;
  • морфологический анализ;
  • основные подходы к реализации машинного перевода;
  • классификация систем машинного перевода.

В ходе исследования было определено, что работа большинства систем машинного перевода базируется на использовании словарей пословного перевода или двуязычных корпусов текстах [1].

После обзора имеющихся систем и анализа существующих подходов к машинному переводу для разрабатываемого программного продукта был выбран словарь пословных переводов объѐмом в 50 000 единиц, а также выбран тип – система машинного перевода, основанная на правилах [5].

Кроме того в процессе работы над программным продуктом были исследованы основные морфологические особенности русского и английского языков, на основе которых были созданы правила словоизменения, регулирующие процедуру конечного синтеза словоформ [2]. Также был разработан алгоритм морфологического анализа найденных переводов английских слов для их дальнейшей коррекции и согласования [3].

Программная реализация

Программа предоставляет пользователям возможность перевода слов и текстов с английского языка на русский. Разрабатываемый программный продукт представлен в виде нативного приложения и состоит из нескольких модулей:

  • модуль загрузки словарной базы, считывающий данные из БД во внутреннюю структуру программы для дальнейшей работы во время отображения загрузочного экрана;
  • модуль считывания текста и его разделения на структурные единицы для дальнейшей обработки;
  • модуль поиска перевода слов в словарной базе;
  • модуль определения морфологических характеристик найденных переводов, на которых основан конечный синтез перевода;
  • модуль отображения справочной информации о программе и еѐ авторе, который можно вызвать нажав специальную клавишу на главном окне программы;
  • модуль конечного синтеза перевода согласно сформированным ранее правилам словоизменения.

Программная реализация выполнена в среде языка программирования С# и состоит из загрузочного экрана и основной рабочей формы [4].

В форме, в свою очередь, размещены элементы интерфейса, взаимодействие с которыми активирует те илииные модули программы. На рисунке 1 показана общая структура вызовов элементов программы и их взаимодействия.

Общая структура вызовов элементов программы и их взаимодействия

Рисунок 1 — Общая структура вызовов элементов программы и их взаимодействия

Выводы

Была исследована проблема необходимости использования и развития систем машинного перевода. Также определены цели, достигаемые при разработке и использовании программного продукта. Проведен анализ теоретических аспектов построения систем машинного перевода, а также определен конкретный тип и подход к разработке программного продукта. Выделены основные модули, составляющие систему машинного перевода, построена общая схема их взаимодействия.

Список использованной литературы

  • Белоногов Г. Г. «Компьютерная лингвистика и перспективные информационные технологии» – М.: Русский мир, 2004 – 300 c. литературы на иностранных языках, 1958 – 459 с.
  • Марчук Ю. Н. «Основы компьютерной лингвистики. Учебное пособие. Издание 2-е дополненное» – М.: Изд-во МПУ «Народный учитель», 2000 – 226 с.
  • Марчук Ю. Н. «Проблемы машинного перевода» – М.: Наука, 1983 – 232 с.
  • Павловская Т. А. Щупак Ю.А. С#. Объектно-ориентированное программирование. Практикум. СПб.: Питер, 2008.
  • Хроменков П. Н. «Анализ и оценка эффективности современных систем машинного перевода» Диссертация на соискание учѐной степени кандидата филологических наук. – М.: РГБ, 2000 – 265 c.