Автоматическая оценка генерации и разбора для машинного перевода aвтоматически, с приобретенным правилом передачи

Авторы: Yvette Graham, Deirdre Hogan, Josef van Genabith


Первод: Гнитько Д.С.


Эта статья представляет собой новый метод оценки для генерации и анализа компонентов систем передачи MT где правила переноса были автоматически приобрела у анализируются предложения согласованы би-текст корпусов.Метод обеспечивает возможность количественной оценки верхней границы, введенные на МТ системы качества анализа и технологий следующего поколения для целевого языка. Мы включаем эксперименты, чтобы вычислить это верхняя граница для ручной и автоматической индуцированных анализа и генерации технологий используемых в настоящее время передача систем МП.

1 Введение

Автоматические методы оценки для МТ включает BLEU (Papineni и соавт., 2002), NIST (Doddington, 2002), Метеор (Banerjee и Лави, 2005), GTM (турианцев и соавт., 2003), ТЕР (Snover и соавт., 2006) и зависимостей на основе оценки (Owczarzak и соавт., 2007).Каждый из этих методов оценки дает общий результат для всей системы MT, основанный на сравнении предложение продукции на МТ система со ссылкой предложения. В отличие от других подходов к МП, такие как статистический машинный перевод, перевод на основе MT состоит из трех основных компонентов: анализа, передачи и поколение и каждый из них вносит свой вклад в ошибки производства MT системы. Трансфер-систем на базе МП в значительной степени зависят от качества анализа и генерации компонентов. Для того, чтобы полностью понять общие результаты такой системы, качество анализа и генерации компонентов также должны быть проверены в изоляции MT системы. Тем не менее, предыдущие работы в области передачи на основе МП, например, (Furuse и Хитоси, 1992; Майерс и др., 1998;. Менезес и Ричардсон, 2001; Riezler и Максвелл, 2006), полагаются исключительно на основных методов оценки MT и не включил разбивка результатов для анализа и генерации компонентов системы.
Существующие методы оценки и анализа поколение технологий, автономных систем, однако, недостаточно для оценки того, насколько хорошо эти технологии будут выполнять в рамках передачи на основе МП системы, так как они не принимают во внимание тот факт, что система использует MT на степень, в которой разбора и генерации технологии выступают вместе.Кроме того, они не подают никаких признаков того, насколько хорошо генерации и анализа технологий будет выполнять при испытании на данных MT, которая в случае статистических анализаторов и генераторов, могут быть очень разные домена к домену анализатора и генератора данных, обучение .Наконец, современные методы оценки предложения генераторов (Langkilde-Гири, 2002; Callaway, 2003; Наканиши и др., 2005;. Кэхилл и ван Genabith, 2006), рассчитывать на золотой стандарт структуры для создания вход генератора.Уровень входа генератора поэтому нереально высокие результаты и генератор не будет адекватно отражать, насколько хорошо генератор может выполнять в МТ настройки.

Эта статья представляет собой новую методологию тестирования предложение генераторы, который дает более реалистичную оценку того, насколько хорошо генератор может fareas компонент системы MT. Кроме того, методика дает комплексной оценки анализа и генерации компонентов MT системы и, следовательно, оценивает, насколько хорошо они работают вместе. Новая методика оценки также дает средство количественной оценки верхней границы, наложенные на выполнение перевода на основе MT системы анализа языка и технологий следующего поколения компонентов.

Работа построена следующим образом: Раздел 2 подробно описывается, почему существующие методы для анализа и генерации оценки не являются адекватными по отношению к передаче на основе MT оценки. Раздел 3 предлагает новый метод оценки для анализа и генерации для передачи на основе МП, где передача правила были автоматически получает от предложения краю автоматически обрабатываться bitext корпусов. Раздел 4 детали экспериментов, в которых наш метод используется для оценки двух разных анализа и технологий следующего поколения для английского языка. В разделе 5 обсуждаются результаты и, наконец, в разделе 6 приводятся некоторые выводы работы представлены в этой статье.


2 Существующие генерации и разбора


Методы оценки

Существует значительный объем работы по реализации предложения от абстрактной языковой представление, где оценка была проведена на автономные генераторы и независимо от системы МП. Тем не менее, часто цитируемые будущего применения таких генераторов заключается в генерации компонентов системы МП. В последнее время наблюдается увеличение объема работы в области надежного, широкого поколения предложение покрытия, испытания на текст лента новостей, например (Langkilde-Гири, 2002; Callaway, 2003; Наканиши и др., 2005;. Кэхилл и ван Genabith,2006 г.). Аннотация семантических / синтаксических вклад в эти генераторы были автоматически построены из разделов ручной Пенн Treebank. Предложения были, то создан для этих входов и по сравнению с первоначальными предложениями, с помощью автоматического сравнения строк такие показатели, как NIST и BLEU. Тестирование на ранее не разделы Пенн Treebank показывает, до какой степени генератор достигла широкого охвата и высокой точности (по BLEU и NIST баллов).Однако, если мы хотим принять во внимание то, как генератор может тариф как показано на рисунке 1: Перевод Источник приговор языка на язык перевода компонентов системы машинного перевода, эта методология оценки нереально в двух основных аспектах. Во-первых, существует проблема адаптации домена (хорошо документированы для анализа, см., например, (McClosky и др., 2006;.. Фостер и др., 2007)).
Домен адаптации особенно актуально для систем (Langkilde-Гири, 2002; Наканиши и др., 2005;. Кэхилл и ван Genabith, 2006), которые обучаются по разделам Wall Street Journal Пенн treebank. Вполне вероятно, что эти генераторы были протестированы в МТ настройку, тестирование домен будет change1 и, как в статистическом анализе, тестирование на область, которая отличается в области подготовки данных может привести к ухудшению результатов поколения. Кроме того, материалы для генераторов изготовлены из золотого стандарта (отсюда почти идеальной) деревья, в то время, как составная часть системы MT, материалы для генераторов будут построены в полностью автоматический процесс, и поэтому, предположительно, будет в более низкого качества.

Подобные вопросы и возникать в связи с оценкой (статистических) анализаторов, которые будут использоваться в системах МП. Анализ технологии оцениваются по сравнению с золотым стандартом. Эти золотые стандарты вряд ли могут быть из того же домена, что тестирование MT предметной области и, следовательно, результат был бы другим было оценка делается на новый домен. Так как методы анализа оценки не принимают во внимание поколение, хорошие результаты не гарантируют, что представление производства анализатор выполняет также вход генератора. Например, в статистическом анализе и поколения, несоответствие структуры, используемые для обучения генератор и анализатор профи.

Например, домен EUROPARL MT набор данных, который часто используется в МП, является европейскими парламентскими структурами proceedings.duced может привести к генератору неэффективные как часть theMT системы, которые не могут быть очевидными, когда разбор и генерацию оценивается в отрыве от друг с другом.

Наш метод оценки анализа и генерации для передачи на основе МП не требует золотого стандарта и, следовательно, позволяет избежать всех проблем, связанных с оценкой на другом домене. Это можно легко применить к новым набором тестов и поэтому могут быть использованы для оценки технологий для набора тестов MT, обеспечивая верхняя граница для системы этих предложений.

3 Анализ / Поколение Метод оценки для передачи на основе MT

3.1 Передача на основе машинного перевода с приобретается автоматически в Правила передачи

Передача на основе МП с автоматически приобрел правила перевода состоит из двух фаз: обучение и перевод. На первом этапе, обучение, включает в себя разбор предложения краю двуязычный корпус, так что желаемого абстрактное представление каждой из пар обучение предложение получается.

Технология анализа исходного языка используется для разбора предложения исходного языка, так же как и технология язык для разбора языка предложения двуязычный корпус. Правила передачи / отображения можно автоматически индуцированной из абстрактных представлений анализируется предложение пар корпус. Эти правила переноса можно использовать на втором этапе перевода от источника к целевой абстрактное представление невидимого предложения исходного языка.

На втором этапе передачи на основе MT невидимый текст сырой предложение анализируется с помощью источника технологии анализа языка, чтобы получить приближение абстрактное представление на приговор.Перевод правил, которые были автоматически индуцированных на первом этапе мы применим к этому представлению для получения представления языка. Эта структура целевого языка затем к генератору, таким образом, что предложение целевого языка могут быть произведены.
Заметим, что хотя метод оценки не требует ручной золотой стандарт тестовом наборе, как синтаксический анализ и генерация технологии требуют ручной данных для обучения.

Анализ 3,2 / метод генерации оценки

Метод, который мы предлагаем оценивает качество анализа и технологий следующего поколения для целевого языка перевода на основе МП система с автоматически приобрел правила перевода. Она состоит из трех простых шагов, которые выполняются автоматически по каждому из ссылки переводов в тестовом наборе:

Разбор

Создавать

Сравнить

Каждое предложение языка в тестовом разделе двуязычный корпус в первую очередь анализируется на абстрактное представление. Это абстрактное представление затем к генератору. Генератор выдает строку для абстрактного представления. Приговор язык затем сравнивается с generatorproduced строки. Любой метод сравнения строк может быть использована для сравнения двух строк, например, BLEU или NIST.
Когда этот метод оценки используется для оценки языка технологии передачи на основе МП система с автоматически приобрел правила передачи, обеспечивает верхнюю границу на результаты, которые могут быть достигнуты anMT система, которая опирается на эти технологии целевого языка.Напомним, в разделе 3.1 правила переноса, индуцированные обучения отображение анализатор производства исходного языка на анализатор производства представлений языка. Учитывая исходное предложение, тем лучше анализатор исходного языка и лучше перевода компонентов, тем ближе цель абстрактное представление (вход генератора целевого языка) является выход целевого анализатор. В самом деле, «лучший» вход такая система теоретически может представлять генератор приближается к выходу парсер целевого языка (для языка наказание в двуязычной тест / разработка разделов bitext корпус). Таким образом, анализ, то создание, предложений языка и сравнения строк вывода в этот процесс к исходной строки целевого языка, мы находимся в поиске влияние на поверхностный МТ-системы, которая будет опираться на эти технологии.

4 Экспериментальные результаты

Мы провели две группы экспериментов, чтобы оценить качество ручной разбор свалочного газа и генерации технологий (Riezler и соавт., 2002) и treebank вызванных СГ разбора (Кэхилл и соавт., 2004) и генерация (Кэхилл и ван Genabith, 2006. Хоган и др., 2007) технологии с использованием нашего нового метода. И автоматически вызванного технологий и ручной технологии в настоящее время используется как часть передачи систем МП.

В целом результаты оценки для одной из этих систем MT доступны и мы включили эти результаты в разделе 4.2 (Riezler и Максвелл, 2006). Мы оцениваем разбора / поколении технологий на английском языке компонентов из трех различных MT bitext тест наборов: 1755 английских предложений длиной от 5 до 15 испытаний Europarl, используемый в Koehn и др. все. (. Koehn и др., 2003), которые также были использованы для оценки MT системы, первые 500 английских предложений всех длин, используемые в (Koehn и др., 2003)., И 766 английских предложений в Homecentre корпус во все тяжкие.

Мы также результаты, достигнутые автоматически индуцированных ресурсов с использованием существующих методов генерации оценки по разделу 23 Wall Street Journal, так что сравнение можно провести между ними и результаты нового метода на том же наборе тестов.

Приведены результаты каждого эксперимента для двух различных типов оценки: весь комплекс испытаний и incoverage только. В покрытие только метод следует, что как правило, применяется при представлении результатов поколения (Langkilde-Гири, 2002; Callaway, 2003; Наканиши и др., 2005; Кэхилл и ван Genabith, 2006; Hogan и др., 2007.).: Мы даемBLEU и NIST оценки для предложений, для которых выход был подготовлен и мы сообщаем покрытие указать процент предложений, для которых выход был произведен. Весь набор тестов оценки дает BLEU и NIST оценки для всего набора тестов, независимо от того, любой вывод был произведен для некоторых предложений. Там, где нет выхода была создана для предложения, мы включаем эту пустую строку в наборе тестов продукции, в сравнении с эталонным предложения для данного сегмента. При сравнении двух различных систем оценки всего набора тест дает более реалистичную оценку того, как две системы сравнения. Это не представляется возможным дать значимые результаты сравнения различных систем, которые не имеют полного охвата использовании в покрытии только оценки, результаты не обязательно тот же набор предложений.

6 Заключение

Мы представили метод для оценки анализа и генерации targetlanguage компонентов на основе передачи MT системах с автоматической приобрел правила перевода. Трансфер-систем на базе МП в значительной степени зависят от качества анализа и генерации применяемых технологий, и поэтому очень выгодно иметь простой, недорогой и эффективный способ оценки этих компонентов системы для обеспечения реалистичного результата в зависимости от задачи MT.Результаты анализа и генерации технологии с использованием существующих методов оценки, как правило, на другом домене, что и набор тестов MT и, следовательно, такие результаты не обеспечивают реалистичную оценку того, как технологии будут выступать на новый домен тонн. В отличие от существующих методов оценки для анализа и генерации, предложенный метод может быть легко применены на новый домен, не требуя дорогостоящих стандартов золота. Он также предоставляет средства для количественной оценки верхней границы введенных анализа и генерации технологии на языке данного конкретного набора тестов. Мы показали, как это верхняя граница резко меняется от одного теста установлено следующее изменение в зависимости от области и предложения длину. Предлагаемый метод оценки основан на идее, что разбор языка и генерации компонентов на основе передачи MT система автоматически приобрел правила перевода не должны быть оценены в отрыве друг от друга. Передача на основе МП не только нуждается в высоком качестве анализа технологий и технологий следующего поколения, но она также нуждается в поколение технологии работают хорошо, когда данный анализатор выхода их ввода. Оценка технологий в изоляции, не принимать это во внимание и ни наград система, которая может этого и не наказывает которая не может.