Назад в библиотеку

Определение родного языка автора путем поиска ошибок в тексте

Автор: Moshe Koppel, Jonathan Schler, Kfir Zigdon
Источник: Moshe Koppel, Jonathan Schler, Kfir Zigdon. Determining an Author's Native Language by Mining a Text for Errors // Computer Science Department Bar-Ilan University Ramat-Gan, 52900, ISRAEL. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.113.7470&rep=rep1&type=pdf


Аннотация

В этой статье мы показываем, что стилистические особенности текста могут быть использованы для определения родного языка анонимного автора с высокой точностью. В частности, мы сначала используем автоматические инструменты для определения частоты различных стилистических особенностей в тексте. Эти частоты затем служат функциями для опорных векторных машин, которые учатся классифицировать тексты в соответствии с родным языком автора.

Категории и дескрипторы темы

I.2.6 [Artificial Intelligence]: Learning – Analogies, Concept learning, Connectionism and neural nets, Induction, Knowledge acquisition, Language acquisition, Parameter learning

Общие условия

Algorithms, Measurement, Experimentation

Ключевые слова

Text mining, author profiling

1 Введение

Стилистический анализ текста может предложить намек на психологическое или демографическое профилирование автора текста. Например, уже было показано, что методы автоматического анализа текста могут использоваться для определения пола анонимного автора с точностью выше 80% [1].

В этой статье мы покажем, что стилистические особенности могут быть использованы для определения родного языка автора данного текста на английском языке. На орфографию, грамматику и использование писателями второго языка часто влияют образцы их родного языка [2] [3]. Таким образом, вполне вероятно, что определенные шаблоны письма – выбор функционального слова, синтаксис и ошибки – могут быть особенно распространены среди носителей данного языка.

Некоторая работа [4] была проделана по классификации транскриптов английских речевых высказываний как носителей английского языка или не носителей английского языка. В наших экспериментах мы знаем, что автор не является носителем английского языка, но мы хотим определить, какой язык является родным для автора. Мы рассматриваем письменный текст, который предлагает преимущества грамматических и орфографических подсказок, но теряет преимущество неправильного произношения. Насколько нам известно, это первая опубликованная работа по автоматическому определению родного языка автора по письменному тексту.

2. Стилистические особенности

Определение родного языка автора – это одна из проблем, связанных с установлением авторства. Вместо того, чтобы идентифицировать конкретного автора из закрытого списка подозреваемых, мы хотим идентифицировать класс авторов, а именно тех авторов, которые говорят на определенном родном языке.

Исследователи атрибуции авторства обычно ищут те виды функций, использование которых примерно инвариантно для данного автора (или класса авторов) в разных темах, но которые могут варьироваться от одного автора (или класса авторов) к другому. Как правило, исследователи используют относительно общие наборы функций. Так, например, в основополагающей работе Мостеллера и Уоллеса [5] по атрибуции авторства в Записках федералиста использовался набор из нескольких сотен функциональных слов, то есть слов, которые не зависят от контекста и, следовательно, вряд ли будут иметь предвзятость в отношении конкретных тем. Другие особенности, использованные в еще более ранней работе [6], основаны на сложности: средняя длина предложения, средняя длина слова, соотношение типа / токена и так далее. Последние технические достижения в области автоматизированного синтаксического анализа и тегирования части речи (POS) облегчили использование синтаксических и квазисинтаксических функций, таких как n-граммы POS [7] [8] [9] [10]. В другой недавней работе [11] рассматривается языковое моделирование с использованием буквенных n-грамм.

Однако люди (специалисты), работающие над проблемами установления авторства в реальной жизни, так не работают. Как правило, они ищут идиосинкразическое использование данного автора, которое служит уникальным отпечатком пальца этого автора. Например, Фостер [12] описывает свои методы идентификации множества печально известных анонимных авторов, включая автора романа Основные цвета и Унабомбера. Эти методы включают многократное использование определенных типов неологизмов или необычного использования слов. Примечательно, что Фостер выявляет эти лингвистические особенности вручную. В случае неотредактированных текстов также могут быть использованы орфографические и грамматические ошибки, которые обычно устраняются в процессе редактирования.

В этой статье мы будем использовать различные стилистические типы функций, которые могут быть полезны для определения родного языка автора. Очень грубо мы можем разбить эти типы функций на три большие категории.