Библиотека материалов по теме выпускной работы
- Определение биграмм на
материале научных текстов по извлечению данных из текстов
Авторы: Н.А. Сарры
Описание: В данной статье рассматривается извлечение информации о предметной области научных текстов, что является неотъемлемой частью задачи выделения важных терминов. В качестве предметной области была выбрана область, связанная с извлечением данных из текстов, большинство терминов которой являются не однословными.
Источник: Материалы VI международной научно-практической конференции молодых ученых, аспирантов, студентов «Современная информационная Украина: информатика, економика, философия», ИИИИ ДонНТУ, 26.04.2012.
Тематические статьи
- Развитие
средств аналитической обработки текста
в системе ИСИДА-Т
Авторы: Д.А. Александровский, Д.А. Кормалев, М.С. Кормалева, Е.П. Куршев, Е.А. Сулейманова, И.В. Трофимов
Описание: Ключевыми компонентами систем извлечения информации из текста и ее аналитической обработки являются средства описания контекста целевой информации (язык правил) и средства описания и использования знаний о предметной области (ресурсы знаний). Статья посвящена развитию этих компонентов (на основе реализации в системе ИСИДА-Т).
- Лексико-синтаксические
шаблоны для автоматического анализа
научно-технических текстов
Авторы: Е.И. Большакова, Н.Э. Васильева, С.С. Морозов
Описание: Рассматриваются лексико-фразеологические и дискурсивные особенности текстов научно-технического стиля, которые следует учесть при разработке процедур автоматической обработки текстов. Характеризуются разрабатываемые словарные средства, отражающие указанные особенности: компьютерный словарь общенаучной речи и лексико-синтаксические шаблоны типичных фраз. Кратко описываются составные элементы и язык записи шаблонов, а также методика их разработки.
- Модель
извлечения фактов из естественно-языковых текстов и метод ее обучения
Авторы: А.М.Андреев, Д.В. Березкин, К.В. Симаков
Описание: В статье изложена модель извлечения фактов из естественно-языковых текстов и метод ее обучения. Ключевым элементом модели является набор правил извлечения. Метод обучения генерирует набор правил на основе обучающих примеров подготовленных человеком. Проведен ряд экспериментов, дана оценка зависимости основных показателей качества обученной модели от свойств исходной обучающей выборки.
- Реализация
ресурса знаний в системе извлечения информации из текста
Авторы: Д.А. Александровский, Д.А. Кормалев, Е.П. Куршев, Е.А. Сулейманова, И.В. Трофимов
Описание: Задача извлечения информации из текста состоит в автоматической обработке документов с целью распознавания и выделения релевантной информации и представления ее в структурированной форме. Практически в любой предметной области для точного извлечения требуются априорные знания о ней — знания о понятиях, объектах и отношениях, связанных с целями извлечения или являющихся целями. В свою очередь, извлеченная из текстов информация может нести в себе новые знания о предметной области и быть полезна для дальнейшего извлечения. Тесная связь между априорной и извлеченной информацией, а также между предметными и лингвистическими знаниями сформировала потребность в унификации средств представления. В статье рассматривается интегрированный ресурс знаний (РЗ) системы извлечения информации, объединяющий базу предметных знаний и словарь.
- Оценка
систем извлечения информации из текстов на естественном языке: кто
виноват, что делать
Авторы: В. Ф. Хорошевский
Описание: В работе обсуждаются метрики для оценки качества функционирования систем извлечения информации из текстов на естественном языке, приводится краткая история вопроса, перечисляются основные требования к таким метрикам и на основе сформулированных требований предлагается новая система метрик, которая должна дать более точное представление о возможностях систем и инструмент для корректного их сравнения. Приводятся основные результаты использования предложенных метрик для оценки качества функционирования систем семейства OntosMiner.
Источник: http://www.raai.org/resurs/papers/kii-2006/doklad/Khoroshevsky.rar
- Обобщение
и специализация при построении правил извлечения информации
Авторы: Д.А. Кормалев
Описание: Методы символьного машинного обучения — перспективный подход к автоматическому построению правил извлечения информации из текста. Основные операции, на которые опираются эти методы — обобщение и специализация. В работе рассмотрены особенности этих двух операций при построении правил извлечения информации.
Источник: www.raai.org/resurs/papers/kii-2006/doklad/Kormalev.doc
- Автоматическое
выделение терминов из текстов предметных областей и установление связей
между ними
Авторы: Д.С. Новикова
Описание: В настоящей работе приведен краткий обзор наиболее интересных подходов и методов в области автоматического выделения терминов.
Источник: http://conf.sci.pfu.edu.ru/index.php/ittmm/2012/paper/view/245
- Метод
автоматизированного извлечения знаний из слабоструктурированных
источников и его применение для создания кис
Авторы: Д.В. Березкин
Описание: В настоящее время в связи с постоянным ростом информации глобальной сети Интернет необходимо развитие технологий, позволяющих использовать ее для решения различных производственных задач предприятий и организаций. Потребность в этом испытывают все пользователи, начиная от простых людей и кончая специалистами крупных компаний, отвечающими за формирование информационных источников. В связи с этим подавляющее большинство корпоративных информационных систем (КИС) предусматривают подключение своих пользователей к Интернету с соблюдением различных механизмов безопасности. Современные КИС в большинстве случаев строятся с использованием WEB-технологий и представляют собой Интранет-системы. Для больших компаний количество информации, распределенной на различных разнородных источниках во внутренней сети, настолько велико, что здесь возникают проблемы, схожие с теми, которые испытывает Интернет.
Источник: www.raai.org/resurs/papers/kolomna2009/doklad/Berezkin.doc
- Операции
над описаниями концептов с использованием интегрированного подхода к
представлению знаний
Авторы: В.М. Трембач
Описание: Знания об окружающей действительности все шире используются в компьютерных технологиях для решения задач в различных областях человеческой деятельности: промышленности, науке, здравоохранении, образовании, военном деле и др.. Созданные, к настоящему времени, и используемые методы представления знаний имеют ряд недостатков [2,4,6], что влияет на возможности представления предметных областей и сужает множество допустимых операций над описаниями элементов действительности. С учетом расширения множества различных задач, требующих решения с использованием компьютерных технологий, повышаются требования, как к методам представления знаний, так и к методам их эффективного использования. В статье рассматриваются операции над описаниями концептов с использованием интегрированного подхода к представлению знаний.
Источник: www.raai.org/resurs/papers/kolomna2009/doklad/Trembach.doc
- Вычислительно эффективный
алгоритм для извлечения информации и Интернет-обзора.
Авторы: Boris Kraychev, Ivan Koychev
Перевод: Н.А. Сарры
Описание: Сокращенный перевод статьи посвящена описанию вычислительно эффективного алгоритма извлечения информации из интернет-обзоров
Источник (англ.): http://dse.fmi.uni-sofia.bg/SmartBook/docs/52-kraychev.pdf