Источник (англ.): www.biomedcentral.com
Словесная надстройка для распознавания онтологии: семантическое обогащение научной литературы.
J Lynn Fink, Pablo Fernicola,
Rahul Chandran,
Savas Parastatidis,
Alex Wade, Oscar Naim,
Gregory B Quinn и
Philip E Bourne
Общие
сведения
В нынешнюю эпоху научных исследований,
эффективность обмена информацией имеет
первостепенное значение. Ученым давно
известен факт связанный с неудобством
экспоненциального роста цифровых архивов
литературы и непропорционального
роста инструментов эффективного анализа
данных. Это в настоящее время
основные усилия в сообществе биоинформатики
направлены на автоматизацию извлечения знаний из литературы [1,2]. Автоматизированное
извлечение знаний имеет решающее значение для исследований 21
века. С учетом того, что исследования становятся все более междисциплинарный, необходимо облегчить
ориентацию, поддерживать перевод
естественного языка информации квантов, и поддерживать усилия по интеграции данных [3-5] . В связи с этим, естественные
учения и научные сообщества меняются; киберинфраструктура сейчас
абсолютно необходима, новые средства
массовой информации позволяют информации
и знаниями, быть более интерактивными и оперативными [6,7].
Хотя эта революция в научной
коммуникации была неизбежна,
подход к этому решению не развивался такими же темпами. Многие основные инструменты для оказания помощи в извлечении знаний
из литературы существуют и сейчас
(например, киберинфраструктура,
электронные базы данных, онтологии и машиночитаемые
стандарты документов), но научное
сообщество эффективно их использует только в больших
масштабах. Semantic Web
- расширение World Wide Web, который позволяет более полноценно использовать электронные ресурсы
через автоматизированные процессы
- это идеальная платформа для этих условий [8-10], но есть существенный пробел, не позволяющий быть мостом
между поставщиками и пользователями
информации и информационными структурами.
В недавнем обзоре Кралингер,
Валенсии и Хитчман подвели текущие проблемы и, как следствие нашли им применение в биологических науках, которые пытаются преодолеть
этот разрыв [11]. Рутенберн как
соавтор обсудил деятельность семантического
Web здравоохранения
и наук о жизни Interest Group (HCLSIG),
которая направлена на изучение и разрешения Semantic Web в
биомедицинской области [5].
Одним из примечательных нововведений является создание и применение онтологий - характеристик лиц, их
атрибутов и связей с другими лицами в определенной области.
Онтологии составляют основу перевода естественного языка в квантованную, стандартизированную
информацию. В области
биологических наук, онтологии стали настолько популярны, что было высказано предположение, что их распространение
растет в тандеме с биологическими данными [12,13]. Учитывая, что создание онтологий
может потребовать годы работы большого коллектива специалистов, эта популярность подчеркивает
важность данных усилий. Генная
Онтология в частности, в настоящее время широко используется в аннотациях многих биологических баз
данных [14]. Тем не менее,
надежная передача онтологических терминов для лица внутри одной из этих баз данных требует ручной
проверки экспертов-биокураторов – это медленный процесс, который плохо измеряется на
нынешнем уровне результатов исследований
[15].
Особенно выгодно использование онтологий при применении их к научной литературе, с целью
автоматически выявлять, или выводить, термины одной
или нескольких онтологий в тексте
документа. Несколько групп внесли значительный вклад, хотя каждый метод
и имеет ограниченную точность (см. [1,2,15-21]
в течение нескольких примерах). Другой такой сложной проблемой, является невозможность создания этих
данных легко доступными и полезными. В настоящее время
результаты проектов автоматизированной
аннотации литературы распространенных среди нескольких баз данных и веб-сайтов и не имеют единого метода
хранения или распространения этих данных. Обоими авторами и издателями были
приняты два хороших подхода, по крайней мере, частично, решающих поставленную
проблему. Издательская группа Королевского общества химии
в проекте Prospect1 использовала семантическое
обогащенные всех статей, опубликованных
в журналах в
машиночитаемого типа. Выигранная Проектом
ALPSP / Charlesworth премия за публикацию инноваций в 2007 году, является сильным показателем интереса общественности, так как жюри представлено не только издателями, но и учеными и библиотекарями. Аналогичный подход к одной статье был предпринят Биоинформатикалс в
сотрудничестве с первоначальными авторами статьи, и служит элегантным
примером того, как много можно получить семантическое обогащение и авторское курирование
[22,23]. Оба этих подхода используют свои собственные синтаксические
разметки.
Эти проекты свидетельствуют о необходимости
и возможности, семантического обогащения,
однако существует заметный недостаток
инструментов, которые помогают авторам в
этих усилиях. Существующие проекты
были разработаны для конкретных групп
пользователей или очень
специфических приложений и, как правило, не доступны для использования
или изменения. Существуют и другие,
такие, как домен-агностик Semantic MediaWiki extension2 и WYSIWYM [24,25],
а также биомедицинская OnTheFly [26], но в них отсутствует простота использования,
гибкость, расширяемость, или возможность предоставить автору опосредованное курирование.
Как сообщество, мы, безусловно, достигли прогресса в автоматизированных
подходах для вывода и присвоения семантических данных в литературе. Однако этот процесс,
скорее всего, никогда не будет абсолютно
точным и полным. Есть три момента, с которыми согласны
практически все исследователи, заинтересованные в этих разработках: 1) добавление семантических данных в научные
статьи, является весьма полезным (на
самом деле необходимо для
семантического пути Web), 2) точный и полный вывод из этих данных
без некоторого человека, курирующего
эксперта, в настоящее время невозможен,
и 3) точное и полное выведение этих данных после того, как документ был открыт
для широкого доступа, остается неразрешимой проблемой. Для решения этих проблем, мы
должны убедить авторов обогатить семантическими данными свои статьи до публикации или распространения. Слово-надстройка, представленное здесь,
поможет авторам этой
работы следовать общественным стандартам и,
сделает возможным для автора документа,
абсолютного эксперта по содержанию,
выполнить это в процессе разработки
и предоставления этой информации в оригинале документа.
Результаты
Слово-надстройка для распознавания онтологических терминов позволяет автору
добавлять семантические данные в документ сразу при написании и кодировать эти данные с
помощью XML-тегов, которые фактически
являются стандартом в жизни науной
литературы. Одобрения авторами
выполнения разметки своих работ, будет
способствовать увеличению количества и качества машиночитаемых метаданных в литературе. Надстройка способна
одновременно распознавать термины из нескольких онтологий, поэтому
авторы могут использовать столько, сколько посчитают необходимо, для лучшего освещения
своей темы. В случае, когда в текущей онтологии
присутствует термин, но он не
распознается надстройкой, из-за того, что не совпадает с используемыми
автором терминами, автор может выбрать слово
или фразу, которые будут строго применяться к соответствующему
онтологическому термину в этому тексте. Это
позволяет проводить семантическую разметку, сохраняя при этом гибкость
письменности и присущие ей нюансы.
Надстройка облегчает поиск
соответствующих терминов через онтологический обозреватель. Обозреватель позволяет автору
искать онтологии по
слову или фразе, и, в случае обнаружения результата, отображать их в виде онтологической
иерархии. Это обеспечивает контекст для терминов внутри онтологий, поэтому автор может сделать более обоснованные оценки этого термина. Также авторм
может перемещаться по иерархии
для изучения смежных терминов в более общих
или более конкретных концепциях. Важно заметить, что терминов с
несколькими родителями не будут полностью отображены, в иерархии
используется только один родитель. NCBO
имеет более сложные системы поиска и визуализации, что может быть использовано автором, если его
концепция является особенно сложной.
Автор может посетить веб-сайт NCBO BioPortal
и найти все онтологии
по ключевым словам. В результате будут
отображены соответствующие термины и онтологии, в которых они присутствуют; каждый
из терминов может быть исследован в рамках своей
онтологии. Если термин
относится к онтологии, которая еще не была выбрана в надстройке,
эта онтология может
быть добавлена через
конфигурационную панель. Любопытно, что
термином может быть осуществлен переход в InfoPane и применен к искомому слову или фразе в документе.
Выводы
Трудностей, связанных с попытками
добавления семантической разметки
большое количество, и это надстройка
не решит их все. Хотя
мы считаем, что это значительный шаг вперед, он
также отмечает некоторые наиболее
трудные задачи (см. [33] освещающие
обсуждения).
Использование онтологий является весомым шагом в поиске эффективного контроллера словаря терминов распознавания естественного языка.
Эти онтологии представляют
собой огромное количество опыта и
тщательного рассмотрения широкого
диапазона областей. Однако они
не были созданы для автоматического
распознавания терминов, поэтому неудивительно,
что они не идеально подходят для этого
приложения.
Желаемой целью в создании онтологии является включение однозначных терминов -
терминов, которые являются однозначным и точным. Например, болезнь человека Ontology3 содержит термин «лейкоз, Т-клетки, HTLV-II-Associated", который является очень
точным и описательный, но вряд ли
будет использован дословно в записях, и, таким образом, скорее всего, не будет распознан
строчным или шаблонным подходом. Для распознавания этого термина, создатели онтологии имеют
различные подходы, поэтому большинство онтологий назначает синонимы, для
предпочтительного использования термина. Эти синонимы могут быть использованы в дополнение к предпочтительным терминам,
что увеличить шанс успешного получения
семантически важных слов. Например, синонимы
для вышеупомянутого термина «атипичный волосатый клеточный лейкоз (дизорганизация),"более естественный и простой для автоматического распознавания, но настоящие документы, посвященные этой болезни используют «волосатый клеточный лейкоз», «волосатый-клеточный лейкоз»,«волосатый лейкоз Т»
и «Т-клеточной лейкемии
волосатый", термины, которые
не включены в список синонимов онтологии [34-38]. "Волосатый
клеточный лейкоз" является
отдельным (не специальным)
термином в этой онтологии, пораждающий не
только "лейкоз, Т-клетки,
HTLV-II-Associated",
но и 12 других различных лейкозов.
Есть случаи, когда это не всегда желательно
использовать такие точные термины
при записях. Общие понятия, часто
необходимо, например, для термина
"лейкемия" из Онтологии Болезни Человека.
Однако, когда термин
является менее точным он может иметь
различные концептуальные смыслы. Онтология
Болезней Человека и Онтология Истории
Охраны Здоровья Семьи [39] содержат
термин "лейкемия", но обнаруживает его
альтернативно как болезнь и как медицинскую диагностику –
это тонкие, но потенциально значительные,
различия. Несмотря на то, надстройка позволяет автору
связать любое слово или фразу с
определенным термином онтологии,
для этого требуется дополнительный шаг
автора (по крайней мере
один раз в документе).
Вместо того чтобы подключать альтернативные
онтологии для решения этих проблем,
можно адаптировать существующую онтологию путем включения
дополнительного набора синонимов термина,
отображающих его применение в естественном языке. Автоматизированный
поиск из этих синонимов в имеющейся литературе возможен (если не совсем точно), при
использовании эвристических подходов
[40]. Синонимы найденные
таким способом, или собранные от термина-отображения базы данных [41-44], могут быть использованы в качестве дополнения к онтологии. Включение более сложных подходов распознавания терминов, такие как нормализация
терминов, или других эвристических правил, (например, [45-49]), в надстройке, вероятно, приведет к значительному
улучшению.
Несмотря на автоматизированный подход распознавания, человеческая неоднозначность терминов и синонимов, будет по-прежнему требовать участия автора,
для того, чтобы предполагаемое значение
было передано точно. Даже
профессиональные биокураторы
не всегда согласны на
наиболее подходящие терминами,
чтобы назначить их в статье [50]. Для
автора, не знакомого с онтологиями
или курированием литературы,
первичный процесс определения семантически
важных слов и фраз в рукописи, и их описание подходящими семантическими
терминами, может оказаться слишком
сложной задачей, по крайней мере,
без ясных руководств от предполагаемого
получателя рукописи [51-53]. Эти трудности могут возрасти, если соавторы рукописи не согласен
с используемыми терминами. Инициативы
как ODIE4 показывают, что установление обратной связи между разработчиками онтологии и
ее пользователями часто приводит к открытию новых, соответствующих терминов,
пригодных для добавления к существующей онтологии.
Разработчики онтологий из Генных Онтологий, например, выразили
заинтересованность в создании такой
системы в рамках этой надстройки,
и мы намерены исследовать это в будущих
версиях. В идеале, мы хотели бы
также, иметь возможность включать распознавание и маркировку отношений между терминами, но это отдельная задача, которая выходит за рамки
данного проекта.
И хотя трудности семантического обогащения литературы
до сих пор не решены, мы считаем, что надстройка является значительным шагом вперед, и
что она может обеспечить необходимый
стимул к занятию исследованиями
за пределами сообщества биоинформатики.
Важно отметить, что эта надстройка может корректно работать с Article Authoring
add-in5 который преобразует .DOCX рукописи в XML format6 Национальной Библиотеки Медицины
необходимого для размещения статьи в
PubMed Central и используемого
во многих научных издательствах.
Совместное использование этих надстроек
создаст документ, который
поддерживает добавленные автором семантические
метаданные, и может быть включен непосредственно в эти процессы
без каких-либо дополнительных усилий со
стороны издателей или архивов. Обратная связь в процессе практического применения широкой и большой
пользовательской базы поможет определить любые
барьеры на пути общего пользования и
будут определять дизайн интерфейса, который может привести к снижению
этих барьеров. Никто хочет тратить еще больше времени
и усилий на написание или набор документов,
но если эти усилия привели к ссылке на документ из
базы данных или другого ресурса, авторы, скорее
всего, будут вознаграждены.
Литература
1.
Krallinger M, Morgan A, Smith L, Leitner F, Tanabe L, Wilbur J, Hirschman L, Valencia A: Evaluation
of text-mining systems for biology: overview of the Second BioCreative
community challenge.
Genome biology 2008, 9(Suppl 2):S1. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text
2.
Hirschman L, Yeh A, Blaschke
C,
BMC bioinformatics 2005, 6(Suppl 1):S1. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text
3.
Zerhouni EA: Clinical
research at a crossroads: the NIH roadmap.
J Investig
Med
2006, 54(4):171-173. PubMed Abstract | Publisher Full
Text
4.
Zerhouni E: Medicine. The NIH
Roadmap.
Science (
5.
Ruttenberg A, Clark T, Bug W, Samwald M, Bodenreider O, Chen H,
Doherty D, Forsberg K, Gao Y, Kashyap V, et al.: Advancing translational
research with the Semantic Web.
BMC bioinformatics 2007, 8(Suppl 3):S2. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text
6.
Fink L, Bourne P: Reinventing Scholarly Communication for the
Electronic Age.
CTWatch Quarterly 2007.,
3(3):
7.
Lynch C: The Shape of the Scientific Article in The Developing Cyberinfrastructure.
CTWatch Quarterly 2007.,
3(3):
8.
Berners-Lee T, Hall W, Hendler J, Shadbolt N, Weitzner DJ: Computer
science. Creating a science of the Web.
Science (
9.
Berners-Lee T, Hendler J, Lassila
O: The Semantic Web.
Scientific
American Magazine 2001.
10.
Mukherjea S: Information
retrieval and knowledge discovery utilising a biomedical Semantic Web.
Brief Bioinform 2005, 6(3):252-262. PubMed Abstract | Publisher Full Text
11.
Krallinger M,
Genome biology 2008, 9(Suppl 2):S8. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text
12.
Rubin DL,
Brief Bioinform 2008, 9(1):75-90. PubMed Abstract | Publisher Full Text
13.
Supekar K, Rubin D, Noy N, Musen
M: Knowledge Zone: a public repository of peer-reviewed biomedical ontologies.
Stud Health Technol Inform 2007, 129(Pt 1):812-816. PubMed Abstract | Publisher Full Text
14.
Ashburner M,
Nature genetics 2000, 25(1):25-29.
PubMed Abstract | Publisher Full Text
15.
PLoS computational biology 2006, 2(10):e142.
PubMed Abstract | Publisher Full Text | PubMed Central Full Text
16.
Doms A, Schroeder M: GoPubMed: exploring PubMed
with the Gene Ontology.
Nucleic acids research 2005, (33 Web Server):W783-786.
PubMed Abstract | Publisher Full Text | PubMed Central Full Text
17.
BMC Genomics 2008, 9(Suppl 1):S10. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text
18.
Chen D, Muller HM, Sternberg PW: Automatic document classification of
biological literature.
BMC
bioinformatics 2006, 7:370. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text
19.
Muller HM, Kenny EE, Sternberg PW: Textpresso:
an ontology-based information retrieval and extraction system for biological
literature.
PLoS biology 2004, 2(11):e309.
PubMed Abstract | Publisher Full Text | PubMed Central Full Text
Yesilada Y, Bechhofer
S, Horan B: COHSE: Dynamic Linking of Web Resources. Sun
Microsystems TR-2007-
20.
Fink J, Kushch S, Williams P, Bourne P: BioLit: Integrating Biological Literature with
Databases.
Nucleic acids research 2008., 36(11):
PubMed Abstract | Publisher Full Text | PubMed Central Full Text
21.
Reis RB, Ribeiro GS,
PLoS Negl
Trop Dis 2008, 2(4):e228. PubMed Abstract | Publisher Full Text | PubMed Central Full Text
22.
Shotton D, Portwin
K, Klyne G, Miles A: Adventures
in semantic publishing: exemplar semantic enhancements of a research article.
PLoS computational biology 2009, 5(4):e1000361.
PubMed Abstract | Publisher Full Text | PubMed Central Full Text
23.
Dingley A, Shabajee
P: Today's Authoring Tools for Tomorrow's Semantic Web. In Museums
and the Web 2002: 2002;
24.
Power R: Towards a Generation-Based Semantic Web Authoring Tool.
12th European Workshop
on Natural Language Generation: 2009;
25.
Pavlopoulos GA, Pafilis
E, Kuhn M, Hooper SD, Schneider R: OnTheFly:
a tool for automated document-based text annotation, data linking and network
generation.
Bioinformatics (
26.
Rubin DL, Lewis SE, Mungall CJ, Misra S, Westerfield M, Ashburner M, Sim I, Chute CG, Solbrig H, Storey MA, et al.:
OMICS 2006, 10(2):185-198.
PubMed Abstract | Publisher Full Text
27.
Boutet E, Lieberherr
D, Tognolli M, Schneider M, Bairoch
A: UniProtKB/Swiss-Prot: The Manually
Annotated Section of the UniProt KnowledgeBase.
Methods Mol Biol 2007, 406:89-112. PubMed Abstract | Publisher Full Text
28.
Wheeler DL, Barrett T, Benson DA, Bryant SH, Canese
K, Chetvernin V, Church DM, Dicuccio
M, Edgar R, Federhen S, et al.: Database
resources of the
Nucleic acids research 2008, (36 Database):D13-21.
PubMed Abstract | Publisher Full Text | PubMed Central Full Text
29.
Benson D, Boguski M, Lipman
D, Ostell J: The
Genomics 1990, 6(3):389-391.
PubMed Abstract | Publisher
Full Text
30.
Sahoo SS, Bodenreider
O, Zeng K, Sheth A: An
Experiment in Integrating Large Biomedical Knowledge Resources with RDF:
Application to Associating Genotype and Phenotype Information. In Health
Care and Life Sciences Data Integration for the Semantic Web: 2007.
31.
Belleau F, Nolin
MA, Tourigny N, Rigault P, Morissette J: Bio2RDF: towards a mashup
to build bioinformatics knowledge systems.
J Biomed
Inform
2008, 41(5):706-716. PubMed Abstract | Publisher Full Text
32.
Altman RB, Bergman CM, Blake J, Blaschke C,
Cohen A, Gannon F, Grivell L, Hahn U, Hersh W, Hirschman L, et al.: Text mining for
biology--the way forward: opinions from leading scientists.
Genome biology 2008, 9(Suppl 2):S7. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text
33.
Feuer G,
Oncogene 2005, 24(39):5996-6004.
PubMed Abstract | Publisher Full Text | PubMed Central Full Text
34.
Mahieux R,
AIDS Res
Hum Retroviruses 2000, 16(16):1677-1681. PubMed Abstract | Publisher Full Text
35.
Wang TG, Ye J, Lairmore MD,
AIDS Res
Hum Retroviruses 2000, 16(16):1661-1668. PubMed Abstract | Publisher Full Text
36.
Pozzato G, Mazzaro
C, Santini G, Burrone O: Hepatitis
C virus and non-Hodgkin's lymphomas.
Leuk Lymphoma 1996, 22(1-2):53-60.
PubMed Abstract
37.
Fouchard N, Flageul
B, Bagot M, Avril MF, Hermine O, Sigaux F, Merle-Beral H, Troussard X, Delfraissy JF, de The G, et al.: Lack of evidence
of HTLV-I/II infection in T CD8 malignant or reactive lymphoproliferative
disorders in France: a serological and/or molecular study of 169 cases.
Leukemia 1995, 9(12):2087-2092.
PubMed Abstract
38.
Peace J, Brennan PF: Ontological representation of family and family
history.
AMIA
Annu Symp Proc 2007, 1072. PubMed Abstract
39.
McCrae J, Collier N: Synonym set extraction from the biomedical
literature by lexical pattern discovery.
BMC
bioinformatics 2008, 9:159. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text
40.
Wren JD, Chang JT, Pustejovsky J, Adar E,
Garner HR, Altman RB: Biomedical term mapping databases.
Nucleic acids research 2005, (33 Database):D289-293.
PubMed Abstract | Publisher Full Text | PubMed Central Full Text
41.
Zhou W, Torvik VI, Smalheiser NR: ADAM: another database of
abbreviations in MEDLINE.
Bioinformatics (
42.
Okazaki N, Ananiadou S: Building an
abbreviation dictionary using a term recognition approach.
Bioinformatics (
43.
Gaudan S, Kirsch H, Rebholz-Schuhmann D: Resolving
abbreviations to their senses in Medline.
Bioinformatics (
44.
Mani I, Hu Z,
Jang SB, Samuel K, Krause M, Phillips J, Wu CH: Protein
name tagging guidelines: lessons learned.
Comp Funct
Genomics
2005, 6(1-2):72-76. PubMed Abstract | Publisher Full Text | PubMed Central Full Text
45.
Schuemie MJ, Mons
B, Weeber M, Kors JA: Evaluation
of techniques for increasing recall in a dictionary approach to gene and
protein name identification.
J Biomed
Inform
2007, 40(3):316-324. PubMed Abstract | Publisher Full Text
46.
Settles B: ABNER: an open source tool for automatically tagging
genes, proteins and other entity names in text.
Bioinformatics (
47.
Tanabe L, Wilbur WJ: Tagging gene and protein names in biomedical
text.
Bioinformatics (
48.
Tsuruoka Y, McNaught
J, Ananiadou S: Normalizing biomedical terms by
minimizing ambiguity and variability.
BMC bioinformatics 2008, 9(Suppl 3):S2. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text
49.
Shatkay H, Pan F, Rzhetsky A, Wilbur WJ: Multi-dimensional classification
of biomedical text: toward automated, practical provision of high-utility text
to diverse users.
Bioinformatics (
50.
Hahn U, Wermter J, Blasczyk
R, Horn PA: Text mining: powering the database
revolution.
Nature 2007, 448(7150):130.
PubMed Abstract | Publisher Full Text
51.
Ceol A, Chatr-Aryamontri
A, Licata L, Cesareni G: Linking
entries in protein interaction database to structured text: the FEBS Letters
experiment.
FEBS Lett 2008, 582(8):1171-1177.
PubMed Abstract | Publisher Full Text
52.
Leitner F,
FEBS Lett 2008, 582(8):1178-1181.
PubMed Abstract | Publisher Full Text
53.
Kitamura T, Kawamura Y, Ohkusu K, Masaki T,
Iwashita H, Sawa T, Fujii
S, Okamoto T, Akaike T: Helicobacter cinaedi cellulitis and bacteremia in immunocompetent
hosts after orthopedic surgery.
J Clin
Microbiol 2007, 45(1):31-38. PubMed Abstract | Publisher Full Text | PubMed Central Full Text