J Lynn Fink, Pablo Fernicola, Rahul Chandran, Savas Parastatidis, Alex Wade, Oscar Naim, Gregory B Quinn и Philip E Bourne. Словесная надстройка для распознавания онтологии: семантическое обогащение научной литературы.

Словесная надстройка для распознавания онтологии: семантическое обогащение научной литературы.

J Lynn Fink, Pablo Fernicola, Rahul Chandran, Savas Parastatidis, Alex Wade, Oscar Naim, Gregory B Quinn и Philip E Bourne

Общие сведения

В нынешнюю эпоху научных исследований, эффективность обмена информацией имеет первостепенное значение. Ученым давно известен факт связанный с неудобством экспоненциального роста цифровых архивов литературы и непропорционального роста инструментов эффективного анализа данных. Это в настоящее время основные усилия в сообществе биоинформатики направлены на автоматизацию извлечения знаний из литературы [1,2]. Автоматизированное извлечение знаний имеет решающее значение для исследований 21 века. С учетом того, что исследования становятся все более междисциплинарный, необходимо облегчить ориентацию, поддерживать перевод естественного языка информации квантов, и поддерживать усилия по интеграции данных [3-5] . В связи с этим, естественные учения и научные сообщества меняются; киберинфраструктура сейчас абсолютно необходима, новые средства массовой информации позволяют информации и знаниями, быть более интерактивными и оперативными [6,7].

Хотя эта революция в научной коммуникации была неизбежна, подход к этому решению не развивался такими же темпами. Многие основные инструменты для оказания помощи в извлечении знаний из литературы существуют и сейчас (например, киберинфраструктура, электронные базы данных, онтологии и машиночитаемые стандарты документов), но научное сообщество эффективно их использует только в больших масштабах. Semantic Web - расширение World Wide Web, который позволяет более полноценно использовать электронные ресурсы через автоматизированные процессы - это идеальная платформа для этих условий [8-10], но есть существенный пробел, не позволяющий быть мостом между поставщиками и пользователями информации и информационными структурами. В недавнем обзоре Кралингер, Валенсии и Хитчман подвели текущие проблемы и, как следствие нашли им применение в биологических науках, которые пытаются преодолеть этот разрыв [11]. Рутенберн как соавтор обсудил деятельность семантического Web здравоохранения и наук о жизни Interest Group (HCLSIG), которая направлена на изучение и разрешения Semantic Web в биомедицинской области [5].

Одним из примечательных нововведений является создание и применение онтологий - характеристик лиц, их атрибутов и связей с другими лицами в определенной области. Онтологии составляют основу перевода естественного языка в квантованную, стандартизированную информацию. В области биологических наук, онтологии стали настолько популярны, что было высказано предположение, что их распространение растет в тандеме с биологическими данными [12,13]. Учитывая, что создание онтологий может потребовать годы работы большого коллектива специалистов, эта популярность подчеркивает важность данных усилий. Генная Онтология в частности, в настоящее время широко используется в аннотациях многих биологических баз данных [14]. Тем не менее, надежная передача онтологических терминов для лица внутри одной из этих баз данных требует ручной проверки экспертов-биокураторов – это медленный процесс, который плохо измеряется на нынешнем уровне результатов исследований [15].

Особенно выгодно использование онтологий при применении их к научной литературе, с целью автоматически выявлять, или выводить, термины одной или нескольких онтологий в тексте документа. Несколько групп внесли значительный вклад, хотя каждый метод и имеет ограниченную точность (см. [1,2,15-21] в течение нескольких примерах). Другой такой сложной проблемой, является невозможность создания этих данных легко доступными и полезными. В настоящее время результаты проектов автоматизированной аннотации литературы распространенных среди нескольких баз данных и веб-сайтов и не имеют единого метода хранения или распространения этих данных. Обоими авторами и издателями были приняты два хороших подхода, по крайней мере, частично, решающих поставленную проблему. Издательская группа Королевского общества химии в проекте Prospect1 использовала семантическое обогащенные всех статей, опубликованных в журналах в машиночитаемого типа. Выигранная Проектом ALPSP / Charlesworth премия за публикацию инноваций в 2007 году, является сильным показателем интереса общественности, так как жюри представлено не только издателями, но и учеными и библиотекарями. Аналогичный подход к одной статье был предпринят Биоинформатикалс в сотрудничестве с первоначальными авторами статьи, и служит элегантным примером того, как много можно получить семантическое обогащение и авторское курирование [22,23]. Оба этих подхода используют свои собственные синтаксические разметки.

Эти проекты свидетельствуют о необходимости и возможности, семантического обогащения, однако существует заметный недостаток инструментов, которые помогают авторам в этих усилиях. Существующие проекты были разработаны для конкретных групп пользователей или очень специфических приложений и, как правило, не доступны для использования или изменения. Существуют и другие, такие, как домен-агностик Semantic MediaWiki extension2 и WYSIWYM [24,25], а также биомедицинская OnTheFly [26], но в них отсутствует простота использования, гибкость, расширяемость, или возможность предоставить автору опосредованное курирование.

Как сообщество, мы, безусловно, достигли прогресса в автоматизированных подходах для вывода и присвоения семантических данных в литературе. Однако этот процесс, скорее всего, никогда не будет абсолютно точным и полным. Есть три момента, с которыми согласны практически все исследователи, заинтересованные в этих разработках: 1) добавление семантических данных в научные статьи, является весьма полезным (на самом деле необходимо для семантического пути Web), 2) точный и полный вывод из этих данных без некоторого человека, курирующего эксперта, в настоящее время невозможен, и 3) точное и полное выведение этих данных после того, как документ был открыт для широкого доступа, остается неразрешимой проблемой. Для решения этих проблем, мы должны убедить авторов обогатить семантическими данными свои статьи до публикации или распространения. Слово-надстройка, представленное здесь, поможет авторам этой работы следовать общественным стандартам и, сделает возможным для автора документа, абсолютного эксперта по содержанию, выполнить это в процессе разработки и предоставления этой информации в оригинале документа.

Результаты

Слово-надстройка для распознавания онтологических терминов позволяет автору добавлять семантические данные в документ сразу при написании и кодировать эти данные с помощью XML-тегов, которые фактически являются стандартом в жизни науной литературы. Одобрения авторами выполнения разметки своих работ, будет способствовать увеличению количества и качества машиночитаемых метаданных в литературе. Надстройка способна одновременно распознавать термины из нескольких онтологий, поэтому авторы могут использовать столько, сколько посчитают необходимо, для лучшего освещения своей темы. В случае, когда в текущей онтологии присутствует термин, но он не распознается надстройкой, из-за того, что не совпадает с используемыми автором терминами, автор может выбрать слово или фразу, которые будут строго применяться к соответствующему онтологическому термину в этому тексте. Это позволяет проводить семантическую разметку, сохраняя при этом гибкость письменности и присущие ей нюансы.

Надстройка облегчает поиск соответствующих терминов через онтологический обозреватель. Обозреватель позволяет автору искать онтологии по слову или фразе, и, в случае обнаружения результата, отображать их в виде онтологической иерархии. Это обеспечивает контекст для терминов внутри онтологий, поэтому автор может сделать более обоснованные оценки этого термина. Также авторм может перемещаться по иерархии для изучения смежных терминов в более общих или более конкретных концепциях. Важно заметить, что терминов с несколькими родителями не будут полностью отображены, в иерархии используется только один родитель. NCBO имеет более сложные системы поиска и визуализации, что может быть использовано автором, если его концепция является особенно сложной. Автор может посетить веб-сайт NCBO BioPortal и найти все онтологии по ключевым словам. В результате будут отображены соответствующие термины и онтологии, в которых они присутствуют; каждый из терминов может быть исследован в рамках своей онтологии. Если термин относится к онтологии, которая еще не была выбрана в надстройке, эта онтология может быть добавлена через конфигурационную панель. Любопытно, что термином может быть осуществлен переход в InfoPane и применен к искомому слову или фразе в документе.

Выводы

Трудностей, связанных с попытками добавления семантической разметки большое количество, и это надстройка не решит их все. Хотя мы считаем, что это значительный шаг вперед, он также отмечает некоторые наиболее трудные задачи (см. [33] освещающие обсуждения).
Использование онтологий является весомым шагом в поиске эффективного контроллера словаря терминов распознавания естественного языка. Эти онтологии представляют собой огромное количество опыта и тщательного рассмотрения широкого диапазона областей. Однако они не были созданы для автоматического распознавания терминов, поэтому неудивительно, что они не идеально подходят для этого приложения.

Желаемой целью в создании онтологии является включение однозначных терминов - терминов, которые являются однозначным и точным. Например, болезнь человека Ontology3 содержит термин «лейкоз, Т-клетки, HTLV-II-Associated", который является очень точным и описательный, но вряд ли будет использован дословно в записях, и, таким образом, скорее всего, не будет распознан строчным или шаблонным подходом. Для распознавания этого термина, создатели онтологии имеют различные подходы, поэтому большинство онтологий назначает синонимы, для предпочтительного использования термина. Эти синонимы могут быть использованы в дополнение к предпочтительным терминам, что увеличить шанс успешного получения семантически важных слов. Например, синонимы для вышеупомянутого термина «атипичный волосатый клеточный лейкоз (дизорганизация),"более естественный и простой для автоматического распознавания, но настоящие документы, посвященные этой болезни используют «волосатый клеточный лейкоз», «волосатый-клеточный лейкоз»,«волосатый лейкоз Т» и «Т-клеточной лейкемии волосатый", термины, которые не включены в список синонимов онтологии [34-38]. "Волосатый клеточный лейкоз" является отдельным (не специальным) термином в этой онтологии, пораждающий не только "лейкоз, Т-клетки, HTLV-II-Associated", но и 12 других различных лейкозов.

Есть случаи, когда это не всегда желательно использовать такие точные термины при записях. Общие понятия, часто необходимо, например, для термина "лейкемия" из Онтологии Болезни Человека. Однако, когда термин является менее точным он может иметь различные концептуальные смыслы. Онтология Болезней Человека и Онтология Истории Охраны Здоровья Семьи [39] содержат термин "лейкемия", но обнаруживает его альтернативно как болезнь и как медицинскую диагностику – это тонкие, но потенциально значительные, различия. Несмотря на то, надстройка позволяет автору связать любое слово или фразу с определенным термином онтологии, для этого требуется дополнительный шаг автора (по крайней мере один раз в документе).

Вместо того чтобы подключать альтернативные онтологии для решения этих проблем, можно адаптировать существующую онтологию путем включения дополнительного набора синонимов термина, отображающих его применение в естественном языке. Автоматизированный поиск из этих синонимов в имеющейся литературе возможен (если не совсем точно), при использовании эвристических подходов [40]. Синонимы найденные таким способом, или собранные от термина-отображения базы данных [41-44], могут быть использованы в качестве дополнения к онтологии. Включение более сложных подходов распознавания терминов, такие как нормализация терминов, или других эвристических правил, (например, [45-49]), в надстройке, вероятно, приведет к значительному улучшению.

Несмотря на автоматизированный подход распознавания, человеческая неоднозначность терминов и синонимов, будет по-прежнему требовать участия автора, для того, чтобы предполагаемое значение было передано точно. Даже профессиональные биокураторы не всегда согласны на наиболее подходящие терминами, чтобы назначить их в статье [50]. Для автора, не знакомого с онтологиями или курированием литературы, первичный процесс определения семантически важных слов и фраз в рукописи, и их описание подходящими семантическими терминами, может оказаться слишком сложной задачей, по крайней мере, без ясных руководств от предполагаемого получателя рукописи [51-53]. Эти трудности могут возрасти, если соавторы рукописи не согласен с используемыми терминами. Инициативы как ODIE4 показывают, что установление обратной связи между разработчиками онтологии и ее пользователями часто приводит к открытию новых, соответствующих терминов, пригодных для добавления к существующей онтологии. Разработчики онтологий из Генных Онтологий, например, выразили заинтересованность в создании такой системы в рамках этой надстройки, и мы намерены исследовать это в будущих версиях. В идеале, мы хотели бы также, иметь возможность включать распознавание и маркировку отношений между терминами, но это отдельная задача, которая выходит за рамки данного проекта.

И хотя трудности семантического обогащения литературы до сих пор не решены, мы считаем, что надстройка является значительным шагом вперед, и что она может обеспечить необходимый стимул к занятию исследованиями за пределами сообщества биоинформатики. Важно отметить, что эта надстройка может корректно работать с Article Authoring add-in5 который преобразует .DOCX рукописи в XML format6 Национальной Библиотеки Медицины необходимого для размещения статьи в PubMed Central и используемого во многих научных издательствах. Совместное использование этих надстроек создаст документ, который поддерживает добавленные автором семантические метаданные, и может быть включен непосредственно в эти процессы без каких-либо дополнительных усилий со стороны издателей или архивов. Обратная связь в процессе практического применения широкой и большой пользовательской базы поможет определить любые барьеры на пути общего пользования и будут определять дизайн интерфейса, который может привести к снижению этих барьеров. Никто хочет тратить еще больше времени и усилий на написание или набор документов, но если эти усилия привели к ссылке на документ из базы данных или другого ресурса, авторы, скорее всего, будут вознаграждены.

Литература

1. Krallinger M, Morgan A, Smith L, Leitner F, Tanabe L, Wilbur J, Hirschman L, Valencia A: Evaluation of text-mining systems for biology: overview of the Second BioCreative community challenge.

Genome biology 2008, 9(Suppl 2):S1. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text

2. Hirschman L, Yeh A, Blaschke C, Valencia A: Overview of BioCreAtIvE: critical assessment of information extraction for biology.

BMC bioinformatics 2005, 6(Suppl 1):S1. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text

3. Zerhouni EA: Clinical research at a crossroads: the NIH roadmap.

J Investig Med 2006, 54(4):171-173. PubMed Abstract | Publisher Full Text

4. Zerhouni E: Medicine. The NIH Roadmap.

Science (New York, NY) 2003, 302(5642):63-72.

5. Ruttenberg A, Clark T, Bug W, Samwald M, Bodenreider O, Chen H, Doherty D, Forsberg K, Gao Y, Kashyap V, et al.: Advancing translational research with the Semantic Web.

BMC bioinformatics 2007, 8(Suppl 3):S2. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text

6. Fink L, Bourne P: Reinventing Scholarly Communication for the Electronic Age.

CTWatch Quarterly 2007., 3(3):

7. Lynch C: The Shape of the Scientific Article in The Developing Cyberinfrastructure.

CTWatch Quarterly 2007., 3(3):

8. Berners-Lee T, Hall W, Hendler J, Shadbolt N, Weitzner DJ: Computer science. Creating a science of the Web.

Science (New York NY) 2006, 313(5788):769-771.

9. Berners-Lee T, Hendler J, Lassila O: The Semantic Web.

Scientific American Magazine 2001.

10. Mukherjea S: Information retrieval and knowledge discovery utilising a biomedical Semantic Web.

Brief Bioinform 2005, 6(3):252-262. PubMed Abstract | Publisher Full Text

11. Krallinger M, Valencia A, Hirschman L: Linking genes to literature: text mining, information extraction, and retrieval applications for biology.

Genome biology 2008, 9(Suppl 2):S8. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text

12. Rubin DL, Shah NH, Noy NF: Biomedical ontologies: a functional perspective.

Brief Bioinform 2008, 9(1):75-90. PubMed Abstract | Publisher Full Text

13. Supekar K, Rubin D, Noy N, Musen M: Knowledge Zone: a public repository of peer-reviewed biomedical ontologies.

Stud Health Technol Inform 2007, 129(Pt 1):812-816. PubMed Abstract | Publisher Full Text

14. Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, et al.: Gene ontology: tool for the unification of biology. The Gene Ontology Consortium.

Nature genetics 2000, 25(1):25-29. PubMed Abstract | Publisher Full Text

15. Bourne PE, McEntyre J: Biocurators: contributors to the world of science.

PLoS computational biology 2006, 2(10):e142. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

16. Doms A, Schroeder M: GoPubMed: exploring PubMed with the Gene Ontology.

Nucleic acids research 2005, (33 Web Server):W783-786. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

17. Vanteru BC, Shaik JS, Yeasin M: Semantically linking and browsing PubMed abstracts with gene ontology.

BMC Genomics 2008, 9(Suppl 1):S10. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text

18. Chen D, Muller HM, Sternberg PW: Automatic document classification of biological literature.

BMC bioinformatics 2006, 7:370. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text

19. Muller HM, Kenny EE, Sternberg PW: Textpresso: an ontology-based information retrieval and extraction system for biological literature.

PLoS biology 2004, 2(11):e309. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

Yesilada Y, Bechhofer S, Horan B: COHSE: Dynamic Linking of Web Resources. Sun Microsystems TR-2007-167. In vol. Sun Microsystems TR-2007-167. Sun Microsystems; 2007.

20. Fink J, Kushch S, Williams P, Bourne P: BioLit: Integrating Biological Literature with Databases.

Nucleic acids research 2008., 36(11): PubMed Abstract | Publisher Full Text | PubMed Central Full Text

21. Reis RB, Ribeiro GS, Felzemburgh RD, Santana FS, Mohr S, Melendez AX, Queiroz A, Santos AC, Ravines RR, Tassinari WS, et al.: Impact of environment and social gradient on leptospira infection in urban slums.

PLoS Negl Trop Dis 2008, 2(4):e228. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

22. Shotton D, Portwin K, Klyne G, Miles A: Adventures in semantic publishing: exemplar semantic enhancements of a research article.

PLoS computational biology 2009, 5(4):e1000361. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

23. Dingley A, Shabajee P: Today's Authoring Tools for Tomorrow's Semantic Web. In Museums and the Web 2002: 2002; Boston Massachusetts, USA. Archives & Museum Informatics; 2002.

24. Power R: Towards a Generation-Based Semantic Web Authoring Tool.

12th European Workshop on Natural Language Generation: 2009; Athens, Greece 2009.

25. Pavlopoulos GA, Pafilis E, Kuhn M, Hooper SD, Schneider R: OnTheFly: a tool for automated document-based text annotation, data linking and network generation.

Bioinformatics (Oxford, England) 2009, 25(7):977-978. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

26. Rubin DL, Lewis SE, Mungall CJ, Misra S, Westerfield M, Ashburner M, Sim I, Chute CG, Solbrig H, Storey MA, et al.: National Center for Biomedical Ontology: advancing biomedicine through structured organization of scientific knowledge.

OMICS 2006, 10(2):185-198. PubMed Abstract | Publisher Full Text

27. Boutet E, Lieberherr D, Tognolli M, Schneider M, Bairoch A: UniProtKB/Swiss-Prot: The Manually Annotated Section of the UniProt KnowledgeBase.

Methods Mol Biol 2007, 406:89-112. PubMed Abstract | Publisher Full Text

28. Wheeler DL, Barrett T, Benson DA, Bryant SH, Canese K, Chetvernin V, Church DM, Dicuccio M, Edgar R, Federhen S, et al.: Database resources of the National Center for Biotechnology Information.

Nucleic acids research 2008, (36 Database):D13-21. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

29. Benson D, Boguski M, Lipman D, Ostell J: The National Center for Biotechnology Information.

Genomics 1990, 6(3):389-391. PubMed Abstract | Publisher Full Text

30. Sahoo SS, Bodenreider O, Zeng K, Sheth A: An Experiment in Integrating Large Biomedical Knowledge Resources with RDF: Application to Associating Genotype and Phenotype Information. In Health Care and Life Sciences Data Integration for the Semantic Web: 2007. Banff, Alberta, Canada; 2007.

31. Belleau F, Nolin MA, Tourigny N, Rigault P, Morissette J: Bio2RDF: towards a mashup to build bioinformatics knowledge systems.

J Biomed Inform 2008, 41(5):706-716. PubMed Abstract | Publisher Full Text

32. Altman RB, Bergman CM, Blake J, Blaschke C, Cohen A, Gannon F, Grivell L, Hahn U, Hersh W, Hirschman L, et al.: Text mining for biology--the way forward: opinions from leading scientists.

Genome biology 2008, 9(Suppl 2):S7. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text

33. Feuer G, Green PL: Comparative biology of human T-cell lymphotropic virus type 1 (HTLV-1) and HTLV-2.

Oncogene 2005, 24(39):5996-6004. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

34. Mahieux R, Pise-Masison CA, Nicot C, Green P, Hall WW, Brady JN: Inactivation of p53 by HTLV type 1 and HTLV type 2 Tax trans-activators.

AIDS Res Hum Retroviruses 2000, 16(16):1677-1681. PubMed Abstract | Publisher Full Text

35. Wang TG, Ye J, Lairmore MD, Green PL: In vitro cellular tropism of human T cell leukemia virus type 2.

AIDS Res Hum Retroviruses 2000, 16(16):1661-1668. PubMed Abstract | Publisher Full Text

36. Pozzato G, Mazzaro C, Santini G, Burrone O: Hepatitis C virus and non-Hodgkin's lymphomas.

Leuk Lymphoma 1996, 22(1-2):53-60. PubMed Abstract

37. Fouchard N, Flageul B, Bagot M, Avril MF, Hermine O, Sigaux F, Merle-Beral H, Troussard X, Delfraissy JF, de The G, et al.: Lack of evidence of HTLV-I/II infection in T CD8 malignant or reactive lymphoproliferative disorders in France: a serological and/or molecular study of 169 cases.

Leukemia 1995, 9(12):2087-2092. PubMed Abstract

38. Peace J, Brennan PF: Ontological representation of family and family history.

AMIA Annu Symp Proc 2007, 1072. PubMed Abstract

39. McCrae J, Collier N: Synonym set extraction from the biomedical literature by lexical pattern discovery.

BMC bioinformatics 2008, 9:159. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text

40. Wren JD, Chang JT, Pustejovsky J, Adar E, Garner HR, Altman RB: Biomedical term mapping databases.

Nucleic acids research 2005, (33 Database):D289-293. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

41. Zhou W, Torvik VI, Smalheiser NR: ADAM: another database of abbreviations in MEDLINE.

Bioinformatics (Oxford, England) 2006, 22(22):2813-2818. PubMed Abstract | Publisher Full Text

42. Okazaki N, Ananiadou S: Building an abbreviation dictionary using a term recognition approach.

Bioinformatics (Oxford, England) 2006, 22(24):3089-3095. PubMed Abstract | Publisher Full Text

43. Gaudan S, Kirsch H, Rebholz-Schuhmann D: Resolving abbreviations to their senses in Medline.

Bioinformatics (Oxford, England) 2005, 21(18):3658-3664. PubMed Abstract | Publisher Full Text

44. Mani I, Hu Z, Jang SB, Samuel K, Krause M, Phillips J, Wu CH: Protein name tagging guidelines: lessons learned.

Comp Funct Genomics 2005, 6(1-2):72-76. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

45. Schuemie MJ, Mons B, Weeber M, Kors JA: Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification.

J Biomed Inform 2007, 40(3):316-324. PubMed Abstract | Publisher Full Text

46. Settles B: ABNER: an open source tool for automatically tagging genes, proteins and other entity names in text.

Bioinformatics (Oxford, England) 2005, 21(14):3191-3192. PubMed Abstract | Publisher Full Text

47. Tanabe L, Wilbur WJ: Tagging gene and protein names in biomedical text.

Bioinformatics (Oxford, England) 2002, 18(8):1124-1132. PubMed Abstract | Publisher Full Text

48. Tsuruoka Y, McNaught J, Ananiadou S: Normalizing biomedical terms by minimizing ambiguity and variability.

BMC bioinformatics 2008, 9(Suppl 3):S2. PubMed Abstract | BioMed Central Full Text | PubMed Central Full Text

49. Shatkay H, Pan F, Rzhetsky A, Wilbur WJ: Multi-dimensional classification of biomedical text: toward automated, practical provision of high-utility text to diverse users.

Bioinformatics (Oxford, England) 2008, 24(18):2086-2093. PubMed Abstract | Publisher Full Text | PubMed Central Full Text

50. Hahn U, Wermter J, Blasczyk R, Horn PA: Text mining: powering the database revolution.

Nature 2007, 448(7150):130. PubMed Abstract | Publisher Full Text

51. Ceol A, Chatr-Aryamontri A, Licata L, Cesareni G: Linking entries in protein interaction database to structured text: the FEBS Letters experiment.

FEBS Lett 2008, 582(8):1171-1177. PubMed Abstract | Publisher Full Text

52. Leitner F, Valencia A: A text-mining perspective on the requirements for electronically annotated abstracts.

FEBS Lett 2008, 582(8):1178-1181. PubMed Abstract | Publisher Full Text

53. Kitamura T, Kawamura Y, Ohkusu K, Masaki T, Iwashita H, Sawa T, Fujii S, Okamoto T, Akaike T: Helicobacter cinaedi cellulitis and bacteremia in immunocompetent hosts after orthopedic surgery.

J Clin Microbiol 2007, 45(1):31-38. PubMed Abstract | Publisher Full Text | PubMed Central Full Text