LINNAEUS:生物医学文献的物种名称识别系统

(107) 2024-04-13 18:01:01

LINNAEUS:生物医学文献的物种名称识别系统LINNAEUS:生物医学文献的物种名称识别系统 (https://mushiming.com/)  第1张

背景

在生物医学文献中识别和识别物种名称的任务最近被认为对于文本和数据挖掘中的许多应用至关重要,包括基因名称识别、特定物种文档检索和生物医学文章的语义丰富。

结果

在本文中,我们描述了一个开源物种名称识别和规范化软件系统 LINNAEUS,并评估了它相对于几个自动生成的生物医学语料库的性能,以及一个新的为物种提及手动注释的全文文档语料库。LINNAEUS 使用基于字典的方法(实现为有效的确定性有限状态自动机)来识别物种名称和一组启发式方法来解决模棱两可的提及。与我们手动注释的语料库相比,LINNAEUS 在提及级别的召回率为 94% 和 97%,在文档级别的召回率为 98% 和 90%。我们的系统成功地解决了消除不确定物种提及的歧义问题,

结论

LINNAEUS 是一个开源、独立的软件系统,能够快速准确地识别和规范提及的物种名称,因此可以集成到一系列生物信息学和文本挖掘应用程序中。该软件和手动注释的语料库可以在http://linnaeus.sourceforge.net/上免费下载。

背景

可供研究人员使用的生物医学文献数量呈指数级增长,现在 MEDLINE 中提供了超过 1800 万篇文章条目,PubMed Central (PMC) 中免费提供了超过 100 万篇全文文章。这一庞大的信息资源为通过使用文本挖掘从这些生物医学文章中自动提取结构化信息提供了机会。目前正在执行各种各样的生物医学文本挖掘任务,例如实体识别(例如查找基因、蛋白质、疾病的提及)和分子关系的提取(例如蛋白质-蛋白质相互作用)。这些系统中有许多是以模块化方式构建的,并且依赖于其他文本挖掘应用程序的结果。例如,为了提取两种蛋白质之间的潜在相互作用,首先需要正确检测和识别蛋白质本身。

一种可以促进构建更复杂的文本挖掘系统的应用程序是准确的物种名称识别和规范化软件(即可以在文本中标记物种名称并将它们映射到唯一数据库标识符的软件)。例如,如果文档中讨论的物种和位置已知,它可以提供重要信息来指导其他实体(如基因)的识别、规范化和消除歧义 ,因为基因经常与它们的基因一起被提及。宿主物种。在最近的文本挖掘挑战中,例如在 BioCreative II 中识别蛋白质-蛋白质相互作用或在 BioNLP 共享任务中提取生物分子事件 ,一些小组认为物种识别和标准化是一项必不可少的子任务。同样,用于识别物种名称的改进方法可以帮助使用物种名称作为标识符来整合生物数据的管道。

除了可用于更复杂的文本挖掘和生物信息学应用之外,物种名称识别软件还可用于“分类智能信息​​检索”。可以根据文档中提到的物种来过滤文档搜索查询 ,为研究人员提供对文献搜索结果的更细粒度的控制。这个用例为简单的基于关键字的 PubMed 搜索提供了强大的扩展,因为一个物种的所有同义词都将被标准化为标准数据库标识符,因此可以被用作输入的任何同义词检索。目前可以在某种程度上通过在执行 PubMed 查询时指定医学主题词 (MeSH) 术语来完成。然而,基于 MeSH 的查询有局限性,因为 MeSH 标签集仅包含所有物种的一小部分。此外,语义增强(在文本中标记实体并将它们超链接到外部数据库)带有物种名称的研究文章可以使读者更容易获得有关研究生物的大量信息。生物文献中提及的物种的准确识别和规范化也将促进新兴的生物多样性信息学领域,该领域旨在开发关于物种和高阶分类单位的描述、丰度和地理分布的信息数据库 。

在生物医学文本中识别物种名称的任务提出了几个挑战 ,包括: (i) 物种名称模糊性:许多缩写的物种名称高度模糊(例如,“C. elegans”是 41 种不同物种的有效缩写) NCBI 分类中的物种)。还引入了歧义,因为名称可以指代不同的 NCBI 分类物种条目(例如,“大鼠”可以指代Rattus norvegicus或Rattus sp.)。(ii) 与常用词同音:一些物种常用名在一般英文文本中被广泛使用(例如,“Spot”代表Leiostomus xanthurus,“Permit”代表鲢鱼)。如果没有正确过滤,这些名称会引入大量误报。(iii) 首字母缩写词歧义:物种词典包含物种名称的首字母缩写词(例如HIV 代表人类免疫缺陷病毒),它可以指代多个物种或其他非物种实体。事实上,之前的研究表明,MEDLINE 中 81.2% 的首字母缩略词有不止一个扩展 。这提出了与识别首字母缩略词何时指代一个物种有关的挑战,如果是,当它指代几个时是哪个物种。(iv) 可变性:虽然物种词典涵盖了大量的学名、同义词甚至一些常见的拼写错误,但它们在术语使用的可变性方面无法与人类作者相匹配。在某些情况下,作者在提及物种时使用非标准名称、错误拼写名称或使用不正确的大小写。

尽管存在这些挑战,但已经进行了几次尝试,以使用一系列不同的文本挖掘方法来自动化物种名称识别和规范化的过程。以前在物种名称识别方面的努力可以大致分为两类:旨在识别生物多样性领域遗留文件中的物种名称的软件(例如生物多样性遗产图书馆 ),以及旨在识别当前生物医学文献中物种名称的软件(例如 MEDLINE 或 PubMed Central)。针对生物多样性领域的工具的主要目的是识别尽可能多的物种名称,其中许多物种名称尚未记录在现有的物种词典中。面向生物多样性的方法通常使用基于规则的方法,这些方法依赖于 Carl Linnaeus 采用的物种名称的二项式命名结构。通过利用命名约定的规律性,这些方法不必随着新字典版本的发布或物种名称的变化而更新或重新训练,并且可以应对生物多样性文献中可能存在的大量物种名称。但是,基于规则的方法通常无法识别常用名称(例如,黑腹果蝇遵循典型的物种名称结构,而“果蝇”则没有)。

TaxonGrab 就是这样一个基于规则的工具,它由许多基于正则表达式的规则组成。它使用英语词典查找所有不在通用语言词典中的单词,并根据字符大小写和术语顺序应用规则,以确定术语是否为物种名称。它是用 PHP 实现的,并且在开源许可下可用 。TaxonGrab 的性能很高(94% 的召回率,96% 的准确率),相对于鸟类分类学的单个 5000 页卷,但尚未在生物医学文章上进行评估。“查找所有分类单元名称”(FAT) 是一种与 TaxonGrab 相关的更复杂的提及级别方法,具有几个旨在提高召回率和精度的附加规则。FAT 在相同的评估集上报告比TaxonGrab更好的准确度(>99% 的召回率和准确率),并且可以通过 GoldenGate 文档标记系统访问。然而,重要的是要注意,这些方法的性能尚未针对数据库标识符的规范化进行评估。

uBio 项目提供了一套模块化的网络服务,用于物种识别和基于其中提到的物种的文章自动分类。FindIT 是 uBio 套件的一部分,是一个基于规则的系统,旨在执行物种名称识别,并辅以一系列字典。识别后,每次匹配都会给出一个置信度分数,并且在可能的情况下,任何已识别的物种名称都会映射到 uBio Namebank 记录。但是,与 TaxonGrab 一样,FindIT 无法识别诸如“人类”之类的常用名称。TaxonFinder 是一种受TaxonGrab和 FindIT 影响的相关方法,它汇集了来自两个系统的元素。MapIT 通过将物种名称映射到分类树而不是直接映射到数据库标识符来执行物种名称规范化。没有详细描述实施,也没有报告对系统的评估。我们对该系统的测试表明,MapIT 会将诸如“人类”之类的常用名称映射到名称或同义词中包含人类的任何物种,例如“智人”、“人类免疫缺陷病毒”和“人类呼吸道合胞病毒”。

使用基于字典的方法而不是基于规则的方法,还可以识别常用名称,使该软件更适合处理生物医学研究文章,其中作者通常仅使用其常用(白话)名称来引用物种,例如“人”或“老鼠”。公认的物种名称通常根据 NCBI 分类法进行标准化。例如,PathBinderH 是一个基于字典的网络服务,用户可以在其中提交 PubMed 查询并过滤文档中提到的物种检索到的文档。不幸的是,该服务目前仅限于 20,000 个物种,并且仅限于 MEDLINE 中固定的 65,000 份文档。阿里巴巴实现了一个基于字典的网络服务,用于在 PubMed 文摘中识别物种名称并标准化为 NCBI 分类标识符,其中包括过滤常见物种名称同音异义词的方法 。WhatizitOrganisms 是另一个基于 NCBI 物种分类法的基于字典的系统,也可作为网络服务使用,它可以识别和规范化物种以及其他分类等级。它是更通用的 Whatizit 系统的模块之一,它基于字典为不同的实体类型提供了许多不同的实体识别和规范化管道。阿里巴巴或 WhatizitOrganisms 系统的实施细节和任何评估均未报告,但此处提供了对 WhatizitOrganisms 输出的分析。

最近,卡佩勒等人报告了物种名称识别和规范化的工作,试图确定文件中讨论的“重点生物”。该系统包括基于字典的术语搜索与过滤器相结合,以删除常见的英语单词,然后根据它们在摘要或正文中的提及频率对物种进行排名。针对一组 621 个全文文档进行评估,其中物种提及已从 IntAct 数据库中相应的蛋白质-蛋白质相互作用条目自动生成 ,报告的召回率为 73.8%,准确率为 74.2%。由于它旨在识别物种以指导蛋白质名称规范化,因此该系统仅限于 UniProt 中具有条目的 11,444 个物种,并且由于该词典中物种名称的歧义程度较低,因此未实施任何消歧方法。该软件既不能下载也不能作为网络服务提供。

Wang 及其同事开发了一种物种名称识别系统,以帮助消除歧义和识别其他实体,例如基因/蛋白质名称和蛋白质-蛋白质相互作用。该系统使用诊断物种名称前缀以及来自 NCBI 分类法、UniProt 和自定义手工编译词典的名称,以使用基于规则或机器学习技术来标记物种。该系统需要其他感兴趣的实体(例如基因)被预先标记为输入,并且只尝试标记与这些其他感兴趣的实体相关的物种提及。训练和评估基于两个相关的 217 和 230 个全文文档的语料库,为蛋白质、基因和物种手动注释。针对这些评估集,他们基于规则的方法可以实现非常高的精度 (91%) 和非常低的召回率 (1.6%) 或两个性能指标的中间值 (45%)。或者,他们基于机器学习的方法使用感兴趣的实体周围的上下文特征来标记物种产生更高的性能(70%),但高度偏向于训练数据集中表示的物种 。最近,Wang等人已经描述了对该系统的扩展,并已将他们的物种词检测器方法作为 UIMA 组件与一个语料库一起提供,其中蛋白质/基因提及(但不是物种提及)已被手动注释并链接到 NCBI 分类标识符。

最后,Aerts等人使用基于序列的方法通过从文章中提取 DNA 序列并将它们映射到基因组序列来检测生物医学文本中提到的物种。根据一组 9,940 篇基因调控领域的全文文章,这些作者报告说可以识别出正确的物种(相对于 ORegAnno 数据库中注释的物种) 92.9% 的文章包含可以映射到基因组的 DNA 序列。没有适用于这种方法的软件可用作 Web 服务或独立应用程序。此外,这种方法要求文章报告足够长度的 DNA 序列,以便明确地映射到基因组,这对于大多数摘要来说是不可能的,并且可能仅适用于有限比例的全文文章。

在这里,我们的目标是生成一个强大的命令行软件系统,该系统可以快速准确地识别生物医学文档中的物种名称,将它们映射到 NCBI 分类中的标识符,并使该软件免费用于其他文本挖掘和生物信息学应用程序。我们将此软件系统命名为 LINNAEUS,以纪念建立现代物种命名惯例的科学家。这项工作的目标不是发现所有生命科学领域出版物中所有可能的物种名称,而是提供有效的方法将生物医学文献中的物种名称与标准数据库标识符联系起来。我们在提及级别而不是在文档级别对所有物种名称进行识别和规范化,作为文档级别的属性(例如焦点生物) 可以自然地从提及级别推断出来。这也使基于 LINNAEUS 构建的软件能够使用物种提及的精确位置,例如在其他位置实体(例如基因或蛋白质)的消歧和标准化中,或在语义增强文档中提及的直接链接中。此外,我们的目标是解决哪个数据集最适合评估物种名称识别软件的准确性。为此,我们评估了几个自动生成的附有物种名称的生物医学文档集,并得出结论,手动注释的黄金标准对于揭示物种名称识别系统(如 LINNAEUS)的真实性能是必要的。因此,我们还提供了一个新的黄金标准全文文章语料库,其中手动注释了物种名称。

方法

LINNAEUS 系统概述

使用 NCBI 分类法和一组自定义的物种同义词,我们创建了针对时间有效的文档标记优化的物种词典(图1A)。这些字典用于标记文档,然后执行一些后处理步骤(图1B):在可能的情况下,使用一组启发式方法消除歧义,检测首字母缩略词定义并与常见的非物种相对应的提及词条被过滤掉。最后,对于任何仍然模棱两可的提及的物种替代品根据它们的相对提及频率分配概率。
LINNAEUS:生物医学文献的物种名称识别系统 (https://mushiming.com/)  第2张

物种名称词典

NCBI 分类法(2009 年 6 月 1 日下载的名称数据文件)用于构建物种名称字典。这本词典涵盖了 386,108 个物种以及 116,557 个属和更高阶的分类单位。在这项工作中,只考虑了物种,但该软件也可以很容易地适应识别属或其他高级分类单位。NCBI分类数据库中的所有物种术语都根据类型进行分类,如学名(如黑腹果蝇)、通用名(如果蝇)等。除首字母缩略词外,所有类型都包括在内,其中仅使用了较小的子集(请参阅下一节)。根据物种的学名,生成每个学名的缩写版本并将其包含在字典中,例如“Drosophila melanogaster”中的“D. melanogaster”。平均而言,每个物种在 NCBI 分类中提供了 1.46 个名称,当包括缩写时,每个物种的名称上升到 2.46 个。

与之前使用 UniProt 物种词典的工作相比,我们基于 NCBI 分类的词典中固有的歧义性很大,其中同一个术语可以指代几个不同的物种。这主要是缩写的情况。当不考虑缩写的物种名称时,每个术语的平均物种数为 1.00088(527,592 个术语和 528,058 个术语-物种对)。如果包括缩写,则每个术语的物种数增加到 1.066(669,578 个术语,713,525 个术语-物种对)。

除了 NCBI 分类中的条目之外,还包括了一组在文献中经常出现的附加同义词,例如我们假设所指的术语“患者”和“女性”对人类。如果文件中没有提到科学名称,这些可能特别有用,就像医学文献中经常出现的那样。附加文件1中提供了附加同义词的完整列表。

NCBI 分类中为物种列出的首字母缩写词并不总是准确和明确的,因为特定的首字母缩写词可以映射到特定的物种,但实际上可能更常用于其他事物(另一个物种甚至是非物种术语)。克罗明是一种文本挖掘工具,已用于检测 MEDLINE 中的首字母缩略词定义,并允许用户通过 Web 服务查询首字母缩略词,以查看该首字母缩略词的声明频率。重载物种首字母缩略词的一个例子是“CMV”,在 NCBI 分类法中被映射到“黄瓜花叶病毒”。根据 Acromine 生成的数据,CMV 在 MEDLINE 中被定义为“黄瓜花叶病毒”的次数为 233 次,但更常见的定义为“巨细胞病毒”(7128 次)。另一个例子是首字母缩略词“PCV”,它在 NCBI 词典中被映射为“花生丛病毒”。Acromine 总共检测到 912 次 PCV 声明,其中只有 15 次引用了“花生丛病毒”的不同术语。

为了克服这个问题,NCBI 分类中列出的所有首字母缩略词都针对 Acromine 进行查询,以便检索 MEDLINE 中出现的各种扩展形式的首字母缩略词的频率计数。然后使用 LINNAEUS 对扩展形式的术语进行物种识别,以确定每个首字母缩写词用于哪些物种,以及它们的相对提及频率(包括非物种术语)。然后将首字母缩略词包含在字典中,从 Acromine 为每个首字母缩略词导入的物种频率被分配给与首字母缩略词的每个潜在匹配。由此,还可以估计首字母缩略词指代非物种实体的可能性有多大。例如,PCV(上面提到的)提到“花生丛病毒”物种的概率是 1.6% (15/912)。

自动机构建和标记

文本可以直接使用字典中的正则表达式进行匹配,但表达式数量众多,时间要求非常高。确定性有限状态自动机 (DFA) 允许有效的正则表达式匹配,其中可以组合多个物种的正则表达式以大大提高效率。DFA 算法的 java 实现,dk.brics.automaton 包被修改以在加入不同物种的正则表达式时保留物种身份。使用修改后的软件,可以在 O( n ) 时间内找到文本中所有的正则表达式匹配(以及它们属于哪个物种),其中n是文本的长度。由于这种实现,物种正则表达式的实际数量不会影响匹配所需的时间。

后期处理

使用 DFA 软件执行物种名称注释后,将执行许多后处理步骤

消歧义

在不同长度的提及重叠的情况下,较长的提及被保留,较短的提及被删除(遵循最长匹配原则)。这解决了诸如“裸鼠”这样的情况,其中完整术语和术语“小鼠”都将匹配(在这种情况下为同一物种),以及“人类免疫缺陷病毒 1”,其中完整术语和较短术语“人类免疫缺陷病毒”和“人类”将匹配(针对不同的物种)。

对于仍然模棱两可的提及,并且在文本的其他地方明确提到了可能的候选物种之一,所有出现的模棱两可的术语都被解决为指的是明确提到的物种。这是很常见的,因为作者经常提到一个物种的全名,随后的提及被缩写:例如,首先提到秀丽隐杆线虫(明确提及)的文本随后多次提及秀丽隐杆线虫(与 41 匹配的模棱两可的提及)不同的物种)很常见。如果明确提到了几个候选物种(例如,秀丽隐杆线虫和巴豆线虫,然后提到了秀丽隐杆线虫),提及将指向所有明确提及的物种,这(虽然没有完全消除提及的歧义)减少了它可以提及的潜在物种的数量。

缩写声明检测

除了字典中包含的由 LINNAEUS 注释的首字母缩写词之外,还可以在每个文档的基础上检测到新颖的首字母缩写词声明。当检测到首字母缩写词定义(形式为“物种(首字母缩略词)”时,其中物种在字典中,首字母缩写词是大写字母、数字或连字符的序列),该首字母缩写词的所有后续出现也会在文档中标记。

删除常用英语单词

基于一个简单的物种名称列表,这些物种名称在不提及物种时通常出现在英语中(参见附加文件3),我们删除了列表中包含物种术语组合的任何提及 . 这消除了“spot”(对于Leiostomus xanthurus)和“permit”(对于Trachinotus falcatus)等同义词,并大大减少了系统产生的误报数量。

为模棱两可的提及分配概率

最后,任何仍然模棱两可的提及都被分配了提及特定物种的可能性的概率。模糊提及的概率基于所有 MEDLINE 和 PubMed Central 全文文档的开放访问子集中所涉及物种的明确提及的相对频率。首字母缩写词的概率基于 Acromine 检测到的首字母缩写词定义的相对频率(见上文)。例如,对于模棱两可的提及“C. elegans”,出现秀丽隐杆线虫的概率会非常高,而出现Crella elegans的概率会很高会低很多。对于首字母缩略词“HIV”(可能同时指“人类免疫缺陷病毒”,更不常见的是“希波克拉底无关变量”),它指代“人类免疫缺陷病毒”的可能性非常高。

这些概率启用了另一种启发式消歧形式:在模棱两可的提及具有高于给定截止值(例如 99%)的概率的物种替代的情况下,提及可以完全消除该物种的歧义(例如术语“C. elegans”可以被消除为Caenorhabditis elegans)。同样,如果所有与物种相关的提及概率之和小于给定阈值(例如 1%),则可以删除提及;这可能发生在首字母缩略词中,在 99% 以上的情况下,首字母缩略词用于非物种术语。这些级别在准确性和模糊性最小化之间进行了权衡,并且可以在标记后根据用户的个人需求进行调整。

输入和输出格式

LINNAEUS 能够处理各种文档 XML 格式,包括 MEDLINE XML、PMC XML、Biomed Central XML和 Open Text Mining Interface XML。此外,它还可以处理来自本地存储文件和远程数据库服务器的纯文本文档。物种名称识别结果可以存储到基于对峙的制表符分隔值文件、XML 文档、HTML 文档(用于结果的简单可视化)和远程 MySQL 数据库表中。

用于物种标记的文档集

在整个工作中,使用了三个不同的文档集来识别和规范物种名称。对于所有集合,2008 年之后发布的任何文档都被删除,以创建固定和可重复的文档集合,并避免在项目过程中因数据库记录更新而可能出现的差异。

医疗线

MEDLINE 是 PubMed 文章摘要的主要数据库,包含超过 1800 万条条目。然而,许多条目实际上并不包含任何摘要。如果仅计算截至 2008 年底发表的包含摘要的条目,则文件数量刚刚超过 990 万份。

PubMed Central 开放获取子集

PMC 免费提供超过一百万篇全文文章。不幸的是,其中只有大约 10%(截至 2008 年底发布了 105,106 篇)是真正的开放访问并可用于不受限制的文本挖掘。此 PMC 的开放存取 (OA) 子集中的文章在此称为“PMC OA”。PMC OA 中的大部分文章都是基于 XML 文件,但有些是通过扫描非数字文章(29,036 个文档)的光学字符识别(OCR)创建的,还有一些是通过转换便携式文档格式(PDF ) 文档到文本(9,287 个文档)。我们注意到,对于使用 OCR 或 pdf 到文本软件生成的 PMC OA 文档,不会从这些文档中删除参考。正因为如此,出现在参考标题中的物种名称可能会被标记。对于所有其他文件(MEDLINE、即不处理参考标题)。

PMC OA 的摘要

PMC OA 集中所有文章的摘要形成一个称为“PMC OA abs”的集。PMC OA 摘要是从 PMC OA XML 文件的摘要部分获得的,或者如果 XML 文件中不存在这样的部分,则从相应的 MEDLINE 条目获得(当文章是通过 OCR 或 pdf 到文本工具生成时会发生这种情况) . PMC OA 摘要包含 88,962 篇文档,明显少于 PMC OA 中的文档数量(105,106 篇)。这是因为并非所有 PMC 文章都被 MEDLINE 索引,因此一些 OCR 或 pdf 转文本文档没有对应的 MEDLINE 条目,使得准确提取摘要不可行。在 88,962 篇摘要中,有 65,739 篇(74%)是从 XML 文档中提取的,其余部分是从相应的 MEDLINE 文档中提取的。

PMC OA 全文文档集的划分

如上一节所述,不可能可靠地提取 PubMed Central 中大约五分之一的全文文章的摘要,因为它们在 PMC XML 或相应的 MEDLINE 条目中没有摘要部分。我们选择不从我们的分析中删除这些全文文章,因为它们包含 PubMed Central 中的大量文档子集,并且它们的排除可能会使我们的结果产生偏差。但是,它们的包含使得基于 PMC OA 摘要和所有 PMC OA 全文文档的结果的直接比较变得困难,因为 PMC OA 全文集中存在一些文档,而 PMC OA 摘要集中缺少这些文档。为了在文档层面解决这个问题,我们创建了“PMC OA full (abs)”集,其中包含可以提取摘要的 88,962 个全文文档,允许直接比较完全相同文章的全文文档和摘要。不幸的是,该文档集仍然不允许在摘要和全文之间进行直接提及级别的比较,因为来自 MEDLINE 条目的偏移坐标和 PMC OA 全文文档不兼容。因此,我们创建了“PMC OA full (xml)”集,该集仅包含 65,739 个全文文档,其中可以从相应的 PMC XML 文件中提取摘要。使用此 PMC OA 全文 XML 集,还可以在相同偏移坐标上对相同文档集执行提及级别比较。我们注意到“PMC OA”是指完整的 105,106 个全文文档集,我们也可以将其表示为“PMC OA full (all)”。

用于评估的文档集

目前,不存在专门针对物种提及进行注释的生物医学文档的开放访问语料库。因此,我们创建了许多自动生成的评估集,以分析 LINNAEUS 和其他物种名称标记软件的准确性。由于它们所基于的数据的性质,许多这些评估集只能在文档级别进行分析。此外,这些自动生成的评估集都不是基于专门为注释物种提及而创建的数据。正因为如此,我们创建了一个为物种提及手动注释的全文文章的评估集。每个评估集覆盖的文档、物种和标签的数量如表1所示完整的手动注释文档可以在项目网页上找到。

LINNAEUS:生物医学文献的物种名称识别系统 (https://mushiming.com/)  第3张

NCBI 分类引文

NCBI 分类中的一些物种条目包含对讨论该物种的研究文章的引用。对于这些文件,我们假设该物种最有可能在文章的某处被提及,从而使相对回忆成为一种有用的衡量标准。NCBI 分类引文于 2009 年 6 月 1 日下载。

医学主题词条

MEDLINE 中的每篇文章都有相关的 MeSH 术语,指定文章中讨论的主题。这些术语的一个子集与物种有关,并且可以通过统一医学语言系统 (UMLS) 映射到 NCBI 分类物种条目。然而,由 MeSH 术语表示的物种数量是有限的。总共只有 1,283 个物种的 MeSH 术语,在 MEDLINE 的 MeSH 标签中实际出现的物种只有 824 个。此外,赋予文章的 MeSH 术语并不能保证该术语在文档中明确提及。此外,预计文档中提及的总物种中只有一小部分会在 MeSH 标签中表示(只有所谓的焦点物种),导致使用该语料库的精度估计不如召回信息量大。

Entrez 基因条目

MEDLINE 中的每篇文章都有相关的 MeSH 术语,指定文章中讨论的主题。这些术语的一个子集与物种有关,并且可以通过统一医学语言系统 (UMLS) 映射到 NCBI 分类物种条目。然而,由 MeSH 术语表示的物种数量是有限的。总共只有 1,283 个物种的 MeSH 术语,在 MEDLINE 的 MeSH 标签中实际出现的物种只有 824 个。此外,赋予文章的 MeSH 术语并不能保证该术语在文档中明确提及。此外,预计文档中提及的总物种中只有一小部分会在 MeSH 标签中表示(只有所谓的焦点物种),导致使用该语料库的精度估计不如召回信息量大。

EMBL 记录

与 Entrez 基因记录类似,许多 EMBL序列记录还包含有关该序列来自哪个物种以及该序列是在哪篇文章中报道的信息。假设在报告核苷酸序列的论文中明确提到了物种,这可以提取物种-文章映射。然而,与 Entrez 基因集一样,这并不能保证,除了具有报告序列的物种之外,讨论的任何物种都不会出现在评估集中(再次导致精确测量无信息)。该评估集使用了 EMBL 的 r98 版本。

PubMed 中央链接

尽管没有在任何出版物中描述,NCBI 对 PMC 中包含的全文文章进行物种识别文本挖掘。这些分类“链接”可以在查看 PMC 上的文章时访问,也可以通过 NCBI e-utils Web 服务下载。通过下载这些链接,可以创建与召回率和精度相关的评估集(尽管仅在文档级别)。PMC 链接数据于 2009 年 6 月 1 日下载。

WhatizitOrganisms

为了评估提及级别的准确性并将 LINNAEUS 与另一个物种名称识别系统进行基准比较,PMC OA 集中的所有文档都通过 WhatizitOrganisms Web 服务管道发送。不幸的是,Whatizit Web 服务无法处理大约 10% 的 PMC OA 文档(参见表1),因此无法进行比较。WhatizitOrganisms 标记于 2009 年 6 月 25 日执行。

人工标注的金标准语料库

由于所有前面描述的评估集都受到它们没有专门为物种名称注释的事实的限制,因此很明显需要这样一个集来测量 LINNAEUS 的真实准确性。因为没有这样的评估集可用,所以从 PMC OA 文档集中随机选择了 100 个全文文档并为物种提及进行了注释。由于这项工作的重点是物种而不是属或其他更高阶的分类单位,因此语料库仅针对物种进行了注释(除了在提及物种时错误地使用了属名的情况)。

所有提及的物种术语均手动注释并标准化为预期物种的 NCBI 分类 ID,但作者未提及该物种的术语除外。一个常见的例子是“Fisher 精确检验”(“Fisher”是Martes pennanti的同义词,但在这种情况下指的是发明统计检验的 Ronald Aylmer Fisher 爵士)。在 NCBI 分类中不存在物种 ID 的情况下(主要发生在特定物种菌株中),它们的物种 ID 为 0(在 NCBI 分类中不使用)。

带注释的提及也被分配到以下类别,这些类别表明提及的特定特征,可用于评估分析:
(一)词汇类别:

  • 作者是否拼错了术语。
  • 作者在拼写物种名称时是否使用了错误的大小写(例如“Drosophila Melanogaster”)。
  • 该术语是否由于 OCR 或其他技术错误而拼写错误。
    (二)句法类别:
  • 该名称是否是物种名称枚举的一部分(例如,在“V. vulnificus CMCP6 and YJ016”中,指的是两种不同的创伤弧菌菌株)。
    (三)语义类别:
  • 作者是否使用了不正确的名称(例如,在专门指黑腹果蝇时使用属名“果蝇”,或者在指代 Pileated 啄木鸟Dryocopuspileatus时使用“Pileated” )。
  • 物种术语是否被用作形容词“修饰语”,例如“human p53”(作者实际上指的不是人类物种,而是一个基因)。请注意,尽管作者没有直接提及物种,但在提取物种提及以执行例如基因名称识别时,这些提及仍然很重要。我们还注意到,虽然“human p53”中的形容词“human”被认为是修饰语,但我们不认为它是“the p53 gene in human”等短语中的修饰语,其中名词“human”直接指代人类物种。

提及可能属于多个类别(例如,它可能既用作修饰符又可能拼写错误),或者根本不属于任何类别(即只是普通提及,这是最常见的情况)。表2显示了与每个类别相关的物种标签数量的摘要。这些类别可以深入了解物种名称在文献中拼写错误或使用不正确的频率。它们还可以对 LINNAEUS 或针对该语料库评估的任何其他软件所做的任何预测错误进行更深入的分析。在该语料库中注释的 4259 个物种中,72% (3065) 是常用名称,这加强了在处理生物医学研究文章时能够准确识别常用名称的重要性。
LINNAEUS:生物医学文献的物种名称识别系统 (https://mushiming.com/)  第4张
为了估计手动注释的可靠性,10% 的语料库(10 个文档)也由第二个注释器注释,并计算了注释器间协议 (IAA)。总共有 406 个物种提及在 10 个文件中由至少一个注释者注释。在这 406 次提及中,368 次被两个注释器(提及位置和物种标识符)相同地注释。Cohen 对注释者间一致性的 k 度量 [ 53 ] 计算为 k = 0.89。IAA 分析的详细信息可在附加文件4中找到。

绩效评估

将 LINNAEUS 生产的标签与评估参考集中的标签进行比较,以确定系统的性能。如果特定标签同时出现在 LINNAEUS 集和参考集中,则称为真阳性(TP);如果它仅出现在 LINNAEUS 集中,则称为误报 (FP);如果它仅出现在参考集中,则称为假阴性(FN)。这在文档级别(不考虑文档中标签的位置)和提及级别(标签位置必须完全匹配)上执行。对于信息仅在文档级别可用的评估集,不执行提及级别评估。在不明确提及的情况下,如果提及至少包含“真实”物种,则该提及被视为 TP(并且,对于提及水平分析,位置正确)。我们注意到 LINNAEUS 试图识别文件中提到的所有物种,因此报告的物种数量没有限制。

结果

我们将 LINNAEUS 系统应用于 2008 年或之前发表的近 1000 万篇 MEDLINE 摘要和超过 100,000 篇 PMC OA 文章(表1)。使用四个 Intel Xeon 3 GHz CPU 内核和 4 GB 内存,MEDLINE 的文档集标记大约需要 5 小时,PMC OA 摘要需要 2.5 小时,PMC OA 需要 4 小时。(我们注意到影响处理时间的主要因素是 Java XML 文档解析而不是实际的物种名称标记。)这些物种标记实验远远超过了任何先前报告的规模,并代表了文本挖掘在整个 PMC OA 语料库中的第一个应用。在 MEDLINE 中检测到超过 57,000 个不同物种的超过 3000 万个物种标签,在 PMC OA 中检测到近 19,000 个物种的超过 400 万个物种标签。LINNAEUS 在 74% 的 MEDLINE 文章、72% 的 PMC OA 摘要和 96% 的 PMC OA 全文文章中识别出物种。从NCBI分类词典中的物种总数来看,15%的NCBI词典中的物种被LINNAEUS在MEDLINE中找到,1.3%在PMC OA摘要中找到,4.9%在PMC OA全文中找到文章。MEDLINE 或 PMC OA 摘要中的物种名称密度分别比 PMC OA 全文文章低 30 倍和 3 倍;相对于全文文档,两组摘要中物种提及的密度都低 11 倍。

MEDLINE 和 PubMed Central 中提到的物种的歧义

在所有 MEDLINE 和 PMC OA 中,11-14% 的物种提及是模棱两可的。因此,物种名称歧义的水平与基因名称中的跨物种歧义处于相同的顺序,并表明某种形式的消歧对于准确的物种名称规范化是必要的。表3显示了 LINNAEUS 消歧步骤之前和之后的标记文档集的歧义级别. 歧义级别的计算方法是歧义提及的数量除以提及的总数,其中当提及映射到多个物种时,会计算歧义提及。消歧方法“无”显示任何消歧之前的值;“earlier”通过扫描文档中较早的明确提及来消除歧义,为了比较,“whole”通过扫描整个文档中的明确提及来消除歧义。“严格”消歧不考虑正确物种提及的相关概率,而“近似”表示对单个物种具有高于 99% 概率或所有物种概率之和低于 1% 的任何提及的消歧。

评估 LINNAEUS 物种名称标记

与评估集中的物种相比,LINNAEUS 发现的物种提及的评估如表4所示. 对于文档级评估集(NCBI 分类参考、MeSH 标签、Entrez 基因参考、EMBL 参考和 PMC 链接),文档级标签直接与 LINNAEUS 在 MEDLINE、PMC OA 摘要或 PMC OA 中找到的标签进行比较文件。对于提及级评估集(WhatizitOrganisms 输出和手动注释集),仅在评估集和 PMC OA XML 之间直接比较标签,因为 PMC OA XML 是唯一与评估集在相同偏移坐标上的文档集(见方法)。对于自动生成的集合,我们在评估集中如何注释物种的背景下解释召回和精度,以提供对假阳性和假阴性的定性分析。对于人工标注的金标准评估集,
LINNAEUS:生物医学文献的物种名称识别系统 (https://mushiming.com/)  第5张
LINNAEUS:生物医学文献的物种名称识别系统 (https://mushiming.com/)  第6张

讨论

物种名称识别和规范化越来越被认为是文本挖掘和生物信息学中的一个重要主题,不仅因为它可以为最终用户提供直接优势,而且还可以指导其他软件系统。虽然之前已经报道了许多执行物种名称识别和/或科学名称和同义词标准化的工具,这里介绍的工作以多种独特的方式为该领域做出了贡献。其中包括强大的、开源的、独立的应用程序的可用性(其他工具要么不公开提供,只能作为 Web 服务提供,要么不能识别常用名称)、物种标记的规模(所有 MEDLINE 和 PMC OA 直到2008)、评估的深度和严谨性(其他工具不针对规范化的数据库标识符进行评估,或者仅限于少量文档样本)和准确性(与其他可用工具相比,LINNAEUS 表现出更好的性能,主要是由于更好地处理含糊不清的提及和包含其他同义词)。此外,我们提供第一个开放访问,

评估物种名称识别软件需要人工注释的金标准

任何生物信息学应用程序的相对性能仅与与之比较的评估集一样好。在物种名称识别软件的情况下,在当前工作之前,没有开放访问的生物医学文本中物种名称注释的手动注释数据集作为评估的黄金标准。在这个项目中,我们研究了四种不同的自动生成的评估集(NCBI 分类引文、MeSH 标签、Entrez 基因参考、EMBL 引文),这些评估集基于策展的文档-物种对。我们还根据使用文本挖掘软件(PMC linkouts 和 WhatizitOrganisms)预测的文档物种对研究了两个不同的自动生成的评估集。尽管当文档集和评估集属于同一类型时,可以解释 LINNAEUS 的召回(例如全文),由于在任何这些评估集中对物种提及的不完整或不完善的注释,我们的系统的精度无法准确评估。我们得出结论,从“次要”来源(例如文档基因(例如Entrez 基因)或文档序列(例如EMBL)映射)自动推断出的文档-物种映射评估集在评估物种名称识别软件中的价值有限。

由于自动生成的评估集的固有局限性(包括物种名称的不完整注释或不正确的消歧),因此创建了手动注释的评估语料库。对手动注释评估语料库的评估显示,LINNAEUS 的性能非常好,在提及级别上具有 94.3% 的召回率和 97.1% 的准确率,在文档级别上具有 98.1% 的召回率和 90.4% 的准确率。没有一个自动生成的评估集能接近揭示使用 LINNAEUS 进行物种名称识别的这种精度水平。这些结果强调了我们手动注释的黄金标准评估集的重要性,并建议在自动生成的评估集上评估其他系统可能低估了系统精度。拥有高质量评估集的一个有趣观察是,召回率高于文档级别的准确率,而准确率高于提及级别的召回率。造成这种情况的一个原因是,当作者使用非标准或拼写错误的名称时,他们通常会在整个文档中多次使用这些名称,导致在提及级别上出现多个误报,但仅在文档级别上出现一次。相反,误报在文档中更分散,导致提及和文档级别评估的误报计数差异很小。

提高全文文章中物种名称识别的准确性

目前绝大多数文本挖掘研究都是针对生物医学文章的摘要进行的,因为它们在 PubMed 中免费提供,分析所需的计算资源较少,并且被认为包含最高密度的信息。然而,越来越多的证据表明,全文文章的信息检索效果更好,因为生物医学术语的覆盖率高于摘要。我们的物种名称识别结果支持这一结论,对于大多数测试的评估集,全文文章的物种名称召回率高于摘要(表4) 并且几乎所有 (96%) 全文文章都被标记为至少一个物种名称。对全文文章进行术语识别的好处在物种名称的情况下可能特别有用,因为与疾病、基因或化学品和药物的术语相比,生物术语在生物医学文档的不同部分中的分布似乎更加统一。

我们的结果还清楚地表明,通过搜索明确提及来消除物种提及的歧义在全文文章中比在摘要中更成功。因此,正如之前发现的基因名称,全文覆盖率的增加对物种名称消歧有额外的好处,因为在处理全文文章时,消歧算法可以获得更多信息。有趣的是,我们发现无论是在文本的前面还是在整个文本中扫描明确提及,歧义的程度都会下降,这可能是因为文章的材料和方法部分通常位于论文的末尾。在搜索明确提及后,我们发现生物医学文本中物种名称的歧义水平很低(3-5%),如果可以容忍少量错误,可以使用概率方法进一步降低(1-3%)。

结论

我们开发并评估了一个强大的开源软件系统 LINNAEUS,它可以快速准确地识别生物医学文件中的物种名称,并将它们规范化为 NCBI 分类中的标识符。LINNAEUS 系统的低歧义性、高召回率和高精度使其非常适合生物医学文本中的自动物种名称识别。生物医学领域的 LINNAEUS 物种识别可以通过包含细胞系名称来增强 [ 67 ],这些名称通常充当产生它们的物种的生物代理。LINNAEUS 也可能在其他问题领域表现良好,例如生态学和分类学文献,前提是提供高质量的物种名称词典(例如 [ 68]),尽管这仍然是未来研究的开放领域。进一步开发 LINNAEUS 以在生物医学文献之外更广泛地应用可能需要与其他方法集成,例如基于规则的物种名称识别系统(例如 TaxonGrab),我们目前的目标是在未来提供此类方法的实现,以便能够使用 LINNAEUS 提供的文件处理方法。LINNAEUS 的可用性现在为在文本中使用物种名称的下游应用程序提供了机会,包括将物种名称集成到更大的生物信息学管道中,生物医学文本中物种名称的语义标记,以及跨物种名称使用趋势的数据挖掘文件和时间。

THE END

发表回复