本文主要研究如何利用判别式模型来解决生物医学文献挖掘中的问题。具体地,我们研究了生物医学文本挖掘中的三个任务:生物医学名实体识别、生物医学实体规范化以及生物医学语义关系抽取。主要内容包含以下4个方面。生物医学名实体识别的目标是确定一个给定的文本集合内的某一类型的实体的名字的所有实例,它是进行深层次文本挖掘的必要步骤之一。本文在考察了生物医学领域实体识别的特点和难点,分析了目前已有的生物医学实体识别方法的优缺点的基础上,提出了利用条件随机域模型结合丰富特征集来进行生物医学实体识别的方法。本文提出了一种用于生物医学实体规范化的多层歧义消解框架。在BioCreAtIvE2006基因名字规范化任务的测试集上的实验表明本文提出的框架可以有效地解决规范化过程中的各种歧义。生物医学语义关系抽取是生物医学文本挖掘的主要研究内容之一,是从无结构的生物医学文献中抽取出生物医学知识的重要手段。在实际应用中,生物医学语义关系的定义有宽泛和具体之分。本文将宽泛定义和具体定义的生物医学语义关系抽取分别看作二分类和多分类问题,提出基于最大熵模型的生物医学语义关系抽取的方法。此外,本文还通过理论分析和实验对比,从理论和实践两个方面说明了判别式模型比产生式模型更适合生物医学语义关系抽取问题。

书籍详述:

ISBN-13:

978-3-330-82247-4

ISBN-10:

3330822473

EAN:

9783330822474

书籍语言:

中文

By (author) :

承杰 孙

页数 :

128

出版于:

31.05.2017

分类:

Informatics, IT