本论文是一篇关系相关论文开题报告,关于基于关系相似度计算的实体关系分类相关毕业论文范文。免费优秀的关于关系及实体及参考文献方面论文范文资料,适合关系论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解.提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验.
关 键 词:SVD;关系相似度;实体关系分类
中图分类号:TP392文献标识码:A文章编号:16727800(2013)004013002
基金项目:河南省教育厅基础与前沿技术研究项目(122300410048)
作者简介:郭丽(1984-),女,硕士,中原工学院软件学院助教,研究方向为云计算、数据挖掘、自然语言处理;刘磊(1981-),男,硕士,郑州航空工业管理学院讲师,研究方向为文本挖掘、自然语言处理.
0引言
在信息抽取中,不但要抽取信息中的实体,还要确定这些实体间的关系.通常,词对限定为由名词及其修饰语组成,而不同应用背景下的词对关系也会有所差别,如ACE评测中的关系有地理位置关系(PHYS)、雇佣关系(EMPORG)等.假设文本中提到“北京大学校长”,其中“校长”和“北京大学”分别为人物实体和组织实体,而它们之间又构成一种雇佣关系(EMPORG),即“校长”受雇于“北京大学”.如果说信息抽取将文本转化为数据表格,实体抽取确定了表格中各个元素的话,实体关系抽取则是确定这些元素在表格中的相对位置.
1关系相似度
关系相似度最主要的应用是对语义关系分类,通常是辨别一对词语(一般限定为名词及其修饰语)间的关系类别.如:“奥巴马”与“美国”的关系应当是国家领导人与国家的关系.而现实世界的语义类别众多,我们不可能将所有的语义关系都定义出来,而是根据不同的应用领域制定不同的分类标准.Nastase和Szpakowicz(2003)对通用领域的名词—修饰语总结了5大类30种关系,Fillmore和Hearst(2002)将医学领域的名词及形容词分为13种关系,而Turney和Littman(2005)则将名词—修饰语词对关系分为5类.
笔者曾对存在较多语义关系词对的中文专利语料(专利中术语较多,而术语往往由修饰词和中心语组成)进行实验,并根据知网中词语间关系的分类体系,将词对间的关系细分为10种,如表1.
2实体关系抽取
实体是命名实体的简称,常见的实体有地名、人名、组织机构名等.实体关系分类就是按照一定的分类体系,将这些不同的实体对归属到自己的类别当中,如:“华盛顿”、“美国”的关系与“平壤”、“朝鲜”的关系一样,都是首都与国家的关系.
本文主要研究新闻语料中的实体关系分类,通过总结实验语料获得的7种常见实体关系,作为本文实验的关系类别,如表2所示.
3实验内容
KNN算法是机器学习算法中较简单的一个分类算法,整体思想是计算一个点A