本论文是一篇关于语义类毕业论文怎么写,关于改进的基于《知网》的词汇语义相似度计算相关在职研究生毕业论文范文。免费优秀的关于语义及概念及词汇方面论文范文资料,适合语义论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况,提出一种改进的词汇语义相似度计算方法.首先,充分考虑概念描述式中各义原之间的线性关系,提出一种位置相关的权重分配策略;然后,将所提出的策略结合二部图最大权匹配进行概念相似度计算.实验结果表明,采用改进方法得到的聚类结果F值较对比方法平均提高了5%,从而验证了改进方法的合理性和有效性.
关 键 词:
知网;义原;概念;权重;语义相似度
中图分类号:TP391.1
文献标志码:A
0引言
词汇语义相似度计算在文本聚类[1]、信息检索、机器翻译等领域有着广泛应用.当前词汇语义相似度计算方法大致可分为两类:一类利用大规模语料库进行统计,依据词汇上下文信息的概率分布进行计算;另一类基于某种世界知识来计算,通常是基于某个知识完备的语义词典中的层次结构关系进行计算,例如荀恩东等[2]采用WordNet进行英语词语间的相似度计算,刘群等[3]提出基于《知网》的词语相似度计算等.基于语料库的方法比较精准,但计算比较复杂并且结果容易受训练数据的噪声影响;而基于语义词典的方法简单有效,比较直观,但对词典依赖性较大,且易受人主观意识影响,当前词汇语义相似度计算大多采用该方法.
《知网》是一个以汉语和英语的词语所代表的概念(义项)为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[4].在《知网》中,词汇对应于若干概念,而概念是以义原为基础通过知识库描述语言进行定义的,即概念的义项表达式,义原又通过多种关系进行描述,如上下位关系等,其具体含义可查阅相关文献[3-4].目前大多数学者基于《知网》的词汇语义相似度计算思想是整体相似度可由部分相似度加权平均进行计算.其中比较有代表性的方法如刘群等[3]首先提出的仅考虑义原之间距离因素的词汇语义相似度计算方法,李峰等[5]在前者的基础上所提出的考虑义原深度因素计算方法,Dai等[6]提出的基于《知网》的中英文词间相似度算法,刘青磊等[7]提出的基于信息论的计算方法,王小林等[8]提出的变系数计算方法等.然而文献[9]指出知识库描述语言对概念的描述具有线性关系,但上述计算方法都没有充分考虑该线性关系,使得词汇相似度计算结果不够合理.
大学生如何写语义毕业论文
播放:39306次 评论:5414人
本文在深入研究和分析知识库描述语言的结构特征以及现有计算方法基础上,提出一种充分考虑知识库描述语言线性描述特征的词汇语义相似度计算方法,使得词汇间的相似度计算结果更为合理.特别指出,若非特殊说明本文所述的《知网》都是指《知网》2000版.
1词汇语义相似度计算
当前基于《知网》的词汇语义相似度计算大致可以分为三个过程:义原相似度计算、概念相似度计算和词汇语义相似度计算.各具体的计算过程如下所述.
1.1义原相似度计算
《知网》中义原间的相似度计算主要利用义原层次体系中义原之间的各种关系进行计算,例如刘群等[3,5-6]利用义原之间的上下位关系进行计算等.本文选取当前计算方法中两种比较有代表性的义原相似度计算公式进行讨论.
分析以上两种公式可以看出,式(1)只考虑了义原层次体系中义原之间的距离因素对义原相似度的影响.例如,义原{“虫”,“鱼”}与{“物质”,“精神”}分别在义原层次树中的路径距离相等,则它们的相似度相等.但在人们直观理解上,显然前者之间的相似性应高于后者.所以只考虑义原间的距离因素往往计算得到的结果过于粗糙,不够合理.式(2)在式(1)的基础上充分考虑了义原在义原层次树中的深度因素对义原相似度的影响.同样以上述例子进行说明,前一组义原在义原层次树中的深度都为6,而后一组的深度都为2,则依据式(2)进行相似度计算,前者之间的相似度值大于后者,更加符合人们的主观理解,所以采用式(2)计算得到的结果较式(1)更为合理.
1.2概念相似度计算
当前对于概念相似度计算也有许多方法,按照权重系数设置方式不同大致可以分为以下两类:
2改进的词汇语义相似度计算
文献[9]指出知识库描述语言的描述方式具有线性顺序,它对义原的顺序是有规定的,如果破坏了这种顺序,就会导致意义上的错误.但当前的计算方法由于没有充分考虑义项表达式中义原描述式之间的顺序关系,使得概念的相似度计算不够合理,进而导致词汇间的语义相似度计算结果与人们的主观理解不一致.本文主要针对该缺点对现有的概念相似度计算方法进行改进,并结合1.1节和1.3节中所提出的方法进行词汇间的语义相似度计算.由于虚词所对应概念的定义方式比较简单,在此就不作赘述.接下来,本文就如何在概念相似度计算过程中充分考虑知识库描述语言对概念描述的线性关系进行讨论.
2.1位置相关的义原描述式权重分配
分析1.2节中介绍的概念相似度计算方法可知,采用固定权重分配方案的方法需要在实际应用中设定权重系数,结果的合理性与权重系数有很大关系,但是往往很难找到一组适用于计算所有概念间相似度的权重系数,容易受主观因素影响.同时,权重系数固定使得各部分相似度值在合成得到整体概念相似度时所起的作用大小固定且划分后各集合中的描述式之间没有顺序关系,忽略了知识库描述语言的对其描述的线性关系,使得采用该策略的概念相似度计算具有其不合理性.与此相比较,王小林等[8]采用与各描述式集合中元素数量相关的动态权重分配方案的方法,依据义项表达式不同,动态确定各部分在整体相似度中的作用大小;但是在确定权重系数时,完全没有考虑描述式之间的线性关系,所以采用该权重分配策略的计算方法也是不够合理的.下面举例说明上述方法的不合理性.综上所述,在概念相似度计算过程中,若割裂了义项表达式中各描述式之间的线性关系,则计算得到的结果是不合理的.
本文通过深入研究和分析知识库描述语言的结构特征,认为知识库描述语言对概念的描述具有以下特点:
1)义原描述式形式在位置关系上除义项表达式的首位置特定为基本义原描述式外,其他位置以何种形式的描述式对概念进行描述与位置不相关.
2)义项表达式中的各义原描述式所能描述的概念含义抽象程度与其在表达式中的位置相关.即若义原描述式相对于表达式中的位置偏左,描述式中的义原往往分布在义原层次体系的较高层,其所代表的含义比较抽象,更能代表概念的本质属性;而位置偏右的描述式中,义原一般位于义原层次体系中的较低层,所能代表的含义比较具体,能够描述不同概念间的细微差异.
基于以上描述特点,本文提出一种位置相关的权重
关于语义类论文范文参考文献,与改进的基于《知网》的词汇语义相似度计算相关毕业论文怎么写参考文献资料: