本论文是一篇关于词语相关论文摘要,关于基于知网义原信息量的词语相似度计算方法相关专科毕业论文范文。免费优秀的关于词语及水利水电及微生物方面论文范文资料,适合词语论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:国内利用知网计算中文词语相似度通常采用基于义原距离的方法,这些方法依赖于公式设计和参数选取.根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算词语所包含的义原信息量,将义原及其角色关系的信息量作为词语相似度计算的基本单位,通过计算两个词语的共有义原及其角色关系的信息量和所有义原及其角色关系的信息量的比值来综合计算词语的相似度.实验结果证明,该方法合理可行.
关 键 词:义原信息量;角色关系;词语相似度;信息处理
DOIDOI:10.11907/rjdk.151250
中图分类号:TP391
文献标识码:A文章编号:16727800(2015)006014203
作者简介作者简介:李国佳(1986-),男,山西大同人,硕士,华北水利水电大学软件学院助教,研究方向为自然语言处理;杨喜亮(1981-),男,河南郑州人,硕士,华北水利水电大学现代教育技术中心助教,研究方向为智能信息处理.
0引言
词语相似度计算在信息检索、文本分类、信息抽取、机器翻译等领域有着广泛应用.目前,词语相似度的计算方法主要有两大类:一类是基于距离的方法,如基于WordNet中词语结点的距离来计算英语词语的语义相似度[1],基于知网(How)义原距离来计算中文词语的语义相似度[23];另一类是基于语料统计的方法,这类方法假设凡是语义相近的词语,它们的上下文也应该相似,利用上下文中词语的概率分布来计算词语相似度[45].
有关论文范文主题研究: | 关于词语的论文范文集 | 大学生适用: | 学士学位论文、本科毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 20 | 写作解决问题: | 写作资料 |
毕业论文开题报告: | 标准论文格式、论文题目 | 职称论文适用: | 核心期刊、初级职称 |
所属大学生专业类别: | 写作资料 | 论文题目推荐度: | 优质选题 |
自1999年知网(HowNet)正式发布以来,其受到越来越多研究人员的关注.基于知网计算中文词语的相似度也诞生了很多方法[2,68],这些方法通常根据意义分解思想,将词语分解为更小单位(义原)参与相似度计算,再按照权重比例综合计算词语整体相似度.利用词语分解后的单位(义原)参与计算,割裂了描述词语的各个义原之间的关系,不能充分反应出词语间语义的相似性,计算结果也不够理想.
本文从整体性角度出发,给出一种基于义原信息量计算中文词语相似度的方法.基于知网的分类体系(Taxonomy),将义原及其角色关系整体作为词语相似度计算的基本单位,保留了描述词语概念的各个义原间的关系,并依据信息论中计算两个事物相似度的思想[