这是一篇文本类毕业论文格式模板范文,与基于空间向量模型的先秦文献相似性相关毕业论文格式模板。是参考文献专业与文本及特征及向量方面相关的免费优秀学术论文范文资料,可作为文本方面的大学硕士与本科毕业论文开题报告范文和职称论文论文写作参考文献下载。
摘 要: 本文基于空间向量模型,利用TF-IDF值,对《楚辞》、《公羊传》、《管子》、《谷梁传》、《国语》、《韩非子》、《老子》、《礼记》、《论语》、《吕氏春秋》、《孟子》、《墨子》、《商君书》、《诗经》、《孙子》、《武子》、《孝经》、《荀子》、《晏子春秋》、《仪礼》、《周礼》、《周易》、《庄子》、《尚书》和《左传》等二十五本先秦文献进行了相似度计算,通过分析文本的相似系数,考察文本间的相似程度和文献本身的特殊性.最终发现:部分文献用词较为封闭,用语风格独树一帜,部分文献用词则包容性,与其他文本的一致性较高.
关 键 词 : 先秦文献 相似性 向量空间模型 TF-IDF值
古汉语研究中,文本作者考证、著作年代探究等都是学者们的研究重点之一.他们常常从文本风格、用词特征等角度出发,通过比较同时期的同类作品或者寻找词语源流演变的轨迹等方法来探寻文献创作者,确定文献创作年代或判别文献真伪.这类研究中,古汉语研究者多依赖于文献典籍或考古文物等资料,以此为据作出相应的假设或者是论证已有假设.本文则主要利用自然语言处理中的相似度计算方法,通过计算文献间的相似系数来判断彼此间的相似程度.主要考察了《楚辞》、《公羊传》、《管子》、《谷梁传》、《国语》、《韩非子》、《老子》、《礼记》、《论语》、《吕氏春秋》、《孟子》、《墨子》、《商君书》、《诗经》、《孙子》、《武子》、《孝经》、《荀子》、《晏子春秋》、《仪礼》、《周礼》、《周易》、《庄子》、《尚书》、《左传》这二十五本文献,在统计各文本的词频、词长等基本数据的基础上,计算彼此间的相似系数,分析相似情况.
本篇论文地址:http://www.sxsky.net/cankao/373579.html
一、相似度计算与面向空间的向量模型
(一)相似性计算
相似度计算在中文信息处理中较常使用,它多服务于文本分类和文本聚类,同时也在某种程度上依赖于文本分类和聚类,常用的特征项选取方法--信息增益(IG)就需依先前预定的分类情况来计算.无论是文本分类还是文本聚类,都需用一定的特征项来表示文本,也就是所谓的文本表示,其中特征项的选择是基础.依据是否需要类别信息,特征选择可分为有监督和无监督两种,文本分类多采用有监督特征选择方法,而文本聚类则多采用无监督特征选择方法,当然也有很多学者为了达到更高的选择精度而尝试把类信息融入到文本聚类中,使用有监督学习方法中的信息增益来寻找文本中最具分类能力的特征运用于文本聚类.本文主要是对先秦二十五本文献进行聚类分析,在未预测各文本间的分类情况的基础上计算每两本文献间的相似性,将其与人们的主观归类进行比较,分析其差异.由于是在未知类信息的情况下进行的研究,所以主要通过无监督特征选择方法中的文档频率来控制特征项的选择,同时从传统的TF-IDF值出发,充分考虑古典文献的文本特征,通过实验选取合适的阀值进一步提取特征项,利用空间向量模型计算各文本间的相似度.
(二)面向空间的向量模型
计算对象相关度的常用模型主要有空间向量模型和集合运算模型等.由于后者的局限性比较大,所以常用向量空间模型来计算文档相似度.
向量空间模型是20世纪60年代由Salton等人提出的,该模型利用从文本中提取出的特征项的集合来概念化地表示整个文档,并且依据每个特征项在文档中的重要性来赋给不同的权重,也就是说一个未分类的文本就是一个由各个不同权重的特征项表示的向量,每个特征项代表向量中的一个维度,其中特征项既可以是文档中的词语也可以是短语还可以是单个的字.例如:假设存在一个文档D,它由t1,t2,t3等tn这样一些特征项组成,且各个特征项的权重分别为w1,w2,w3等wn,那么文档D就可以表示为D(t1,w1,t2,w2等tn,wn).但需要注意的是,在空间向量模型中,各特征项必须是互异的,且假设各特征项之间不存在先后顺序.基于这两个条件,特征项t1,t2,t3等tn就可被简单地看作是一个n维的坐标系,而权重w1,w2,w3等wn则可看作是对应维度的坐标值,那么,一个文档便可以表示为一个n维的空间向量.D(w1,w2,w3等wn)就是该文本的空间向量模型,如右图.
利用空间向量模型,文档的相似度可以通过向量间的相关程度来度量.假设任意两个文本D1和D2,那么这两个文本可以用向量D1(w11,w12等w1n)和D2(w21,w22等w2n)来表示.从上图可以看出,如果两个文档也就是两个向量之间关系越靠近,那么它们两者形成的夹角θ也就越小,相应的cosθ就越大.因而,可以利用两者夹角的余弦值来表示文本的相似系数:
Sim(D1,D2)等于cosθ等于等(公式1)
二、实验操作
本文利用上面所介绍的空间向量模型对先秦的二十五本文献进行了相似度计算,文本的原始资料来源于李斌等人的《Corpus-Based Statistics of Pre-Qin Chinese》一文,在实验过程中,我们首先对原始数据进行预处理,结合古代汉语的特点删除或者保留相应数据.在此基础上计算各词语的TF-IDF值,结合词语的文档、频率选取特征项.最后,根据特征项的权重计算文本相似度,制作图表.
(一)预处理
古代文献多以单字词为主,但是也有多字词的存在.在此需要声明的是,本文以词为特