信息检索有关论文例文,与文本复制检测技术综述相关论文查重
本论文是一篇信息检索有关论文查重,关于文本复制检测技术综述相关在职研究生毕业论文范文。免费优秀的关于信息检索及指纹及图书馆方面论文范文资料,适合信息检索论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
492;外,为加快查找比对效率,SCAM原型系统使用倒排序的索引结构来存储数据库中已有文档的文本块.当有新文档需要检测时,就把新文档注册到数据库中,创建并保留该文档文本块的索引.每个文本块的入口指向若干条记录,每一个记录都有两个属性:document(文档唯一标示符)和frequency(文本块在文档中出现的频率或次数).SCAM检测机制把文档转化成词袋的形式(bagofwords),而没有考虑词与词之间的搭配组合,对于同一个专业提交的学生作业来说,由于关 键 词大部分相同,因而误判率高.CHECK原型系统使用的是基于关 键 词统计的方法.该软件的最大特点就是把待测文档结构信息引入到文档相似性度量中.系统每剖析一篇待测文档,就将获得的结构特征插入注册数据库中.按照要求,系统把一篇文档按照其章、节、段落等方式组织成一棵文档树,树的根结点就是整篇文档,其他结点是文档的一个片断.各个子结点内容之和构成父节点.系统运用信息检索技术中关 键 词提取的方法,根据词频提取整篇文档的关 键 词.统计各个结点上出现的关 键 词及其在该结点上的频率比重,由此得出相应权重.最后,按此方法构成的树就成为该文档的结构特征.
参考文献:
[1]史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57.
[2]宋擒豹,杨向荣,沈钧义.数字商品非法复制的检测算法[J].计算机学报,2002,25(11):1206-1211.
信息检索有关论文例文,与文本复制检测技术综述相关论文查重参考文献资料: