本论文是一篇关于句子方面论文格式模板,关于文档抄袭检测相关毕业论文开题报告范文。免费优秀的关于句子及文本及作业方面论文范文资料,适合句子论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:针对作业抄袭现象,建议教师使用作业抄袭检测系统,分析了各种文档抄袭检测系统和文档特征提取方式,研究并提出了基于句子相似度语句定位的作业抄袭检测.
关 键 词:文档抄袭;特征提取;文本块
中图分类号:TP393文献标识码:A文章编号:1674-7712(2013)04-0034-02
一、引言
电子文档抄袭可以分
关于句子方面论文范文集
有关论文范文主题研究: | 关于句子的论文范文检索 | 大学生适用: | 专升本论文、函授论文 |
---|---|---|---|
相关参考文献下载数量: | 55 | 写作解决问题: | 学术论文怎么写 |
毕业论文开题报告: | 论文任务书、论文设计 | 职称论文适用: | 技师论文、初级职称 |
所属大学生专业类别: | 学术论文怎么写 | 论文题目推荐度: | 免费选题 |
二、文档特征提取方式
两篇文档间的相似内容的多少,是衡量这两篇文档间是否存在抄袭现象的重要依据.相似内容越多,抄袭嫌疑越大.文档间的特征通过文本块来表示,一个文本块是由一个或多个连续的单元序列组成.根据文本块粒度把文档分解成章节、段落、句子、词语、字等进行单元分解,分解后的每一种单元称之为单元类型.文本块的选择对程序的检测效率有着很大的影响.常用的文本块选取策略有:第一,选取整篇文档作为一个文本块.将整篇文档作为一个文本块进行Hash处理后去与其他文档进行对比,这种选取方法粒度较大,但效率比较高,并且所需的存储空间也非常小.但是由于文本块的选取比较粗糙,对于重度抄袭现象能够较好的识别出来,但是对于轻度抄袭现象的识别效果不佳.第二,选取句子作为文本块.对于文档间部分抄袭现象的检测,需要通过减少文本块长度来实现.将文档按照句子进行划分,通过文档间公共句子的数量来衡量两篇文档间的相似程度.由于句子是由词按一定顺序组合而成,句子比字词包含更多的语义信息,将文档按照句子进行划分相对来说更加合适.但是该方法对于有效句子的界定是个较大的难点,并且对于句子间的部分抄袭现象不能有效的识别.第三,选取单个字作为文本块.这是最细的选取策略.由于使用该方法不用考虑字与字之间的组合关系,因此相对于按句子进行文本块划分来说,检测速率反而会更块.但是单个的字并不代表任何语义信息,因此使用该方法忽略了字与字之间的组合关系,从而存在很高的误判率.第四,选择连续的k个内容不重叠单元作为文本块.对于不重叠的文本块,如果将一个字符作为一个单元,如对于字符串“1234”,选取两个连续的单元作为文本块,那么对文本块进行分解后有“12”和“34”两个文本块.该方法实现起来比较简单,并且仅需较小的存储空间,但是如果对文档中某一个字符做插入或者删除修改后,该字符后面的所有文本块内容将会全部改动.即改动后该字符后面对应的文本块将全部不同,因此该方法存在很高的误判率.第五,选择连续的k个内容部分重叠的单元作为文本块.该方法分解的两个相邻文本块之间存在k-1个重复单元.对于字符串“1234”,选取两个连续的单元作为文本块,那么对文本块分解后将得到如下文本块:“12”,“23”,“34”.该方法对于文档间的部分抄袭现象能够较好的识别,且对文档做部分修改、插入和删除等操作不会对检测结果造成很大的影响,但是该方法需要使用大量的内存空间.一种改进的方法是通过抽样选取文档特征来减少内存空间的消耗.第六,哈希断点法.结合规则四和规则五的优缺点,提出一个改进的Hash断点法.用户首先设定一个value值,然后计算出文档中第一个字的哈希值,把哈希值对value进行取mod运算,如果余数等于0,那么第一个文本块就是第一个字;如果不等于0,就把第二个字的Hash值对value进行mod运算.如果运算结果等于0,那么前两个字就是将选取为第一个文本块;如果还不等于0,则按照上述规则继续进行运算,直到它的Hash值对k进行mod运算等于0为止.当第一个文本块选取后,将第一个文本块选取位置作为一个断点,即上述规则的开始位置,继续按照上述规则对文档文本块进行选取[2].
三、基于句子相似度语句定位的作业抄袭检测
如今国内外主要使用的检测方法主要有两种,分别是基于字符串比较的方法和基于词频统计的方法.基于句子相似度语句定位的作业抄袭检测算法也成为研究热点.在文本块选择方面,文本块选择的粗细程度对系统的检测额速率和检测的精度都有很大的影响.假如文本块选择得太粗,那么将会降低文本块的比较次数,但是对于文档局部修改的敏感度太大,因此很难发现部分抄袭现象;假如文本块选择得太细,对于发现部分抄袭行为效果良好,但却需要消耗大量性能来对文本块进行比较.所以,应该在两者之间找到一个平衡点,从而获取很好的解决方案.在文本复制检测技术方面,判别文档间是否存在剽窃现象,主要通过对两篇文档间的文本块进行对比,通过文本块之间的相似程度来确定文档间的相似程度.
根据轻度抄袭和重度抄袭两大类特点,设计出基于句子相似度抄袭语句定位算法,不仅能够计算作业间的相似程度并且还能定位相似语句位置.经过大量试验研究发现,句子间相似度高于0.7的作业可能是完全抄袭的;句子间相似度处于0.3与0.7之间的作业可能是部分抄袭的;句子间相似度小于0.3的,大多是由于一些常用语句、作业题目或者模板等因素造成的干扰,可以排除抄袭可能.斯坦福大学在1995年研究出
关于句子方面论文范文集,与文档抄袭检测相关论文格式模板参考文献资料: