本论文是一篇关于数据库方面发表论文,关于学术文复制检测的进展新方法相关开题报告范文。免费优秀的关于数据库及学术不端及知识产权方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
[摘 要]综述国内外学术论文复制检测的研究现状,针对存在的问题提出以后研究的新思路:构建某一学科领域学术论文语料库;以信息论为工具,针对某学科领域建立基于学术论文语料库的统计语言模型;结合学术论文抄袭剽窃的特点,通过赋予描述资源对象语义信息的不同元数据项以不同的权函数,设计相似度算法;使用Lemur工具箱,在标准的TREC文档集上对模型和算法进行检验;与Turnitin侦探剽窃系统进行实验对比,评价该模型和算法的有效率和效果.
[关 键 词]学术论文 复制检测抄袭剽窃检测统计语言模型文本相似度算法
[分类号]TP391.1
自从方舟子的“新语丝”使原本长期存在于学术界的学术不端暴露出来之后,学术论文抄袭剽窃引起社会的广泛关注.抄袭剽窃的表现形式多种多样:有些只是在语言文字的表达形式上做手脚,换成同义词或颠倒语句的表达顺序,在文章框架、主要观点和主要论据上却没有大的变化;有些直接大段地“引用”别人的内容;有些综合运用多种手段,将多篇别人的文章拼凑而成自己的;有些̶
关于数据库方面论文范文资料
有关论文范文主题研究: | 关于数据库的论文范本 | 大学生适用: | 学院学士论文、学士学位论文 |
---|---|---|---|
相关参考文献下载数量: | 39 | 写作解决问题: | 写作技巧 |
毕业论文开题报告: | 论文任务书、论文题目 | 职称论文适用: | 期刊目录、高级职称 |
所属大学生专业类别: | 写作技巧 | 论文题目推荐度: | 优质选题 |
本篇论文来自 http://www.sxsky.net/zhengzhi/050915128.html
1 国内外研究现状及存在的问题
1.1 国外研究现状
国外具有代表性的文档相似度算法主要有以下几种:①Manber提出一个sif工具,其“近似指纹”是用基于字符串匹配的方法来度量文件之间的相似性;②Brin等在“数字图书馆”工程中首次提出文本复制检测机制COPS(copyprotectionsystem)系统与相应算法,奠定了论文抄袭检测系统的基础;③Garcia-Molin提出SCAM(Stanfordcopyanalysismethod)原型,改进了COPS系统,用于发现知识产权冲突.他使用基于词频统计的方法来度量文本相似性,后来把检测范围从单个注册数据库扩展到分布式数据库上以及在Web上探测文本复制的方法;④贝尔实验室的Heintze开发了KOALA系统用于剽窃检测,采用与sif基本相同的算法;⑤si和Leong等人建立的CHEC系统首次把文档结构信息引入到文本相似性度量中;⑥Stein提出一种方法,这种方法能产生一种“指纹”,在某种程度上能有效防止修改;⑦MeyerzuEissen等提出通过根据写作风格上的变化来分析单篇文档,从而决定是否有潜在抄袭;⑧美国学校首先引入Tumitin侦探剽窃数据库,用于防止论文抄袭,此外还有其他类似软件系统用于进行文档相似度分析.当然不同的检测系统其相似度算法的精度也不尽相同.
1.2 国内研究现状
国内关于论文抄袭剽窃检测方面已有一些研究:①张斯通过对中文文本进行自动分词,然后计算它们的相似度,从而判别文本是否抄袭,其对应装置包括:样本输入装置、样本数据库、自动分句分词装置、分词数据库、预处理装置、特征词数据库、相似判别装置、判别结果输出装置和控制处理装置等.②鲍军鹏通过文本的结构信息和语义信息提取文本特征,是通过运用文本剽窃判定模块中设定的探针法,估计待检测文本特征和特征库中的文本特征的最大共同语义,并给出文本雷同度量,从而判别文本是否抄袭.③沈阳是通过先找到存储空间内的格式遗留,再将这些遗留格式附近文档的关 键 词或/和句子或/和段落与文献库中的文献内容进行比较,从而减少被检测文档的数据量,加快了反剽窃或
关于数据库方面论文范文资料,与学术文复制检测的进展新方法相关发表论文参考文献资料: