当前位置 —论文—写论文— 范文

学术不端类有关论文范文数据库,与期刊发表文字数云南相关毕业论文致谢

本论文是一篇学术不端类有关毕业论文致谢,关于期刊发表文字数云南相关专科毕业论文范文。免费优秀的关于学术不端及已发表及数据库方面论文范文资料,适合学术不端论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

又制定了如下检测指标来反映该章节的检测情况,对于一篇学位论文来说,每一章的内容各异,重点也不一样,其核心工作内容一般主要存在某几章中,子检测指标可以让用户迅速了解每一章节的检测情况.子检测指标包括:

TR)

重合字数(CNW)

最大段长(LPL)

平均段长(APL)

段落数(PN)

段文字比(PR)

首部复制比(HR)

尾部复制比(ER)

引用复制比(RR)*

上述指标从多个角度反映了检测文献的检测情况,便于用户进行针对性审核.下面对各项指标分别进行说明.

3.2.1TR)

因为学位论文一般文字量较多,为了便于用户快速浏览检测结果.系统会自动对学位论文进行切分处理.有如下两种处理方式:

1MSWord格式,且按照MSWord格式生成了文档目录,检测系统会自动识别论文章节,按论文实际章节信息显示论文内容.

2.若学位论文不存在明显的章节信息,或者不是MSWord格式论文,则系统会自动按照每段1万余字符切分学位论文,按照切分后的结果显示.

文字复制比即指论文切分后每一章节段落的文字复制情况.文字复制比即指学位论文的某一章节与比对文献比较后,重合文字部分在该章节中所占的比例.比例越高,反映该章节越多的文字来自于其他已发表文献.文字复制比反映了文章"抄袭"的文字数量比例,一般来说,文字复制比越高,存在学术不端行为的可能性越大.文字复制比情况如图7所示.

图7文字复制比示例

3.2.2重合字数(CNW)

重合字数指学位论文该章节与比对文献比较后,重合部分的字数.一般来说,不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大.如图8所示,在图中,虽然文字复制比只有16%,比例不高,但图中左文标红部分实际上是抄袭了右文的标红部分.

图8重合字数示例

3.2.3最大段长(LPL),平均段长(APL),段落数(PN)

在学位论文检测中,当连续文字超过一定比例时,称之为段.在本系统中,一般认为,连续200以上文字称为段.

与比对文献重合的最大段长度即为最大段长.最大段长反映成段抄袭特征.连续的文字越长,抄袭的可能性越大.

在学位论文中,所有段的长度的平均值即为平均段长.

在学位论文中,所有段的数量为段落数.

9所示,标红部分&#

学术不端类有关论文范文数据库30340;连续文字构成了段,而且它是算法设计的抄袭,审查人员比较容易判断,而在图10中,标红文字不构成段,连续文字较少,对它的性质判断则可能需要更多的信息.

图9段落复制示例

图10句子复制示例

3.2.4段文字比(PR)

在学位论文的某一章节中,所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比.段文字比反映了抄袭连续特征.一般来说,连续文字出现的越多,比文字分散出现的情况更可能存在学术不端行为.

3.2.5HR)

学位论文某一章节的前20%称之为章节首部,首部的文字复制比为首部复制比.就中文文献来说,一般每一章节正文开头部分出现的是综述性语言,重要性相对偏低.如图11所示,左文和右文开头大段相同,但文字内容基本都是综述性的介绍.

图11首部复制比示例

3.2.6尾部复制比(ER)

每一章节的后80%称之为章节尾部,尾部的文字复制比为尾部复制比.

通常情况下,尾部文字内容就重要性来说,比前部文字内容要高.如图12所示,我们仔细查阅比较图11和图12的内容发现,图11中首部文献是综述他人工作,而图12中尾部文献则是阐述自己的研究工作的目的和意义,应该是作者个人工作的体现,在这部分直接抄袭他文,性质要严重得多.

图12尾部复制比示例

3.2.7引用复制比(RR)

引用复制比指与存在引证关系的文献的文字重合部分的比例.对于学位论文来说,存在引证关系与不存在引证关系的复制部分应区别对待.复制了他文内容,而不注明引用,性质要更加严重.同时我们也认为,不是所有的注明了引用的,就不存在抄袭,引用也应有一个度和范围的限制.

按照上面的检测方法和指标体系,TMLC能够处理多种的学术不端类型.在学位论文检测中,一般不存在不当署名,一稿多投等学术不端行为.对于学位论文检测中的各类学术不端行为,按照性质的严重性由低到高排序,主要包括:抄袭,篡改,伪造等.下面分别进行介绍.

4.1抄袭

针对各种类型,下面分别举例说明:

16段落抄袭示例

4.2篡改

篡改是指按照期望值随意篡改或取舍数据,以符合自己的研究结论,一般有主观取舍数据和篡改原始数据等形式.

99.66%,词性标注的准确率为99.07%,利用CNKI已有的相关技术,系统可以快速检测与分词准确率和词性标注准确率有关的数值信息,供审查人员参考,对文献中数据值远高于当前公布的数据值的情况,提醒审查人员仔细核查,如图19所示.

图19篡改检测示例

在图中,上面黄色标示的是检测文献中描述的分词准确率和词性标注准确率,下面部分则是在CNKI特色搜索功能——数值搜索中检索到的当前关于分词准确率和词性标注准确率的描述.我们可以观察到,当前检测到的所有关于分词准确率和词性标注准确率的描述文字中,其数值均低于检测文献中所描述的数值,因此,我们有理由对检测文献中的分词准确率产生怀疑,提示审查人员进一步核查.

4.3伪造

伪造的特点:新研究成果中提供的材料,方法,数据,推理等方面不符合实际,无法通过重复试验再次取得,有些甚至连原始数据都被删除或丢弃,无法查证.

伪造包括的方面很多,可以伪造数据,伪造基金,伪造项目,伪造数值,表格,图形等.

/伪造项目:有些论文中虚设基金,项目支持,这种情况可通过查询政府相关基金项目库可以快速验证,

伪造数值,图表等知识元,则可以通过CNKI已有的成熟的数值搜索技术,图表搜索技术进行查证,起到警示作用.

注意:伪造是检测难度最高的不端行为,还需要做进一步,更深的研究.

4.4

学术不端类型肯定不止上面列出的几种,其他目前能够有所处理的类型还包括:

别人根本没有说过的话,自己编造,却作为他人的话引用.尤其是杜撰引用国外学者.

根本就不存在的文献,杜撰一篇引文.

TMLC主要功能包括:已发表文献检测,论文检测,问题库查询,自建比对库管理等,下面分别结合例子进行介绍.

5.1已发表文献检测