论文查重过程中的算法分析
2020-08-10 13:57:40
论文查重在毕业过程中以及在职位的提升中扮演了很重要的角色,我们对它不可回避。是评估我们论文是否通过的的一项标准。
学校以及机构都有自己的标准范围,学校因学位而标准不一样,机构因职称而标准不一样,重复率的要求不一样。
一、总体相似度 = 相似字数 / 检测字数。
二、检测原理:系统根据预检测的内容与系统所拥有的数据库进行比对。
三、系统支持所有语种的论文检测,如中(简/繁)、英、日、法、德文等!
四、论文查重检测范围:涵盖所有中英文类别,包括哲学、经济学、管理学、法学、社会科学、教育学、文学、艺术学、历史学、理学、工学、农学、医学、政治学、军事学等。
五、被系统自动识别出来的非正文部分(如目录,标题,公式,图表,参考文献等)不参与检测,检测字数一般略小于论文字数。
六、系统比对资源:学术期刊,学位论文,会议论文,互联网,英文数据库(涵盖期刊,硕博,会议的英文数据)等数据库资源。系统会不定时的进行更新。
比对方法:以句子为最小单位,采用多级比较法,句段整体的多级比较。并设有一定的阀值,例如5%的阀值,如果一万字的文章,有连续500字相同,超过这个范围也就是这个阀值,则视为剽窃。在修改过程中,只是替换单词、改变句子顺序,并不是一个十分保险的办法。
总文字复制比是考核文章的重要指标,该指标体现了毕业论文“抄别人的”总数占比。
系统的其它指标包括:总文的测试结果重复率、删除引用文献的复制比、删除已发表文献复制比、单个最大文本的复制比。