近年来学术抄袭现象屡见不鲜,①公众人物学术伪造事件的曝光进一步提升了民众对学术不良行为的关心,其行为的危害已经引起了社会各界的广泛重视。如何有效防止、抑制抄袭等不检点行为成为人们研究的热点,随着各种论文对复查原理的研究不断深入,各种学术异端检查系统应运而生。本文讨论的是复印识别检测原理和检测手段。
1由于研究背景抄袭现象有多方面的原因,首先,各种利益驱动或自身能力的限制是对抄袭者产生了主观意图。毫无疑问,随着互联网的广泛普及,搜索引擎的强大功能都为抄袭等行为提供了便利。论文由于沉重工具的应用不太普及,需要提高功能,让抄袭者感到光荣。由于剽窃行为的法律问题严重的认识不足等。复印应用的领域可能有学术论文、博客、程序代码等。本文关注的是中文学术论文的复印件。
从技术方面来说,可以根除抄袭从两个方面开始:一是在写作过程中阻止,二是在发表过程中检查。“检测”方法的设计思想是,不管文章以怎样的形式完成,在决定了原稿的文件中进行检查,确认其中是否包含了剽窃的内容就可以了。显然,
使用检测方法来确定操作性较强。2论文复查原理摘要论文复查原理的核心是文档的复查原理。检测文档的副本有两种基本检测方法。一种是基于字符串比较的方法。另一种是基于词汇统计的方法。基于
字符串比较的方法也称为数字指纹法。这种方法通过一些选择方法将文档中的字符串取作“指纹”,将指纹映射到Hash表,最后统计Hash表中的相同指纹或比例,以作为文本类似度的依据。基于字数统计的方法也被称为基于意思的方法。词数统计法来源于信息检索技术中的矢量空间模型,这种方法首先统计每一文档的单词的出现次数,根据单词的频度构成文档的特征向量,最后以点积、余弦或同样的方法构成两个文档的特征向量。的特征向量,作为文档类似度的依据。
篇论文为了调查复查原理的发展,使用电脑调查论文,进行再认识的研究,首先需要对数字文件进行分析处理。数字文档又分为两种。即自然语言文本和形式语言文本。形式语言文字的比较典型的是计算机程序源代码。虽然复印的情况很多,但是因为有规范的语法和语句结构的特征,所以比较容易分析,这样的复印识别的研究也比较快。
自然语言文本(例如论文等)的复印检查原理的出现比程序复制检查晚了20年。②1
美国斯坦福大学的Brin等人首次提出了与COPS系统对应的算法,之后改良了SCAM的原型。SCAM参考信息检索技术中的矢量空间模型,使用基于词汇统计的方法测量文本的相似性。香港理工大学的Si和Leong等采用统计关键字测量文本的类似性,构筑CHECK模型,在相似性计量中首次导入了文件的结构信息。从
年到2000年,物星奥利等人使用后缀树检索字符串之间的最大子串,制作了MDR的原型。在此之前,全美教育工作者都知道利用教室,综合运用段落样本、网络检索工具、防剽窃技术,抑制欺诈的原因。
③对中文论文的剽窃识别有更大的困难。中文和英语不同,是以字为基础的书写单位,由于日语之间没有明确的区分标记,所以中文的分词是中文文书处理的基础。中文文本的复制识别系统首先需要以单词为基础的模块。因此,中文文本的自动分词的好坏在一定程度上影响了剽窃识别的正确性。
的同时计算机缺乏对自然语言的理解。复印件不仅是原封不动的复印,要达成正确的复印识别是很难的。因此,为了解决中文论文的剽窃识别问题,不能直接应用海外的技术。北京邮电大学张焕炯等在符号理论中用汉明距离的计算公式计算文本的类似度。
中科学院将属性论作为理论依据进行计算,计算向量之间的匹配距离,获得文本的类似度。程玉柱等以汉字数学式理论为基础,将文本的类似度计算转换为空间坐标系矢量三明治余弦的计算问题。
西安交通大学的宋逮捕豹等人开发了CDSDG系统,利用基于词汇统计的重叠度量衡算法,根据粒度计算了整体意义重叠和结构重叠。该算法不仅检测到整个数字正文的非法拷贝行为,还能够检测子集复印、移位本地复印等部分不正当拷贝。晋耀红基于语境框架的类似度计算算法,考虑对象之间的语义关系,从语义角度给出文本之间的类似关系。
大连理工大学的金博、史滕彦军、弘飞对学术论文特有的结构,对学术论文进行页面结构分析,并用数字指纹和词汇统计等方法计算学术论文的类似度。张明辉提出了一种新的基于段落的分段签名近似镜算法来解决重复网页问题。鲍军鹏等基于网格的文本复制检查系统提出了意义上的序列核法的复制检查原理。
金博、史彦军、弘飞滕少提供了基于语义理解的复制品检测系统架构,其核心在语句类似度计算的基础上,将应用范围扩大到了段落。聂计划等基于主体的论文复制检查系统利用语义网络主体技术构建论文主体,计算论文类似度。
篇论文检索重型系统应用信息检测原理的抄袭是国内规范学术行为的有效措施之一。④海外从20世纪70年代初开始,研究了防止程序论文验证的软件,1
篇论文工作论文的检索重检查平台TurnItIn那样,是由iParadigms开发的,系统采用了基于数字指纹的剽窃检查方法,检测资源包括网络资源ProQuest论文库、论文工作库等。英语防剽窃服务为包括加利福尼亚大学伯克利分校、杜克大学、德国汉堡大学在内的2500多所大学和科学研究机构提供服务,在90多个国家中,搜索页数超过66亿,