全文预览

文档相似度检测系统设计——毕业设计论文

上传者:相惜 |  格式:doc  |  页数:42 |  大小:0KB

文档介绍
论文来进行比较,而并没有针对于本地的报告或论文的检测。本系统是单机Р版的系统,是针对本地的报告或论文的来进行检测,无需链接网络以及利用网络上的数据库,为教师使用系统缩小了检测范围和提供了方便。本系统的使用,可以让教师对学生的监督有一定的方法和依据,尽量减少学生抄袭的念头,而认真去完成实验或设计,达到实验的目的和效果,进而提高学生专业学习的积极性,营造一个良好的学习氛围。Р2.4设计相关介绍Р不管是学术论文,还是专业学习中涉及到的报告或论文,其抄袭形式和手段都是多种多样的,最主要的有3种:全文相似、段落相似、句子相似。Р全文相似主要是完全复制其他文档,只修改其中的特征处,如姓名、学号等;Р段落相似主要是选取其他文档的某部分段落,稍微进行或修改或删除整合到文档中;Р句子相似主要是选取其他文档的某句,或不修改,或只替换某些词语,然后把句子插入整合到文档中。其中,段落相似和句子又可以归为一类,因为有时候单独的句子也可以自成一段的。Р除了以上的这些相似类型,文档又在语意、结构上可以相似,但是,本系统不进行语意、结构上的分析。此外,还有对图、表和公式的抄袭,不过本系统也只对其文本部分进行检测。Р目前,对于文档相似度的判定采取的主要算法有3种:Р最长公共子串算法(mon-subsequence , LCS算法)。LCS算法就是求两个字符串的公共子串的最大可能长度。例如,字符集S={ ‘ A ’, ‘ C ’, ‘ G ’, ‘ T ’},‘ GCTAT ’和‘ CGATTA’的最长公共子串为‘ GTT ’,其长度为3。[2]Р余弦定理(向量空间算法)。ard系数来计算文本相似度。[3]Р距离编辑算法(Levenshtein Distance,LD算法)。距离编辑的定义是将字符串A转换为字符串B所用的最少字符操作数。Р本系统采用的是距离编辑算法,本论文在第四部分系统设计概述中会进行简单介绍

收藏

分享

举报
下载此文档