[求助]plagiarism detection/ 剽窃侦测系统

mwu · 发表于 22-2-2011 12:38 AM

这是我的FYP 题目，我即将做一个侦测系统,我决定用 tokenize 的方式来做比较，
先去除标点符号，还有is, the, in 等字眼，但是问题就在接下来我想不到要怎么作string与string比较
希望哪位高人能够指点指点

chrizyuen2 · 发表于 22-2-2011 11:48 AM

"剽窃侦测"转句话说,就是
docA = docB 到底有多高的相识度.

英文来说, 大多数都是4-8字节左右(letters) . 超过的大多数都是专属名词.
因为，　通常抄袭者，无法改变太深奥的句子．，所以剽窃特征
1)出现专属名词的句子. 出现>90%相识度(每个letters) 都一样.
2)专属名词出现次数一样．　variance < 10%

你的问题无关系到programming, 是IQ 问题.　从IQ 方面想就可以.

mwu · 发表于 22-2-2011 09:58 PM

"剽窃侦测"转句话说,就是
docA = docB 到底有多高的相识度.

英文来说, 大多数都是4-8字节左右(letters) ...
chrizyuen2 发表于 22-2-2011 11:48 AM

感谢您的回复，
也就是说我以每句的句号为据点，然后就开始以
A_doc_1st_sentence 比 B_doc_1st_sentence
A_doc_1st_sentence 比 B_doc_2nd_sentence
以此类推，当某个句子出现90%相识度时，就算是plagiarize 了, 对么？

chrizyuen2 · 发表于 22-2-2011 11:50 PM

本帖最后由 chrizyuen2 于 22-2-2011 11:52 PM 编辑

回复 3# mwu

我的方法并不是sequential, 我先找出”特出“词，才分析含有这些”特别“词的句子。因为，我认为sequential detect,太容易被骗倒。
所以我的方法，能将docA第N个句子，比上docB第M个句子。

megablue · 发表于 23-2-2011 11:59 AM

寫AI
understand the document in context

mwu · 发表于 24-2-2011 12:47 AM

回复 mwu

我的方法并不是sequential, 我先找出”特出“词，才分析含有这些”特别“词的句子。因为，我 ...
chrizyuen2 发表于 22-2-2011 11:50 PM

我大概了解你的意思，但是我该如何去定义这些特别词汇呢？这个我想不通

		自动登录	找回密码
密码			注册

[求助]plagiarism detection/ 剽窃侦测系统

所属分类: 电脑手机

浏览过的版块