|
查看: 1898|回复: 5
|
[求助]plagiarism detection/ 剽窃侦测系统
[复制链接]
|
|
|
这是我的FYP 题目,我即将做一个侦测系统,我决定用 tokenize 的方式来做比较,
先去除标点符号,还有is, the, in 等字眼,但是问题就在接下来我想不到要怎么作string与string比较
希望哪位高人能够指点指点 |
|
|
|
|
|
|
|
|
|
|
发表于 22-2-2011 11:48 AM
|
显示全部楼层
"剽窃侦测"转句话说,就是
docA = docB 到底有多高的相识度.
英文来说, 大多数都是4-8字节左右(letters) . 超过的大多数都是专属名词.
因为, 通常抄袭者,无法改变太深奥的句子.,所以剽窃特征
1)出现专属名词的句子. 出现>90%相识度(每个letters) 都一样.
2)专属名词出现次数一样. variance < 10%
你的问题无关系到programming, 是IQ 问题. 从IQ 方面想就可以. |
|
|
|
|
|
|
|
|
|
|

楼主 |
发表于 22-2-2011 09:58 PM
|
显示全部楼层
"剽窃侦测"转句话说,就是
docA = docB 到底有多高的相识度.
英文来说, 大多数都是4-8字节左右(letters) ...
chrizyuen2 发表于 22-2-2011 11:48 AM 
感谢您的回复,
也就是说我以每句的句号为据点,然后就开始以
A_doc_1st_sentence 比 B_doc_1st_sentence
A_doc_1st_sentence 比 B_doc_2nd_sentence
以此类推,当某个句子出现90%相识度时,就算是plagiarize 了, 对么? |
|
|
|
|
|
|
|
|
|
|
发表于 22-2-2011 11:50 PM
|
显示全部楼层
本帖最后由 chrizyuen2 于 22-2-2011 11:52 PM 编辑
回复 3# mwu
我的方法并不是sequential, 我先找出”特出“词,才分析含有这些”特别“词的句子。因为,我认为sequential detect,太容易被骗倒。
所以我的方法,能将docA第N个句子,比上docB第M个句子。 |
|
|
|
|
|
|
|
|
|
|
发表于 23-2-2011 11:59 AM
|
显示全部楼层
寫AI
understand the document in context  |
|
|
|
|
|
|
|
|
|
|

楼主 |
发表于 24-2-2011 12:47 AM
|
显示全部楼层
回复 mwu
我的方法并不是sequential, 我先找出”特出“词,才分析含有这些”特别“词的句子。因为,我 ...
chrizyuen2 发表于 22-2-2011 11:50 PM 
我大概了解你的意思,但是我该如何去定义这些特别词汇呢?这个我想不通 |
|
|
|
|
|
|
|
|
| |
本周最热论坛帖子
|