佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

查看: 1897|回复: 5

[求助]plagiarism detection/ 剽窃侦测系统

[复制链接]
发表于 22-2-2011 12:38 AM | 显示全部楼层 |阅读模式
这是我的FYP 题目,我即将做一个侦测系统,我决定用 tokenize 的方式来做比较,
先去除标点符号,还有is, the, in 等字眼,但是问题就在接下来我想不到要怎么作string与string比较
希望哪位高人能够指点指点
回复

使用道具 举报


ADVERTISEMENT

发表于 22-2-2011 11:48 AM | 显示全部楼层
"剽窃侦测"转句话说,就是
docA = docB 到底有多高的相识度.

英文来说, 大多数都是4-8字节左右(letters) . 超过的大多数都是专属名词.
因为, 通常抄袭者,无法改变太深奥的句子.,所以剽窃特征
1)出现专属名词的句子. 出现>90%相识度(每个letters) 都一样.
2)专属名词出现次数一样. variance < 10%

你的问题无关系到programming, 是IQ 问题. 从IQ 方面想就可以.
回复

使用道具 举报

 楼主| 发表于 22-2-2011 09:58 PM | 显示全部楼层
"剽窃侦测"转句话说,就是
docA = docB 到底有多高的相识度.

英文来说, 大多数都是4-8字节左右(letters) ...
chrizyuen2 发表于 22-2-2011 11:48 AM



    感谢您的回复,
也就是说我以每句的句号为据点,然后就开始以
A_doc_1st_sentence 比 B_doc_1st_sentence
A_doc_1st_sentence 比 B_doc_2nd_sentence
以此类推,当某个句子出现90%相识度时,就算是plagiarize 了, 对么?
回复

使用道具 举报

发表于 22-2-2011 11:50 PM | 显示全部楼层
本帖最后由 chrizyuen2 于 22-2-2011 11:52 PM 编辑

回复 3# mwu

我的方法并不是sequential, 我先找出”特出“词,才分析含有这些”特别“词的句子。因为,我认为sequential detect,太容易被骗倒。
所以我的方法,能将docA第N个句子,比上docB第M个句子。
回复

使用道具 举报

发表于 23-2-2011 11:59 AM | 显示全部楼层
寫AI
understand the document in context
回复

使用道具 举报

 楼主| 发表于 24-2-2011 12:47 AM | 显示全部楼层
回复  mwu

我的方法并不是sequential, 我先找出”特出“词,才分析含有这些”特别“词的句子。因为,我 ...
chrizyuen2 发表于 22-2-2011 11:50 PM



    我大概了解你的意思,但是我该如何去定义这些特别词汇呢?这个我想不通
回复

使用道具 举报

Follow Us
您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2023 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 15-11-2025 03:17 AM , Processed in 0.132440 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表