查看: 1401|回复: 24
|
Data mining 讨论区
[复制链接]
|
|
发表于 3-4-2008 11:23 AM
|
显示全部楼层
我进来坐沙发 。。。。。。![](static/image/smiley/default/shy.gif) |
|
|
|
|
|
|
|
发表于 3-4-2008 05:47 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 3-4-2008 05:52 PM
|
显示全部楼层
|
|
|
|
|
|
|
![](static/image/common/ico_lz.png)
楼主 |
发表于 4-4-2008 01:07 PM
|
显示全部楼层
终于下载完毕。。。
打开 tarball, 一共有 17770 个 files,每个file 属于一个电影的评价
一共有 17770 个 电影, 480189 个用户
每个 training record 的 格式
CustomerID,Rating,Date
里头还有一个
qualifying 的file
也就是你的 test data
有没有人有兴趣尝试的?
[ 本帖最后由 tensaix2j 于 4-4-2008 01:11 PM 编辑 ] |
|
|
|
|
|
|
|
发表于 4-4-2008 01:11 PM
|
显示全部楼层
原帖由 tensaix2j 于 4-4-2008 01:07 PM 发表 ![](http://chinese3.cari.com.my/myforum/images/common/back.gif)
终于下载完毕。。。
打开 tarball, 一共有 17770 个 files
有 17770 个 电影的 评价
有没有有兴趣尝试的?
每一个variable都是integer啊?不过我不能试咯 。。。看看有没有人要和你玩。![](static/image/smiley/default/titter.gif) |
|
|
|
|
|
|
|
![](static/image/common/ico_lz.png)
楼主 |
发表于 4-4-2008 01:14 PM
|
显示全部楼层
等我 data cleansing 完毕后
正打算回家用 GBT 做第一个尝试。。
因为速度 超快的。。。
上回 曾经试过 100,000 rows, 200 columns 的 某某 data
只需 <10 秒 就 一个 model 出来了。。
而且 accuracy 是 90%。。。 |
|
|
|
|
|
|
|
![](static/image/common/ico_lz.png)
楼主 |
发表于 4-4-2008 01:17 PM
|
显示全部楼层
里头 还有 一个 file 是关于 电影的
"movie_titles.txt"
格式
MovieID,YearOfRelease,Title |
|
|
|
|
|
|
|
![](static/image/common/ico_lz.png)
楼主 |
发表于 4-4-2008 01:20 PM
|
显示全部楼层
原帖由 斷羽鳥 于 4-4-2008 01:11 PM 发表 ![](http://chinese4.cari.com.my/myforum/images/common/back.gif)
每一个variable都是integer啊?不过我不能试咯 。。。看看有没有人要和你玩。
input predictors 就是 人的 id, 还有 电影 id,
要predict 的是 电影 的 rating
就酱。。。
为何你不玩呢? |
|
|
|
|
|
|
|
![](static/image/common/ico_lz.png)
楼主 |
发表于 4-4-2008 01:26 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 4-4-2008 01:47 PM
|
显示全部楼层
放着先啦 。。。可能会看下。![](static/image/smiley/default/shy.gif) |
|
|
|
|
|
|
|
发表于 4-4-2008 08:57 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 5-4-2008 12:03 AM
|
显示全部楼层
哈哈~ 我的问题和 Hebe 一样
tensai兄不如简略的解释下 data mining, 让我们开开眼界 ![](static/image/smiley/default/titter.gif) |
|
|
|
|
|
|
|
![](static/image/common/ico_lz.png)
楼主 |
发表于 5-4-2008 01:10 AM
|
显示全部楼层
数据挖掘(Data Mining)就是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。
何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。
原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;
可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。
因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
数据挖掘利用了人工智能(AI)和统计分析(Statistical analysis)的进步所带来的好处。这两门学科都致力于模式发现和预测。
数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。
一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,他们几乎不用人的关照自动就能完成许多有价值的功能。
数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。 |
|
|
|
|
|
|
|
发表于 5-4-2008 03:07 AM
|
显示全部楼层
原帖由 tensaix2j 于 5-4-2008 01:10 AM 发表 ![](http://chinese4.cari.com.my/myforum/images/common/back.gif)
数据挖掘(Data Mining)就是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
随着数据库技术的迅速发展以及数据库管理系统的广泛 ...
很好,很长的解释boh。 你有用完那些你列出来的方法吗?有的话,可否说说每样的+与-? |
|
|
|
|
|
|
|
发表于 5-4-2008 09:44 AM
|
显示全部楼层
|
|
|
|
|
|
|
![](static/image/common/ico_lz.png)
楼主 |
发表于 5-4-2008 10:10 AM
|
显示全部楼层
原帖由 ~HeBe~_@ 于 5-4-2008 09:44 AM 发表 ![](http://chinese3.cari.com.my/myforum/images/common/back.gif)
好像简单来说是用database里的raw data来analysis????
若是, 那要怎样如何开始analyze 呢?
需要用到什么software来analyze这些raw data from database?
你所谓的方法有如
SVM
NN
GBT
RF
这些是有so ...
这些是 algorithm 来的。。。 就是演算法。。 |
|
|
|
|
|
|
|
![](static/image/common/ico_lz.png)
楼主 |
发表于 5-4-2008 10:12 AM
|
显示全部楼层
原帖由 斷羽鳥 于 5-4-2008 03:07 AM 发表 ![](http://chinese3.cari.com.my/myforum/images/common/back.gif)
很好,很长的解释boh。 你有用完那些你列出来的方法吗?有的话,可否说说每样的+与-?
还没有leh 。。。。
我总是觉得 缺乏某样 东西 在那数据里。。。
我个人觉得 GBT 跟 RF 都很快。。
不过可能没那么准咯。。
[ 本帖最后由 tensaix2j 于 5-4-2008 10:45 AM 编辑 ] |
|
|
|
|
|
|
|
![](static/image/common/ico_lz.png)
楼主 |
发表于 5-4-2008 10:26 AM
|
显示全部楼层
原帖由 ~HeBe~_@ 于 5-4-2008 09:44 AM 发表 ![](http://chinese3.cari.com.my/myforum/images/common/back.gif)
好像简单来说是用database里的raw data来analysis????
可以这么说, 最主要还是 从 analysis里 的 data 的 pattern 得到 一个 model
这个 model 呢 , 你可以 用 以后 现在 没有 的 data 丢进去, 也可以演算出 一些 预测(prediction) |
|
|
|
|
|
|
|
![](static/image/common/ico_lz.png)
楼主 |
发表于 5-4-2008 10:31 AM
|
显示全部楼层
例子:
比如说今天我有这些 data
x1 x2 x3 x4 x5 Y
1 2 3 4 5 14
1 2 3 3 2 12
2 4 5 6 7 13
我就可以用这些data 来 制造一个 model
那么以后 我看到
x1 x2 x3 x4 x5 y
1 2 5 2 2 (未知) 《-- unseen data
我就可以用model 来演算出 Y。。 |
|
|
|
|
|
|
| |
本周最热论坛帖子
|