Data mining 讨论区

tensaix2j · 发表于 3-4-2008 10:07 AM

我想请教。

以下这些方法

SVM
NN
GBT
RF

哪一种对于大型的数据库比较有利。。
例如

http://www.netflixprize.com/
这种数据。。。

[ 本帖最后由 tensaix2j 于 4-4-2008 01:47 PM 编辑 ]

斷羽鳥 · 发表于 3-4-2008 11:23 AM

我进来坐沙发。。。。。。

~HeBe~_@ · 发表于 3-4-2008 05:47 PM

哈哈~
鸟哥~
你的沙发好坐吗？

稳不稳的哦。。。。

斷羽鳥 · 发表于 3-4-2008 05:52 PM

原帖由 ~HeBe~_@ 于 3-4-2008 05:47 PM 发表
哈哈~
鸟哥~
你的沙发好坐吗？
稳不稳的哦。。。。

还好。。。 lorenzo的品牌不错下。等着人开始讨论。

tensaix2j · 发表于 4-4-2008 01:07 PM

终于下载完毕。。。

打开 tarball，一共有 17770 个 files，每个file 属于一个电影的评价
一共有 17770 个电影， 480189 个用户

每个 training record 的格式
CustomerID,Rating,Date

里头还有一个
qualifying 的file
也就是你的 test data

有没有人有兴趣尝试的？

[ 本帖最后由 tensaix2j 于 4-4-2008 01:11 PM 编辑 ]

斷羽鳥 · 发表于 4-4-2008 01:11 PM

原帖由 tensaix2j 于 4-4-2008 01:07 PM 发表
终于下载完毕。。。

打开 tarball，一共有 17770 个 files
有 17770 个电影的评价

有没有有兴趣尝试的？

每一个variable都是integer啊？不过我不能试咯。。。看看有没有人要和你玩。

tensaix2j · 发表于 4-4-2008 01:14 PM

等我 data cleansing 完毕后
正打算回家用 GBT 做第一个尝试。。

因为速度超快的。。。
上回曾经试过 100,000 rows, 200 columns 的某某 data
只需 <10 秒就一个 model 出来了。。
而且 accuracy 是 90%。。。

tensaix2j · 发表于 4-4-2008 01:17 PM

里头还有一个 file 是关于电影的
"movie_titles.txt"

格式
MovieID,YearOfRelease,Title

tensaix2j · 发表于 4-4-2008 01:20 PM

原帖由 斷羽鳥 于 4-4-2008 01:11 PM 发表

每一个variable都是integer啊？不过我不能试咯。。。看看有没有人要和你玩。

input predictors 就是人的 id，还有电影 id，
要predict 的是电影的 rating
就酱。。。

为何你不玩呢？

tensaix2j · 发表于 4-4-2008 01:26 PM

这里有张paper 网上找到的关于 GBT 。。

ftp://download.intel.com/technol ... ning/vol8_art07.pdf

斷羽鳥 · 发表于 4-4-2008 01:47 PM

放着先啦。。。可能会看下。

~HeBe~_@ · 发表于 4-4-2008 08:57 PM

Data mining......基本上是说些什么？

多普勒效应 · 发表于 5-4-2008 12:03 AM

哈哈~ 我的问题和 Hebe 一样

tensai兄不如简略的解释下 data mining, 让我们开开眼界

tensaix2j · 发表于 5-4-2008 01:10 AM

数据挖掘（Data Mining）就是从大量的、不完全的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

随着数据库技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息，人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。

　　何为知识?从广义上理解，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉，好像从矿石中采矿或淘金一样。

原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；

可以是演绎的，也可以是归纳的。发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。

因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。

数据挖掘利用了人工智能（AI）和统计分析(Statistical analysis)的进步所带来的好处。这两门学科都致力于模式发现和预测。

　　数据挖掘不是为了替代传统的统计分析技术。相反，他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度还是令人满意的，但对使用者的要求很高。而随着计算机计算能力的不断增强，我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。

　　一些新兴的技术同样在知识发现领域取得了很好的效果，如神经元网络和决策树，在足够多的数据和计算能力下，他们几乎不用人的关照自动就能完成许多有价值的功能。

　　数据挖掘就是利用了统计和人工智能技术的应用程序，他把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。

斷羽鳥 · 发表于 5-4-2008 03:07 AM

原帖由 tensaix2j 于 5-4-2008 01:10 AM 发表
数据挖掘（Data Mining）就是从大量的、不完全的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

随着数据库技术的迅速发展以及数据库管理系统的广泛 ...

很好，很长的解释boh。你有用完那些你列出来的方法吗？有的话，可否说说每样的＋与－？

~HeBe~_@ · 发表于 5-4-2008 09:44 AM

好像简单来说是用database里的raw data来analysis????

若是，那要怎样如何开始analyze 呢？
需要用到什么software来analyze这些raw data from database?

你所谓的方法有如
SVM
NN
GBT
RF
这些是有software的吗？
还是要叫我们来写出program来analysis raw data?

而且，你那些方法可以从哪里学来的？

难不难学？

tensaix2j · 发表于 5-4-2008 10:10 AM

原帖由 ~HeBe~_@ 于 5-4-2008 09:44 AM 发表
好像简单来说是用database里的raw data来analysis????

若是，那要怎样如何开始analyze 呢？
需要用到什么software来analyze这些raw data from database?

你所谓的方法有如
SVM
NN
GBT
RF
这些是有so ...

这些是 algorithm 来的。。。就是演算法。。

tensaix2j · 发表于 5-4-2008 10:12 AM

原帖由 斷羽鳥 于 5-4-2008 03:07 AM 发表

很好，很长的解释boh。你有用完那些你列出来的方法吗？有的话，可否说说每样的＋与－？

还没有leh 。。。。
我总是觉得缺乏某样东西在那数据里。。。

我个人觉得 GBT 跟 RF 都很快。。
不过可能没那么准咯。。

[ 本帖最后由 tensaix2j 于 5-4-2008 10:45 AM 编辑 ]

tensaix2j · 发表于 5-4-2008 10:26 AM

原帖由 ~HeBe~_@ 于 5-4-2008 09:44 AM 发表
好像简单来说是用database里的raw data来analysis????

可以这么说，最主要还是从 analysis里的 data 的 pattern 得到一个 model
这个 model 呢，你可以用以后现在没有的 data 丢进去，也可以演算出一些预测（prediction）

tensaix2j · 发表于 5-4-2008 10:31 AM

例子：

比如说今天我有这些 data
x1  x2  x3  x4  x5                Y
1 2 3 4 5                14
1 2 3 3 2                   12
2  4 5 6 7                   13

我就可以用这些data 来制造一个 model

那么以后我看到
x1 x2 x3  x4  x5                y
1 2 5 2 2                (未知）  《-- unseen data

我就可以用model 来演算出 Y。。

		自动登录	找回密码
密码			注册

Data mining 讨论区

回复 2# 斷羽鳥的帖子

回复 10# tensaix2j 的帖子

回复 14# tensaix2j 的帖子

所属分类: 资讯科技

浏览过的版块

Data mining 讨论区

回复 2# 斷羽鳥 的帖子

回复 10# tensaix2j 的帖子

回复 14# tensaix2j 的帖子

所属分类: 资讯科技

浏览过的版块

回复 2# 斷羽鳥的帖子