|
|
发表于 4-5-2008 11:07 AM
|
显示全部楼层
原帖由 tensaix2j 于 3-5-2008 09:58 PM 发表 
我那时是用 Gradient boosting tree,有尝试 support vector machine,还有 神经网, 但都差不多。。
基本上会把 data 分成两批,
一批做 model training
一批做 model testing
很棒的体验啊。一直很想深入到DM,只是没有什么时间。
可以分享多一些关于你的经验吗?例如工具,dataset。 |
|
|
|
|
|
|
|
|
|
|
发表于 4-5-2008 05:30 PM
|
显示全部楼层
好吧,我就试试看
基本上, 那时 我做 那家 是个 晶片的test house 。。。他们的 test 的 process pipeline 很多也很长的
process A -> process B --> process C -> ...... process n
从 A 到 n 可能会好几天到一个星期 所以我们的目的是想看看 能不能 用 process A 的 一些 data例如 test parameters ,来预测最终结果,或比较后尾的结果。 因为他的 parameters 实在是太多了, 可以上千到万。。。 所以很难直接从 graph 找出这些parameters 跟 yield 的 relationship。。
yield 跟这些parameter的关系 就好像 我有 x1,x2,x3,x4...xn 个 inputs 我想 知道会造成哪些 y1,y2,y3...yn 结果
所以我们可以用 historical data, 因为 historical data 里 有 x 跟 y 的 data ,只是 关系不清楚,所以要靠data mining 找出它们的关系
因为那时我做的那家他们有个 in house 的 data mining api (它们称作 ideal,听说是苏联人写的)。。 所以 我只是 写script 应用 他们的 api 罢了。
这个 api 里头 有 各种 algorithm 可以选,其中包挂, gbt,random forest, ann, svm 等等。。
那时我做的也不会很复杂的。。基本上 过程 有两个phase ,
首先就是用 过去的 historical data 做 model training,
model train 出来后, 在用另一set 新的data来 test , 如果 accuracy 合理的话(就是within 某某 statistical limit), 就可以 拿去implement
model training 的过程首先就是 去pull historical data, 然后 做data cleansing(部分是 api 可以做,部分还得自己来) ,然后 feed进 那个api , 它就会 crunch 出 一个 model .这个 model 就会算出inputs x1 x2 x3....xn 跟结果 y1 y2....yn的关系. 然后就可以拿来做prediction用
这个过程开始可以是 manual的,后来可以automate的,因为同一个model 不能用太久,它的accuracy 会随着时间变得越来越不准确.. 所以每个星期要用比较 updated 的historical data 从新 build 过一个新的model
然后 implementation 的过程是, 在 mssql set 个 cron job, through 那个 linked server 从它们的 oracle 每天 pull 一set 最新的 data,然后 export csv 然后 pipe 到 我的script 去 做 data cleansing 然后再 pipe 到 另 一个 script 会 load 之前 train 好了的model, 做 prediction 然后 feed prediction result到 另一个某某 db 里的一个field , 然后别人的 web application 就可以去query 那个db 然后 显示在他们的网页
[ 本帖最后由 tensaix2j 于 4-5-2008 05:33 PM 编辑 ] |
|
|
|
|
|
|
|
|
|
|

楼主 |
发表于 4-5-2008 05:45 PM
|
显示全部楼层
回复 22# tensaix2j 的帖子
感觉好像是AI多过像BI
那这个系统有帮助到贵公司吗? |
|
|
|
|
|
|
|
|
|
|
发表于 6-5-2008 07:15 PM
|
显示全部楼层
这个问题, 我也不是很清楚。。哈哈。。
不过我不在那家做很久了。。。 |
|
|
|
|
|
|
|
|
|
|
发表于 6-5-2008 10:38 PM
|
显示全部楼层
AI = Artificial Intelligence => BI = Business Intelligence
其实这两个有点交接的地方,只不过BI是属于Business-Oriented,协助Human Decision Making是最终的目标。
天才现在在从事什么啊? |
|
|
|
|
|
|
|
|
|
|
发表于 7-5-2008 09:09 PM
|
显示全部楼层
|
|
|
|
|
|
|
|
|
|
发表于 26-3-2009 07:56 PM
|
显示全部楼层
有谁考过70-445:Microsoft SQL Server 2005 Business Intelligence – Implementation and Maintenance吗?
大家都有去拿course吗?
self study能够pass吗? |
|
|
|
|
|
|
|
|
|
|
发表于 2-4-2009 10:46 AM
|
显示全部楼层
|
请问 BI 在 Malaysia 有发展的空间吗? 得到 BI job offer 但不懂要不要 accept. |
|
|
|
|
|
|
|
|
| |
本周最热论坛帖子
|