佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

查看: 1196|回复: 8

关于Web 2.0 平台

[复制链接]
发表于 21-1-2008 09:33 PM | 显示全部楼层 |阅读模式
想請問各位師父...

我想 develop web2.0 平台,这平台能让我 (example):
- display new added friends in Friendster
- display new matching job in Jobstreet
- display new mail in gmail

就好像 igoogle,可以 Personalized any widget you want..

而我的問題是要::
1) 如何从这些网站拿到我需要的資料呢?
2) 如果这些网站沒提供API or Web Services or RSS Feeder 呢?
3) 有任何的 Good solution 分享嗎?
回复

使用道具 举报


ADVERTISEMENT

发表于 22-1-2008 08:22 PM | 显示全部楼层
如果这些网站沒提供API or Web Services or RSS Feeder,
那你就只好 screen scrap 咯。如果可以的话,找它的 archiver 会比较少垃圾给你scrap

就好象 cari 现在没有 rss
http://chinese2.cari.com.my/myforum/rss

但有 archiver
http://chinese2.cari.com.my/myforum/archiver/?fid-112.html

如果再 没有。。。
那 bo bian 咯。。
html 慢慢 parse 。。。
回复

使用道具 举报

 楼主| 发表于 22-1-2008 10:46 PM | 显示全部楼层

回复 2# 的帖子

想知道你是怎知道 Cari 會有Archiever 的?  

Let say, 我想要::
1) Bursa Malaysia http://www.bursamalaysia.com 的 latest stock price
    只有抓HTML parse?
2) Jobstreet latest matching job
    我需要login 然後用HTML parse?

有更好的Solution 嗎? 前提是沒有 web services, RSS and API...
回复

使用道具 举报

 楼主| 发表于 29-1-2008 09:02 PM | 显示全部楼层
有什麼办法呢?
回复

使用道具 举报

发表于 1-2-2008 03:24 PM | 显示全部楼层
Mircosoft .Net 里有一个 WebRequest 的方法,可以用来抓取这些网页。PHP 也有相同的方法。
回复

使用道具 举报

发表于 2-2-2008 01:30 AM | 显示全部楼层

回复 #5

羊 老大, 好久 不见!!

我估计 楼主 已经 正在 用着 web request 的东西去request那些东西 只是 别人的server 丢回来的response 是 很多杂物的 html 。。
因为 没有 rss 或 其它 比较容易 parse的东西

所以 我也在想有什么更好的方法。因为 我也想 挖 家礼的 一些东西。。


P、S 得空去 灌水贴交流一下
回复

使用道具 举报

Follow Us
发表于 2-2-2008 09:19 AM | 显示全部楼层
Ruby的我倒是知道一个

hpricot

用法简单,
  1. require 'hpricot'
  2. require 'open-uri'

  3. doc = open("http://www.google.com"){|h| Hpricot(h) }
  4. puts (doc/"html/title")
  5. #=><title>Google</title>

  6. doc.search("a") {|link| puts link.get_attribute("href") } #print all hyperlink url
复制代码


但是大部分网站有声明内容是禁止转载的,慎用。
回复

使用道具 举报

发表于 2-2-2008 10:37 AM | 显示全部楼层
原帖由 tensaix2j 于 2-2-2008 01:30 AM 发表
羊 老大, 好久 不见!!

我估计 楼主 已经 正在 用着 web request 的东西去request那些东西 只是 别人的server 丢回来的response 是 很多杂物的 html 。。
因为 没有 rss 或 其它 比较容易 parse的东西

所以 ...


好久不见。。。
是没办法的。。。WebRequest 了之后肯定要一层层那样来 “剥皮”。。。
回复

使用道具 举报


ADVERTISEMENT

 楼主| 发表于 3-2-2008 11:35 AM | 显示全部楼层
沒办法,目前也只能用 Web Request 了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2023 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 24-9-2025 10:27 AM , Processed in 0.115755 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表