|
大家好,我正在自修C++软件开发。想请问一下大家,如果我要制作一个可以从网站上提取一些资料,C++适合吗?
有任何高手可以赐教一下? |
|
|
|
|
|
|
|
发表于 30-4-2015 12:25 AM
来自手机
|
显示全部楼层
建议你自修Java。比较容易开发,library也很多,学会了也比较吃香。 |
|
|
|
|
|
|
|

楼主 |
发表于 30-4-2015 11:28 AM
|
显示全部楼层
我的本意是想要先C++然后慢慢再转去C# 和java |
|
|
|
|
|
|
|
发表于 30-4-2015 07:16 PM
|
显示全部楼层
本来想中午回帖, 但是太忙了.
从别个地点抓取资料来是比较偏中高阶的难度, 如果你想持续, 请找个简单习题来练习.
首先你可以去研究下curl
curl网页
我是下载without SSL support, 解压缩出来就是一个exe档案. 如下图
那这个 exe 能干吗? 你double click 他是不会有反应的, 这时你开启 cmd, 如下图:
切换到刚才你下的 curl.exe 所在的位置
打入
- curl.exe www.sinchew.com.my
复制代码 (假设你要抓星洲, 网址请自行切换)
这时就会跳出一大堆文字, 那些就是抓取回来的结果, 这结果跟你在browser 按右键看 view source code差不多.
但是你能够利用 curl.exe, 在你的程式里面执行他, 然后取得raw data 后, 你就要开始parse 资料
这时你需要一点html的知识
- <html>
- <head>
- <title></title>
- </head>
- <body>
- </body
- </html>
复制代码 到时就用正规式去判断,
讲到这边我想你已经知道你问的问题的难度到那里吧?
别急, 慢慢学, 不要急于求成, 到最后还没学有所成, 心就已经腻掉了.
共勉之.
|
|
|
|
|
|
|
|

楼主 |
发表于 5-5-2015 01:23 PM
|
显示全部楼层
谢谢你的解释,很有用处
虽然我不是很会HTML,而我工作上有用到Perl跟TCL。
所以parsing应该不是什么难题, 现在当然我必须要先学一学有关HTML。还有C#,还有curl,还是需要一点时间。
|
|
|
|
|
|
|
|
发表于 5-5-2015 08:43 PM
|
显示全部楼层
parsing 其实是整个过程中最复杂的流程,
打比方说如果给我10个小时研究这个议题, 我想8个小时会耗费在如何parsing上面.
|
|
|
|
|
|
|
|

楼主 |
发表于 5-5-2015 09:55 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 5-5-2015 10:01 PM
|
显示全部楼层
|
|
|
|
|
|
|

楼主 |
发表于 6-5-2015 01:25 PM
|
显示全部楼层
我本身不是,但是工作需要用到scripting所以才慢慢对它有好感。多在perl & TCL, 非常赞同parsing是最费时间,而我除了parsing, 还有analyzing。 |
|
|
|
|
|
|
| |
本周最热论坛帖子
|