找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
楼主: skwinx

有人能搞出這樣子的源碼嗎?

[复制链接]

37

主题

465

回帖

1061

积分

金牌会员

积分
1061
发表于 2010-12-1 00:15:07 | 显示全部楼层
爬这么多有啥用么。。我一直就很不解。。垃圾站的意义是什么?除了赚点钱。。
你搞几个机器在你本地爬,一周能爬好几十T的。
回复

使用道具 举报

3

主题

318

回帖

675

积分

高级会员

积分
675
发表于 2010-12-1 01:04:21 | 显示全部楼层
对于中文网页,要正确的读出 encode 的方式

可以从网页头部,HTTP header 读出,然后 decode 一下
回复

使用道具 举报

3

主题

318

回帖

675

积分

高级会员

积分
675
发表于 2010-12-1 01:10:26 | 显示全部楼层
另外,这样做最大的问题在于截图如何经济有效的存贮和调用

毕竟是文件,不能使用现成的一些 Map/Reduce 或者 NoSQL 之类的数据模型
回复

使用道具 举报

54

主题

720

回帖

1618

积分

金牌会员

积分
1618
发表于 2010-12-1 07:01:04 | 显示全部楼层
nutch 开源的
回复

使用道具 举报

54

主题

720

回帖

1618

积分

金牌会员

积分
1618
发表于 2010-12-1 07:05:22 | 显示全部楼层
一个很不错的想法,但你可能得为些付出一辈子的努力。
因为你的想法……,可能不是一个人的财力、精力……能完成的。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-1-16 10:49 , Processed in 0.016481 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表