liheyuan 发表于 2010-12-1 00:15:07

爬这么多有啥用么。。我一直就很不解。。垃圾站的意义是什么?除了赚点钱。。
你搞几个机器在你本地爬,一周能爬好几十T的。

drivel 发表于 2010-12-1 01:04:21

对于中文网页,要正确的读出 encode 的方式

可以从网页头部,HTTP header 读出,然后 decode 一下

drivel 发表于 2010-12-1 01:10:26

另外,这样做最大的问题在于截图如何经济有效的存贮和调用

毕竟是文件,不能使用现成的一些 Map/Reduce 或者 NoSQL 之类的数据模型

狒狒 发表于 2010-12-1 07:01:04

nutch 开源的

狒狒 发表于 2010-12-1 07:05:22

一个很不错的想法,但你可能得为些付出一辈子的努力。
因为你的想法……,可能不是一个人的财力、精力……能完成的。
页: 1 [2]
查看完整版本: 有人能搞出這樣子的源碼嗎?