有人能搞出這樣子的源碼嗎？ - 第2页 - Web技术 - 全球主机交流论坛

liheyuan 发表于 2010-12-1 00:15:07

爬这么多有啥用么。。我一直就很不解。。垃圾站的意义是什么？除了赚点钱。。
你搞几个机器在你本地爬，一周能爬好几十T的。

drivel 发表于 2010-12-1 01:04:21

对于中文网页，要正确的读出 encode 的方式

可以从网页头部，HTTP header 读出，然后 decode 一下

drivel 发表于 2010-12-1 01:10:26

另外，这样做最大的问题在于截图如何经济有效的存贮和调用

毕竟是文件，不能使用现成的一些 Map/Reduce 或者 NoSQL 之类的数据模型

狒狒发表于 2010-12-1 07:01:04

nutch 开源的

狒狒发表于 2010-12-1 07:05:22

一个很不错的想法，但你可能得为些付出一辈子的努力。
因为你的想法……，可能不是一个人的财力、精力……能完成的。

页: 1 [2]

全球主机交流论坛's Archiver