采集是个辛苦活。。 - 第2页 - Web技术 - 全球主机交流论坛

leaderweb 发表于 2011-7-2 07:35:53

原帖由 leaderweb 于 2011-7-2 07:35 发表
back.gif

楼主采集的啥呀？什么站？

ass。。xxx content -----

金关村村长 发表于 2011-7-2 16:22:26

原帖由糕手于 2011-7-2 02:40 发表
back.gif

尼玛的直接开火车就OK了何必去写神马正则搞死人......

022.gif

022.gif
火车就更加麻烦了，比curl还要麻烦，而且远没有curl灵活

金关村村长 发表于 2011-7-2 16:23:18

我用帝国就很爽，没那么复杂，或者火车头。

东方星雨 发表于 2011-7-2 20:53:23

写好采集规则就万事无忧了……

草鸣发表于 2011-7-2 21:15:25

被k 时死的更惨

大鲨鱼 发表于 2011-7-3 09:19:45

022.gif

022.gif
哪有那么容易被k

google现在判断是否重复内容使用的听说是simhash算法，采集的时候不要傻傻地完全copy过来就好了，要多篇文章合并成一篇，这样就很可能不会被判断为镜像网页，被k几率很小

页: 1 [2]

全球主机交流论坛's Archiver