找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
楼主: 荷兰小事

采集是个辛苦活。。

[复制链接]

2

主题

18

回帖

52

积分

注册会员

积分
52
发表于 2011-7-2 07:35:53 | 显示全部楼层
原帖由 leaderweb 于 2011-7-2 07:35 发表


楼主采集的啥呀?什么站?


ass。。xxx content -----
回复

使用道具 举报

189

主题

2016

回帖

4641

积分

论坛元老

积分
4641
发表于 2011-7-2 16:22:26 | 显示全部楼层
原帖由 糕手 于 2011-7-2 02:40 发表


尼玛的 直接开火车就OK了  何必去写神马正则 搞死人......






火车就更加麻烦了,比curl还要麻烦,而且远没有curl灵活
回复

使用道具 举报

189

主题

2016

回帖

4641

积分

论坛元老

积分
4641
发表于 2011-7-2 16:23:18 | 显示全部楼层
我用帝国就很爽,没那么复杂,或者火车头。
回复

使用道具 举报

186

主题

2125

回帖

4862

积分

论坛元老

积分
4862
发表于 2011-7-2 20:53:23 | 显示全部楼层
写好采集规则就万事无忧了……
回复

使用道具 举报

7

主题

172

回帖

383

积分

中级会员

积分
383
发表于 2011-7-2 21:15:25 | 显示全部楼层
被k 时 死的 更惨
回复

使用道具 举报

36

主题

879

回帖

1912

积分

金牌会员

积分
1912
发表于 2011-7-3 09:19:45 | 显示全部楼层




哪有那么容易被k

google现在判断是否重复内容使用的听说是simhash算法,采集的时候不要傻傻地完全copy过来就好了,要多篇文章合并成一篇,这样就很可能不会被判断为镜像网页,被k几率很小
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-1-13 03:20 , Processed in 0.021548 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表