找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
楼主: admim

反爬虫新思路

[复制链接]

0

主题

1

回帖

4

积分

新手上路

积分
4
发表于 2019-3-19 20:42:20 | 显示全部楼层
能防刚入门的,玩多了爬虫的 各种代理ip池都给你上
回复

使用道具 举报

47

主题

674

回帖

1507

积分

金牌会员

积分
1507
发表于 2019-3-19 20:42:59 | 显示全部楼层
"

大量有多大?几千?
回复

使用道具 举报

114

主题

136

回帖

634

积分

高级会员

积分
634
 楼主| 发表于 2019-3-19 20:57:14 | 显示全部楼层
其实很简单的,看到不顺眼的,直接拉一个C段ip进黑名单,再不顺眼,直接一个B段ip进黑名单,你要是还不顺眼,那就没办法了。反正我的黑名单库里已经好几百万ip了。

。。。结果只有一个,网站基本上没有ip了

回复

使用道具 举报

27

主题

214

回帖

553

积分

高级会员

积分
553
发表于 2019-3-19 21:05:17 | 显示全部楼层
最好的方法是脏数据。
回复

使用道具 举报

22

主题

773

回帖

1692

积分

金牌会员

积分
1692
发表于 2019-3-19 20:15:00 | 显示全部楼层

admim 发表于 2019-3-19 21:05

大量有多大?几千?

比如我自用的proxy代理池,全靠爬取网上免费的代理IP,现在大概有15W可用的代理IP,量够大吗?


回复

使用道具 举报

9

主题

71

回帖

201

积分

中级会员

积分
201
发表于 2019-3-19 21:32:11 | 显示全部楼层

gougou6423 发表于 2019-3-19 22:14

比如我自用的proxy代理池,全靠爬取网上免费的代理IP,现在大概有15W可用的代理IP,量够大吗? ...

那种代理可用性变化快吧,速度慢,搞起来耗时吧
回复

使用道具 举报

308

主题

374

回帖

1712

积分

金牌会员

积分
1712
发表于 2019-3-19 22:13:02 | 显示全部楼层

cache 发表于 2019-3-19 22:16

那种代理可用性变化快吧,速度慢,搞起来耗时吧

是的,每天会检查一遍可用性,但还是有不少不能用的,而且很多代理速度慢,不过多线程爬虫无所谓啦,能访问就可以了
回复

使用道具 举报

9

主题

71

回帖

201

积分

中级会员

积分
201
发表于 2019-3-19 22:14:11 | 显示全部楼层
比较成熟的防采集一般都是用cdn来防,比如腾讯系的一般都是腾讯cdn,国外的就是cf
这些方法一般都有用,不过采集者要是较真的话,非要采集你的站,你还真防不住
回复

使用道具 举报

27

主题

242

回帖

613

积分

高级会员

积分
613
发表于 2019-3-19 21:05:00 | 显示全部楼层
最牛逼的反爬虫,还是返回假数据,而且不是那种能一眼看得出的假数据。
通过请求路径的行为分析,可以做到判断一个访问是不是来自于爬虫的,把阈值调高一点,降低误判。
methol 发表于 2019-3-19 22:32

最牛逼的反爬虫,还是返回假数据,而且不是那种能一眼看得出的假数据。
通过请求路径的行为分析,可以做到 ...

我人肉复制粘贴
回复

使用道具 举报

0

主题

1

回帖

4

积分

新手上路

积分
4
发表于 2019-3-19 22:16:59 | 显示全部楼层

tem 发表于 2019-3-19 22:40

我人肉复制粘贴

那就是看成本了。
人力成本花费的值不值得。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-4-21 08:28 , Processed in 0.021485 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表