找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 53|回复: 8

在学爬虫,这个实在搞不懂,哪位大大帮看看

[复制链接]

13

主题

126

回帖

301

积分

中级会员

积分
301
发表于 2016-11-5 16:51:46 | 显示全部楼层 |阅读模式
目标站禁止爬虫
你要加个header,
再不行加代理
还有你要控制好速度,很深的,慢慢来
回复

使用道具 举报

52

主题

510

回帖

1230

积分

金牌会员

积分
1230
发表于 2016-11-5 17:04:35 | 显示全部楼层
你这个是什么爬虫?看起来很高端的样子
回复

使用道具 举报

13

主题

126

回帖

301

积分

中级会员

积分
301
 楼主| 发表于 2016-11-5 17:07:23 | 显示全部楼层
你这个只是最简单的下载功能,如果不被封的话还要考虑反爬虫策略,这个才是真正麻烦的
回复

使用道具 举报

35

主题

411

回帖

995

积分

高级会员

积分
995
发表于 2016-11-5 21:14:29 | 显示全部楼层


路过帮顶一下,网站已收藏
回复

使用道具 举报

13

主题

183

回帖

457

积分

中级会员

积分
457
发表于 2016-11-5 21:29:19 | 显示全部楼层
我打算学,所以帮不到你呢
回复

使用道具 举报

15

主题

469

回帖

1017

积分

金牌会员

积分
1017
发表于 2016-11-5 22:16:09 | 显示全部楼层
只用过scrapy,这是被ban了吗,关注下
动态更改useragent并且加代理呢,另外禁用cookies和延长下载间隔时间
回复

使用道具 举报

28

主题

783

回帖

1696

积分

金牌会员

积分
1696
发表于 2016-11-5 23:43:53 | 显示全部楼层
pyspider
回复

使用道具 举报

3

主题

58

回帖

169

积分

注册会员

积分
169
发表于 2016-11-6 00:12:03 | 显示全部楼层
语法好奇怪  看不懂  urllib.requests是什么?urllib.urlretrieve  用这个命令保存
回复

使用道具 举报

131

主题

388

回帖

1237

积分

金牌会员

积分
1237
发表于 2016-11-6 00:13:17 | 显示全部楼层
ua改成chrome可解 retrive那个ua也得改
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-4-20 11:29 , Processed in 0.019473 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表