mylyne
发表于 2018-3-14 17:57:04
我想问一下为什么这个脚本不能在挂载的gdriver或者onedrive上面运行?LZ的其他脚本可以
半潜军长
发表于 2018-3-14 18:35:00
mylyne 发表于 2018-3-14 19:02
我想问一下为什么这个脚本不能在挂载的gdriver或者onedrive上面运行?LZ的其他脚本可以 ...
用什么挂载的 大佬 rclone 还是gd
http://www.hostloc.com/thread-435393-1-2.html 这个说法我没搞明白 唉
itsme
发表于 2018-3-14 18:35:57
Traceback (most recent call last):
File "spider.py", line 85, in
run()
File "spider.py", line 83, in run
time.sleep(sleep_time)
NameError: name 'sleep_time' is not defined
用最新脚本运行一段时间后出现这个错误
itsme
发表于 2018-3-14 17:57:00
楼主,最后的time.sleep(sleep_time)这个是拼写错误?是否应该是time.sleep(time_sleep)?
另外现在的问题是,目录里面有已经下载过的文件,重新运行脚本会略过这些文件(这个很好),不过这个读取这些下载过文件的速度是否过快导致这个步骤还没过去(我有700多个文件)就会被网站判断为爬虫了。
time.sleep(20)要放到哪个位置才能有效?
eqblog
发表于 2018-3-14 19:02:50
itsme 发表于 2018-3-14 21:05
楼主,最后的time.sleep(sleep_time)这个是拼写错误?是否应该是time.sleep(time_sleep)?
另外现在的问题 ...
006.gif
把time_sleep这个换成数字就好了。。
savior
发表于 2018-3-14 19:18:18
好像这个账号被BAN了……
eqblog
发表于 2018-3-14 19:02:00
savior 发表于 2018-3-14 21:16
好像这个账号被BAN了……
对~已经失效了
savior
发表于 2018-3-14 20:10:02
eqblog 发表于 2018-3-14 21:19
对~已经失效了
大佬神通广大,求再分享,先MARK
019.gif
流量之神eqblog
发表于 2018-3-14 21:05:37
请问这个脚本可以断点采集吗?第二次接着第一次的采集继续爬
流量之神 发表于 2018-3-14 22:03
请问这个脚本可以断点采集吗?第二次接着第一次的采集继续爬
不能 但是可以手动设置页数
openos
发表于 2018-3-14 21:14:42
eqblog 发表于 2018-3-14 22:16
不能 但是可以手动设置页数
怎么样手动设置呢? 因为封了几个ip, 不想重复下载了
lol.gif