一个小爬虫（练手）

ai0by 发表于 2019-3-21 09:37:36

本帖最后由 ai0by 于 2019-3-27 17:04 编辑
[*]# -*- coding: utf-8 -*-
[*]from bs4 import BeautifulSoup
[*]import requests
[*]import urllib2
[*]import random
[*]
[*]def spy(url):
[*] req = urllib2.Request(url)
[*] req = urllib2.urlopen(req)
[*] page = req.read()
[*] soup = BeautifulSoup(page, "html.parser")
[*] for imgSoup in soup.find_all('div', {"class": "row"}):
[*]    for i in imgSoup.find_all('div', {'class': 'photo'}):
[*]          for j in i.find('div', {'class': 'photo-link-outer'}).find('a').find_all('img'):
[*]             img = j.get("src")
[*]             print img
[*]             str = random.sample('zyxwvutsrqponmlkjihgfedcba', 6)
[*]             downImg(img, str)
[*] nexturl = soup.find('p',{'class':'go-to-next-page'})
[*] nexturl = nexturl.find('a').get('href')
[*] pageurl = "http://jigadori.fkoji.com"+nexturl
[*] spy(pageurl)
[*]
[*]def downImg(img,m):
[*] try:
[*]    r = requests.get(img)
[*] except Exception , e:
[*]    print "图片获取失败"
[*]    return
[*] with open('./img/good%s.jpg' % m, 'wb') as f:
[*]    f.write(r.content)
[*]if __name__ == '__main__':
[*] url = "http://jigadori.fkoji.com"
[*] spy(url)复制代码

http://fulicos.sbcoder.cn/2019/03/21/5c92e798d4689.png

http://fulicos.sbcoder.cn/2019/03/21/5c92e794e9827.png

昨天上午看大佬发的资源没存上，自写了一个，不太完善，好歹算是能看。。。。

pulpfunction 发表于 2019-3-21 09:39:19

了解一下requests

titanic 发表于 2019-3-21 09:40:05

膜拜大佬。。。。。。。

Leoric 发表于 2019-3-21 09:40:18

666，害我又上http://jigadori.fkoji.com/ 看了半天

ansheng 发表于 2019-3-21 09:40:49

了解一下requests+asyncio

ai0by 发表于 2019-3-21 09:45:02

ansheng 发表于 2019-3-21 09:40

了解一下requests+asyncio
谢谢大佬指点，看看去

境界发表于 2019-3-21 09:40:00

学了一天的pycharm这个能看懂了，看来功夫没白费啊

风吹过的夏夜 发表于 2019-3-24 01:41:45

真就天天开车呗

adminplus 发表于 2019-3-24 08:49:04

这网站我打不开啊，被你爬死了？？？
lol.gif
lol.gif

woshigaozhen 发表于 2019-3-24 08:51:54

有没有1024整车的爬虫啊？

页: [1]

全球主机交流论坛's Archiver

一个小爬虫（练手）