一个小爬虫（练手）

ai0by · 发表于 2019-3-21 09:37:36

本帖最后由 ai0by 于 2019-3-27 17:04 编辑
[ol]

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup

import requests

import urllib2

import random

def spy(url):

req = urllib2.Request(url)

req = urllib2.urlopen(req)

page = req.read()

soup = BeautifulSoup(page, "html.parser")

for imgSoup in soup.find_all('div', {"class": "row"}):

for i in imgSoup.find_all('div', {'class': 'photo'}):

for j in i.find('div', {'class': 'photo-link-outer'}).find('a').find_all('img'):

img = j.get("src")

print img

str = random.sample('zyxwvutsrqponmlkjihgfedcba', 6)

downImg(img, str)

nexturl = soup.find('p',{'class':'go-to-next-page'})

nexturl = nexturl.find('a').get('href')

pageurl = "http://jigadori.fkoji.com"+nexturl

spy(pageurl)

def downImg(img,m):

try:

r = requests.get(img)

except Exception , e:

print "图片获取失败"

return

with open('./img/good%s.jpg' % m, 'wb') as f:

f.write(r.content)

if __name__ == '__main__':

url = "http://jigadori.fkoji.com"

spy(url)[/ol]复制代码

昨天上午看大佬发的资源没存上，自写了一个，不太完善，好歹算是能看。。。。

pulpfunction · 发表于 2019-3-21 09:39:19

了解一下requests

titanic · 发表于 2019-3-21 09:40:05

膜拜大佬。。。。。。。

Leoric · 发表于 2019-3-21 09:40:18

666，害我又上http://jigadori.fkoji.com/ 看了半天

ansheng · 发表于 2019-3-21 09:40:49

了解一下requests+asyncio

ai0by · 发表于 2019-3-21 09:45:02

ansheng 发表于 2019-3-21 09:40

了解一下requests+asyncio
谢谢大佬指点，看看去

境界 · 发表于 2019-3-21 09:40:00

学了一天的pycharm这个能看懂了，看来功夫没白费啊

风吹过的夏夜 · 发表于 2019-3-24 01:41:45

真就天天开车呗

adminplus · 发表于 2019-3-24 08:49:04

这网站我打不开啊，被你爬死了？？？

woshigaozhen · 发表于 2019-3-24 08:51:54

有没有1024整车的爬虫啊？

		自动登录	找回密码
密码			立即注册