找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 52|回复: 9

一个小爬虫(练手)

[复制链接]

4

主题

76

回帖

178

积分

注册会员

积分
178
发表于 2019-3-21 09:37:36 | 显示全部楼层 |阅读模式
本帖最后由 ai0by 于 2019-3-27 17:04 编辑
[ol]
  • # -*- coding: utf-8 -*-
  • from bs4 import BeautifulSoup
  • import requests
  • import urllib2
  • import random
  • def spy(url):
  •     req = urllib2.Request(url)
  •     req = urllib2.urlopen(req)
  •     page = req.read()
  •     soup = BeautifulSoup(page, "html.parser")
  •     for imgSoup in soup.find_all('div', {"class": "row"}):
  •         for i in imgSoup.find_all('div', {'class': 'photo'}):
  •             for j in i.find('div', {'class': 'photo-link-outer'}).find('a').find_all('img'):
  •                 img = j.get("src")
  •                 print img
  •                 str = random.sample('zyxwvutsrqponmlkjihgfedcba', 6)
  •                 downImg(img, str)
  •     nexturl = soup.find('p',{'class':'go-to-next-page'})
  •     nexturl = nexturl.find('a').get('href')
  •     pageurl = "http://jigadori.fkoji.com"+nexturl
  •     spy(pageurl)
  • def downImg(img,m):
  •     try:
  •         r = requests.get(img)
  •     except Exception , e:
  •         print "图片获取失败"
  •         return
  •     with open('./img/good%s.jpg' % m, 'wb') as f:
  •         f.write(r.content)
  • if __name__ == '__main__':
  •     url = "http://jigadori.fkoji.com"
  •     spy(url)[/ol]复制代码








    昨天上午看大佬发的资源没存上,自写了一个,不太完善,好歹算是能看。。。。
  • 回复

    使用道具 举报

    73

    主题

    990

    回帖

    2223

    积分

    金牌会员

    积分
    2223
    发表于 2019-3-21 09:39:19 | 显示全部楼层
    了解一下requests
    回复

    使用道具 举报

    12

    主题

    729

    回帖

    1510

    积分

    金牌会员

    积分
    1510
    发表于 2019-3-21 09:40:05 | 显示全部楼层
    膜拜大佬。。。。。。。
    回复

    使用道具 举报

    23

    主题

    524

    回帖

    1125

    积分

    金牌会员

    积分
    1125
    发表于 2019-3-21 09:40:18 | 显示全部楼层
    666,害我又上http://jigadori.fkoji.com/ 看了半天
    回复

    使用道具 举报

    119

    主题

    1687

    回帖

    3759

    积分

    论坛元老

    积分
    3759
    发表于 2019-3-21 09:40:49 | 显示全部楼层
    了解一下requests+asyncio
    回复

    使用道具 举报

    4

    主题

    76

    回帖

    178

    积分

    注册会员

    积分
    178
     楼主| 发表于 2019-3-21 09:45:02 | 显示全部楼层

    ansheng 发表于 2019-3-21 09:40

    了解一下requests+asyncio

    谢谢大佬指点,看看去
    回复

    使用道具 举报

    16

    主题

    81

    回帖

    216

    积分

    中级会员

    积分
    216
    发表于 2019-3-21 09:40:00 | 显示全部楼层
    学了一天的pycharm这个能看懂了,看来功夫没白费啊
    回复

    使用道具 举报

    0

    主题

    10

    回帖

    24

    积分

    新手上路

    积分
    24
    发表于 2019-3-24 01:41:45 | 显示全部楼层
    真就天天开车呗
    回复

    使用道具 举报

    3

    主题

    388

    回帖

    793

    积分

    高级会员

    积分
    793
    发表于 2019-3-24 08:49:04 | 显示全部楼层
    这网站我打不开啊,被你爬死了???


    回复

    使用道具 举报

    327

    主题

    2268

    回帖

    5659

    积分

    论坛元老

    积分
    5659
    发表于 2019-3-24 08:51:54 | 显示全部楼层
    有没有1024整车的爬虫啊?
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    Archiver|手机版|小黑屋|Discuz! X

    GMT+8, 2025-4-21 08:28 , Processed in 0.021963 second(s), 3 queries , Gzip On, Redis On.

    Powered by Discuz! X3.5

    © 2001-2024 Discuz! Team.

    快速回复 返回顶部 返回列表