找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 162|回复: 17

写爬虫时遇到个神奇的站点

[复制链接]

90

主题

496

回帖

1344

积分

金牌会员

积分
1344
发表于 2018-7-24 22:10:10 | 显示全部楼层 |阅读模式
本帖最后由 hacker5402 于 2018-7-24 22:11 编辑

写的代理IP爬虫,写的差不多了,在收集代理网站,
收集了8个资源站 都是xpath一匹配就行,偏偏这个例外
这个http://www.goubanjia.com/




一个IP地址 要搞这么多标签搞混吗 就是不让人去爬吧 ..





然后写了段程序去爬。出来是出来了,结果发现request.get每次获取url的内容中的端口号都是变化的!
。。。端口号都是变化的
那其他工具get得到的也是,每次端口都是变化的,chrome检查元素的端口是正确的,但response的端口是变化的
然后去查看这个站里的js文件,发现个可疑的





解密后





大致恢复了下源代码




于是对着一写。。。





水一贴

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

148

主题

871

回帖

2234

积分

金牌会员

积分
2234
发表于 2018-7-24 22:12:20 | 显示全部楼层
牛逼啊大佬,想跟你学技术
回复

使用道具 举报

50

主题

950

回帖

2066

积分

金牌会员

积分
2066
发表于 2018-7-24 22:12:24 | 显示全部楼层
看不懂 楼下大佬解释下

回复

使用道具 举报

13

主题

1210

回帖

2525

积分

金牌会员

积分
2525
发表于 2018-7-24 22:14:48 | 显示全部楼层
排风完全不会,js忘光了
回复

使用道具 举报

4

主题

30

回帖

86

积分

注册会员

积分
86
发表于 2018-7-24 22:15:38 | 显示全部楼层
你还没见过生成图片然后取坐标的
回复

使用道具 举报

90

主题

496

回帖

1344

积分

金牌会员

积分
1344
 楼主| 发表于 2018-7-24 22:18:35 | 显示全部楼层

ddosworks 发表于 2018-7-24 22:15

你还没见过生成图片然后取坐标的


就是觉得这个一个代理IP而已还至于这样吗..
回复

使用道具 举报

129

主题

537

回帖

1501

积分

金牌会员

积分
1501
发表于 2018-7-24 22:15:00 | 显示全部楼层
何必呢少年

[ol]
  • http://www.66ip.cn/mo.php?tqsl=1000[/ol]复制代码

    话说你这个 goubanjia == 狗搬家 ?
  • 回复

    使用道具 举报

    90

    主题

    496

    回帖

    1344

    积分

    金牌会员

    积分
    1344
     楼主| 发表于 2018-7-24 22:25:57 | 显示全部楼层

    liang0754 发表于 2018-7-24 22:25

    何必呢少年

    太多不能用了,这个站也在采集的资源站了,都是定时采集验证入库
    回复

    使用道具 举报

    39

    主题

    836

    回帖

    1857

    积分

    金牌会员

    积分
    1857
    发表于 2018-7-24 22:41:19 | 显示全部楼层
    大佬收徒吗
    回复

    使用道具 举报

    0

    主题

    1

    回帖

    4

    积分

    新手上路

    积分
    4
    发表于 2018-7-24 22:25:00 | 显示全部楼层
    同楼上,收徒吗爬虫我会,就是js苦手,反爬的业界毒瘤
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    Archiver|手机版|小黑屋|Discuz! X

    GMT+8, 2025-4-20 03:15 , Processed in 0.022369 second(s), 5 queries , Gzip On, Redis On.

    Powered by Discuz! X3.5

    © 2001-2024 Discuz! Team.

    快速回复 返回顶部 返回列表