设为首页收藏本站

简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย Français

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 459|回复: 45

利用零宽度字符防止被爬虫

[复制链接]

14

主题

69

回帖

200

积分

中级会员

积分
200
发表于 2020-4-3 19:11:03 | 显示全部楼层 |阅读模式
首先举个栗子:
h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m
复制以上链接粘贴到浏览器地址栏,会发现无法打开。


这是为什么呢?就是因为这个字符串中出了叛徒——零宽度字符。


这些叛徒我们看不到,但它确实破坏了链接的有效性。


所以各位站长如果想要反爬虫,可以将站内的链接都用 js 函数修饰一下。


等访客点击的时候可以用 js 解释一下。

回复

使用道具 举报

101

主题

1364

回帖

3139

积分

论坛元老

积分
3139
发表于 2020-4-4 17:47:17 | 显示全部楼层
奇才,你以为百度蜘蛛能识别出来url吗?那这样还不如关站呢
回复

使用道具 举报

14

主题

235

回帖

552

积分

高级会员

积分
552
发表于 2020-4-3 19:39:54 | 显示全部楼层
标签元素 加个随机数算了,不用这么
回复

使用道具 举报

8

主题

201

回帖

462

积分

中级会员

积分
462
发表于 2020-4-6 20:19:53 | 显示全部楼层

小脑袋困掉了 发表于 2020-4-6 13:50

正则可以去,顶多防小白,大佬防不住的。

我在35楼写的正则,咋去不了呀

大佬,请教2个问题:
1、如何用常规软件,或者linux中,制造零字节。劳驾科普下
2、regEx咋删除
回复

使用道具 举报

12

主题

371

回帖

856

积分

高级会员

积分
856
发表于 2020-4-6 13:50:00 | 显示全部楼层
"

天下没有攻不破的盾,能防住大部分就已经很不错了。
回复

使用道具 举报

14

主题

69

回帖

200

积分

中级会员

积分
200
 楼主| 发表于 2020-4-4 22:26:14 | 显示全部楼层
h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m
控制台看到的
回复

使用道具 举报

10

主题

257

回帖

608

积分

高级会员

积分
608
发表于 2020-4-3 20:58:47 | 显示全部楼层
a上工具



不,我不是小尾巴,你也看不见我,哼唧
回复

使用道具 举报

57

主题

1157

回帖

2531

积分

金牌会员

积分
2531
发表于 2020-4-3 19:35:00 | 显示全部楼层
h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m
回复

使用道具 举报

14

主题

199

回帖

502

积分

高级会员

积分
502
发表于 2020-4-3 19:13:42 | 显示全部楼层
但是源代码可以查看呀

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

14

主题

199

回帖

502

积分

高级会员

积分
502
发表于 2020-4-3 19:12:23 | 显示全部楼层
有意思。研究研究。按说源代码可以看到的代码,通配符都能搞定
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2026-1-12 00:07 , Processed in 0.016576 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表