hising 发表于 2019-3-25 21:25:37

网站被新型技术镜像了,求解决方案

本帖最后由 hising 于 2019-3-25 22:00 编辑

update:经过6#的解答目前来看是有可能是饭袋+缓存,不过从浏览器header来看

[*]Pragma: no-cache
[*]Server: Microsoft-IIS/7.5
[*]Set-Cookie: PHPSESSID=5k2h1m9kt3rb7lh3inue50c3d3; path=/
[*]Vary: Accept-Encoding
[*]X-Powered-By: PHP/5.2.17
[*]X-Powered-By: ASP.NET复制代码

又不像饭袋。

然后根据小夜的提示,找到了镜像站的源IP,防火墙拉黑后新文章他就抓不到了。就先这样吧,以前抓的不管了。

--------------------------以下为原文-------------------------

今天突然发现统计来路有个澳门X场的光关键词,点进来一看是一个 com.cn的域名,内容和本站一样。说是镜像吧,更像是爬虫抓取的html。

经过分析应该是这样的,因为他的首页一直停留在二月份,但是我刚刚发布的新文章,手打地址也是能进去的。同时我点进去比如阅读是1,他就一直就是1了,永远不会变,我内容改了他还是这样的内容。

我尝试阻止了他的服务器IP,无解,感觉肯定有代理池,这样是不是就没办法阻挡他了?毕竟他类似于抓取html单页 然后缓存到他服务器的。

发帖的时候突然想起了方法,比如我调整某个站外js的内容,设置跳转代码应该能解决他,比如让他转到127.0.0.1 但是这种方法也是治标不治本。

小夜 发表于 2019-3-25 21:37:22

境像,这个非常容易实现。反代加缓存,或者,直接就CDN那一套。

先说说,如何解决吧。

你先弄一个单独的私有页面 例如 www.your.com/hostloc.html

然后,手动刷一次出来。再去看log日志,得到这个境像站点的真实抓取或境像IP,把IP搞掉完活儿。

---------------

如果对方用七牛或阿里OSS那种,当访问404自动境像源文件,这个就不好办了。

Gobala 发表于 2019-3-25 21:26:50

不懂,帮顶,插眼,坐等大佬解答

аdmin 发表于 2019-3-25 21:27:31

采集吧 内容加网址 看看

hising 发表于 2019-3-25 21:29:15


аdmin 发表于 2019-3-25 21:27

采集吧 内容加网址 看看
不是采集,实时的,我刚刚发的文章 我手动替换成他的域名 就能访问,但是内容永远定格在我一次访问他的时候,比如我修改了文章内容,他还是第一次访问的内容。

浪荡子 发表于 2019-3-25 21:27:00

参考图片文件的防盗链 但是采集不会被停止只会让他们采集的文章发生错版或者不显示这样子情况

robot 发表于 2019-3-25 21:29:24

反代+缓存 ,缓存完了不删掉就这样了

suwubee 发表于 2019-3-25 21:35:17

添加一个加密的header,判断对方域名的话就直接屏蔽

hising 发表于 2019-3-25 21:42:14


小夜 发表于 2019-3-25 21:37

境像,这个非常容易实现。反代加缓存,或者,直接就CDN那一套。

先说说,如何解决吧。
用这个方法把源IP揪出来了,有效过,不过以前缓存的那些网页没法解决,只能留那了。

lk2000zhaomjj 发表于 2019-3-25 21:54:49

不懂帮顶,楼下大佬来支招占位坐等大佬们解答
页: [1] 2
查看完整版本: 网站被新型技术镜像了,求解决方案