找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 76|回复: 8

纯干货分享,抓取博客(理论上所有网站)友情链接

[复制链接]

93

主题

2472

回帖

5263

积分

论坛元老

积分
5263
发表于 2012-11-2 21:20:43 | 显示全部楼层 |阅读模式
不到120行代码,Python写的。需要libxml2dom和requests支持

抓取博客(理论上任意网站应该都可以)的友情链接,并且可以抓取网站的rss地址

有了这两个东西,完全可以写个小爬虫,通过rss批量生成垃圾站啊。

主要是看到有个叫xiaoxia的博客里有一篇文章写了这个简单算法来抓取页面中友情链接,但这厮没有给出全部代码。

俺就用了俩小时把代码给完善了一下,为了防止广告就不贴地址了

直接贴我写的代码的地址:https://gist.github.com/4001319

觉着还不错的给俺加点分吧……俺从元老掉下来了,着急回元老啊
回复

使用道具 举报

20

主题

77

回帖

228

积分

中级会员

积分
228
发表于 2012-11-2 21:21:16 | 显示全部楼层
支持干货。。。
回复

使用道具 举报

118

主题

1302

回帖

2974

积分

金牌会员

积分
2974
发表于 2012-11-2 21:26:32 | 显示全部楼层

织梦 发表于 2012-11-2 21:26



好像打不开!

这个是github,打不开和俺关系不大啊,上个图,抓的http://simple-is-better.com/的友情链接




代码也打了个包放上来了,打不开github直接下这个






(1.42 KB, 下载次数: 14)

2012-11-2 21:29 上传
点击文件名下载附件




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

93

主题

2472

回帖

5263

积分

论坛元老

积分
5263
 楼主| 发表于 2012-11-2 21:29:39 | 显示全部楼层
果然很干
回复

使用道具 举报

361

主题

5022

回帖

1万

积分

论坛元老

积分
11159
发表于 2012-11-2 21:26:00 | 显示全部楼层
怎样应用呢
回复

使用道具 举报

361

主题

3662

回帖

8453

积分

论坛元老

积分
8453
发表于 2012-11-2 21:31:38 | 显示全部楼层

失足大叔 发表于 2012-11-2 21:44



怎样应用呢

自己电脑的话,安装python2.7,安装目录加入环境变量
libxml2dom和requests
解压后在目录分别执行python setup.py install

然后cmd执行我的那段脚本就能看到效果了






(157.71 KB, 下载次数: 7)

2012-11-2 21:53 上传
点击文件名下载附件










(780.77 KB, 下载次数: 6)

2012-11-2 21:53 上传
点击文件名下载附件




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

93

主题

2472

回帖

5263

积分

论坛元老

积分
5263
 楼主| 发表于 2012-11-2 21:44:51 | 显示全部楼层
白花花的大咪咪你都不看一眼吗?



回复

使用道具 举报

301

主题

7883

回帖

1万

积分

论坛元老

积分
16687
发表于 2012-11-2 21:55:08 | 显示全部楼层

chairo 发表于 2012-11-2 21:55



自己电脑的话,安装python2.7,安装目录加入环境变量
libxml2dom和requests
解压后在目录分别执行python  ...



怎样产生价值?
回复

使用道具 举报

361

主题

3662

回帖

8453

积分

论坛元老

积分
8453
发表于 2012-11-2 21:44:00 | 显示全部楼层
抓友情链接有什么用啊~
失足大叔 发表于 2012-11-2 22:28



怎样产生价值?

对于我来说,你要给我加点分就已经产生价值了……
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-1-11 14:53 , Processed in 0.025191 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表