找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 43|回复: 6

可视化的网页内容抓取工具 Portia

[复制链接]

29

主题

497

回帖

1153

积分

金牌会员

积分
1153
发表于 2014-7-11 11:42:43 | 显示全部楼层 |阅读模式
Portia Spider(孔蛛)号称世界上最聪明的蜘蛛,孔蛛属,英文名 Portia,也翻译为波西亚蜘蛛(波西亚跳蛛)。

Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面,你只需要通过点击标注页面上你需要抽取的数据,不需要任何编程知识即可完成规则的开发。

这些规则可以在#Scrapy#中使用,用于抓取页面。



具体请参考:http://blog.scrapinghub.com/2014/04/01/announcing-portia/

Github: https://github.com/scrapinghub/portia

视频介绍:http://v.youku.com/v_show/id_XNjkzNjkwODE2.html
回复

使用道具 举报

303

主题

7431

回帖

1万

积分

论坛元老

积分
15925
发表于 2014-7-11 11:44:15 | 显示全部楼层
看不懂   上个教程吧  也懒得看 那么多字
回复

使用道具 举报

104

主题

1392

回帖

3118

积分

论坛元老

积分
3118
发表于 2014-7-11 11:45:17 | 显示全部楼层
手动选取DOM节点,全自动化,很好很喜欢。
回复

使用道具 举报

55

主题

2238

回帖

4715

积分

论坛元老

积分
4715
发表于 2014-7-11 11:58:55 | 显示全部楼层
本帖最后由 h0stl0c 于 2014-7-11 12:00 编辑

搞定了。还行。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

56

主题

731

回帖

1732

积分

金牌会员

积分
1732
发表于 2014-7-11 12:03:22 | 显示全部楼层
32个赞
回复

使用道具 举报

76

主题

696

回帖

1640

积分

金牌会员

积分
1640
发表于 2014-7-11 14:26:49 | 显示全部楼层
py运行,浏览9001端口下的某网页,然后~~~啪啪啪
回复

使用道具 举报

327

主题

2268

回帖

5659

积分

论坛元老

积分
5659
发表于 2014-7-11 17:58:13 | 显示全部楼层
看起来非常不错啊。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-4-21 09:10 , Processed in 0.017715 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表