找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 139|回复: 18

开始采集漫画站

[复制链接]

179

主题

2046

回帖

4679

积分

论坛元老

积分
4679
发表于 2013-6-20 13:17:56 | 显示全部楼层 |阅读模式
求指点
python有没有什么好用的采集工具?
回复

使用道具 举报

47

主题

1562

回帖

3283

积分

论坛元老

积分
3283
发表于 2013-6-20 13:18:48 | 显示全部楼层
   不懂...我是来看头像的
回复

使用道具 举报

112

主题

3118

回帖

6620

积分

论坛元老

积分
6620
发表于 2013-6-20 13:19:39 | 显示全部楼层
requests
回复

使用道具 举报

179

主题

2046

回帖

4679

积分

论坛元老

积分
4679
 楼主| 发表于 2013-6-20 13:21:30 | 显示全部楼层

chairo 发表于 2013-6-20 13:19



requests

我以前一直用的urllib 和 re模块
听说有个叫scrapy的 采集很给力
但是我不会xpath 这东西好学么?
回复

使用道具 举报

10

主题

135

回帖

308

积分

中级会员

积分
308
发表于 2013-6-20 13:19:00 | 显示全部楼层
使用火车头 不过火车头能采集的也比较少(大部分需要配合插件)


图片单独使用软件下载
回复

使用道具 举报

179

主题

2046

回帖

4679

积分

论坛元老

积分
4679
 楼主| 发表于 2013-6-20 13:21:52 | 显示全部楼层

ninqq 发表于 2013-6-20 13:21



使用火车头 不过火车头能采集的也比较少(大部分需要配合插件)
图片单独使用软件下载 ...

图片下载应该没问题 之前采集过电影站
python实现起来还是很方便的
回复

使用道具 举报

10

主题

135

回帖

308

积分

中级会员

积分
308
发表于 2013-6-20 13:22:45 | 显示全部楼层

ericls 发表于 2013-6-20 13:22



图片下载应该没问题 之前采集过电影站
python实现起来还是很方便的

呵呵图片和电影站不同的 都是T级别的数据
回复

使用道具 举报

179

主题

2046

回帖

4679

积分

论坛元老

积分
4679
 楼主| 发表于 2013-6-20 13:21:00 | 显示全部楼层

ninqq 发表于 2013-6-20 13:23



呵呵图片和电影站不同的 都是T级别的数据

。。。
就是啊。。
这个怎么搞。。
除了需要大硬盘外 还需要什么?
回复

使用道具 举报

10

主题

135

回帖

308

积分

中级会员

积分
308
发表于 2013-6-20 13:23:29 | 显示全部楼层

ericls 发表于 2013-6-20 13:24



。。。
就是啊。。
这个怎么搞。。


漫画程序+完美的采集方案(包括图片下载方案)大硬盘的服务器
当然你如果技术好也可以盗链
回复

使用道具 举报

0

主题

1

回帖

4

积分

新手上路

积分
4
发表于 2013-6-20 13:22:00 | 显示全部楼层

ninqq 发表于 2013-6-20 13:26



漫画程序+完美的采集方案(包括图片下载方案)大硬盘的服务器
当然你如果技术好也可以盗链 ...

完美的采集方案? 比如?
给个思路可以不。。。
谢谢

ericls 发表于 2013-6-20 13:29



完美的采集方案? 比如?
给个思路可以不。。。
谢谢

一般都是分3部采集的盗链的2部
1:漫画的信息部分采集
2:章节部分采集
3:图片采集下载

另外你还要解决采集的更新连载
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-1-20 16:24 , Processed in 0.019807 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表