ericls 发表于 2013-6-20 13:17:56

开始采集漫画站

求指点
python有没有什么好用的采集工具?

Zoplor 发表于 2013-6-20 13:18:48

   不懂...我是来看头像的

chairo 发表于 2013-6-20 13:19:39

requests

ericls 发表于 2013-6-20 13:21:30


chairo 发表于 2013-6-20 13:19

back.gif

requests
我以前一直用的urllib 和 re模块
听说有个叫scrapy的 采集很给力
但是我不会xpath 这东西好学么?

ninqq 发表于 2013-6-20 13:19:00

使用火车头 不过火车头能采集的也比较少(大部分需要配合插件)

014.gif
图片单独使用软件下载

ericls 发表于 2013-6-20 13:21:52


ninqq 发表于 2013-6-20 13:21

back.gif

使用火车头 不过火车头能采集的也比较少(大部分需要配合插件)
图片单独使用软件下载 ...
图片下载应该没问题 之前采集过电影站
python实现起来还是很方便的

ninqq 发表于 2013-6-20 13:22:45


ericls 发表于 2013-6-20 13:22

back.gif

图片下载应该没问题 之前采集过电影站
python实现起来还是很方便的
呵呵图片和电影站不同的 都是T级别的数据

ericls 发表于 2013-6-20 13:21:00


ninqq 发表于 2013-6-20 13:23

back.gif

呵呵图片和电影站不同的 都是T级别的数据
。。。
就是啊。。
这个怎么搞。。
除了需要大硬盘外 还需要什么?

ninqq 发表于 2013-6-20 13:23:29


ericls 发表于 2013-6-20 13:24

back.gif

。。。
就是啊。。
这个怎么搞。。

漫画程序+完美的采集方案(包括图片下载方案)大硬盘的服务器
当然你如果技术好也可以盗链

ericlsninqq 发表于 2013-6-20 13:22:00


ninqq 发表于 2013-6-20 13:26

back.gif

漫画程序+完美的采集方案(包括图片下载方案)大硬盘的服务器
当然你如果技术好也可以盗链 ...
完美的采集方案? 比如?
给个思路可以不。。。
谢谢

ericls 发表于 2013-6-20 13:29

back.gif

完美的采集方案? 比如?
给个思路可以不。。。
谢谢
一般都是分3部采集的盗链的2部
1:漫画的信息部分采集
2:章节部分采集
3:图片采集下载

另外你还要解决采集的更新连载
页: [1] 2
查看完整版本: 开始采集漫画站