|
发表于 2018-5-4 13:35:46
|
显示全部楼层
本帖最后由 全球资源提供商 于 2018-5-4 15:19 编辑
没什么卵用
我会告诉你我有超100T的资源
光tumblr就有20w
Update #0
分享不现实, 文件太多太大, 而且流量很贵
Update #1
看来你们对汤不热很有兴趣, 我给个逻辑
首先 你要维护一个用户列表, 就是更新资源的用户
然后循环这个列表去采集 就好了, 注意维护一个URL队列 去重用途
我是用的官方API来采集
逻辑这样
内容服务器
#1 采集
判断用户内容数量 如果和上次采集的数量一样
如果多 则代表有更新 采集 自动去重
标记为未下载
存储服务器
#2 下载
读取队列 查询未下载的
下载文件和图片 存储本地
#3 效验
我用的最简单的方法 判断文件是不是存在,且文件大小大于0
这样就好了
|
|