找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 44|回复: 7

正在大量抓取google 有图比 tumblr 大战300回合

[复制链接]

6

主题

960

回帖

1944

积分

金牌会员

积分
1944
发表于 2017-5-18 11:22:44 | 显示全部楼层 |阅读模式
yc010t水帖之王
回复

使用道具 举报

3

主题

23

回帖

59

积分

注册会员

积分
59
发表于 2017-5-18 11:29:52 | 显示全部楼层
有git吗?代码分享下一起抓
回复

使用道具 举报

0

主题

21

回帖

46

积分

新手上路

积分
46
发表于 2017-5-18 11:32:42 | 显示全部楼层
美滋滋
回复

使用道具 举报

63

主题

449

回帖

1105

积分

金牌会员

积分
1105
发表于 2017-5-18 11:42:17 | 显示全部楼层
不难,一天几百W轻松的

难的是数据清洗,还有数据展示优化

如果这么大数据放一个数据库里,多线程调用,我了个去,那才是难

(爬虫其实一天上千W的数据也是很容易的,多节点,分布式部署SO EASY)

PYTHON GO NODE.JS 都是很简单的
回复

使用道具 举报

117

主题

503

回帖

1365

积分

金牌会员

积分
1365
发表于 2017-5-18 11:55:03 | 显示全部楼层
目前只是单机

先采集主要数据后再分布式
回复

使用道具 举报

1837

主题

5894

回帖

1万

积分

论坛元老

积分
17403
发表于 2017-5-18 11:56:08 | 显示全部楼层

suzizi 发表于 2017-5-18 11:59

动不动就出验证码了 烦躁。

清洗就是伪原创吧   我感觉很容易啊, 因为本身采集的数据都是按关键词分类 ...

搞IP池吧。
回复

使用道具 举报

63

主题

449

回帖

1105

积分

金牌会员

积分
1105
发表于 2017-5-18 11:59:36 | 显示全部楼层

suzizi 发表于 2017-5-18 11:59

动不动就出验证码了 烦躁。

清洗就是伪原创吧   我感觉很容易啊, 因为本身采集的数据都是按关键词分类 ...

找那些有 JSON API这类的,爽一些

要挖掘背后的东西,

验证码是烦,也没办法,

大神一般都是有办法跳过的,或者自动识别,再或者打码


跟着苏紫紫大水逼 一起水 不久就升仙
回复

使用道具 举报

3

主题

95

回帖

207

积分

中级会员

积分
207
发表于 2017-5-18 12:01:01 | 显示全部楼层
围观大佬,suzizi应该有很多ip吧,可以分布式采集好多
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-2-11 10:41 , Processed in 0.021314 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表