找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
楼主: 爬虫部落

抓取6000W谷歌的搜索结果,打算做个大点的垃圾站试试

[复制链接]

458

主题

6532

回帖

1万

积分

论坛元老

积分
14524
发表于 2017-9-25 22:09:00 | 显示全部楼层
數據多K站也快...做google就是這個下場


我都有幾個億數據

回复

使用道具 举报

35

主题

411

回帖

995

积分

高级会员

积分
995
发表于 2017-9-25 22:32:22 | 显示全部楼层
500个IP怎么搞?大佬求带,是用火车头吗?
回复

使用道具 举报

4

主题

105

回帖

242

积分

中级会员

积分
242
发表于 2017-9-25 22:29:00 | 显示全部楼层
搜索结果??这个要做百度吗
回复

使用道具 举报

2

主题

29

回帖

70

积分

注册会员

积分
70
 楼主| 发表于 2017-9-25 22:33:25 | 显示全部楼层

njav 发表于 2017-9-25 23:27

數據多K站也快...做google就是這個下場
我都有幾個億數據

6KW数据精简了所有不必要的内容后只保留纯json格式大概600G
假设你有6亿数据差不多就是6T
这个数据量不是每个人都能玩好
回复

使用道具 举报

2

主题

29

回帖

70

积分

注册会员

积分
70
 楼主| 发表于 2017-9-25 22:32:00 | 显示全部楼层

houset 发表于 2017-9-25 23:56

500个IP怎么搞?大佬求带,是用火车头吗?

这个各凭本事吧:
有钱的去买
没钱的去抓
火车头我没用过,自己写了一段Python代码抓取的
回复

使用道具 举报

2

主题

29

回帖

70

积分

注册会员

积分
70
 楼主| 发表于 2017-9-25 22:32:42 | 显示全部楼层

flashack 发表于 2017-9-26 00:04

搜索结果??这个要做百度吗

这个数量和百度的索引量比 九牛一毛(有点夸张)
回复

使用道具 举报

406

主题

1521

回帖

4324

积分

论坛元老

积分
4324
发表于 2017-9-25 23:27:23 | 显示全部楼层
关注的是一下子上6000万数据如何不k站
回复

使用道具 举报

125

主题

422

回帖

1301

积分

金牌会员

积分
1301
发表于 2017-9-25 23:56:12 | 显示全部楼层

爬虫部落 发表于 2017-9-25 22:09

多IP轮流,要是不封IP也不用这么久了

HTTP 代理?
回复

使用道具 举报

33

主题

1028

回帖

2207

积分

金牌会员

积分
2207
发表于 2017-9-26 00:04:33 | 显示全部楼层

爬虫部落 发表于 2017-9-26 01:04

这个各凭本事吧:
有钱的去买
没钱的去抓

大佬,都采集什么内容?6000万大佬 求教朋友!!
回复

使用道具 举报

14

主题

228

回帖

564

积分

高级会员

积分
564
发表于 2017-9-26 01:03:28 | 显示全部楼层
厉害了,带时候来看大佬结果
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-3-11 06:26 , Processed in 0.021341 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表