设为首页收藏本站

简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย Français

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 58|回复: 7

请教一个数据去重的问题

[复制链接]

628

主题

1946

回帖

5944

积分

论坛元老

积分
5944
发表于 2020-1-12 15:51:57 | 显示全部楼层 |阅读模式
有100多个EXCEL文件,每个文件里只有一个表,表里只有一列数据,但每个表里有大约60万条数据(在一列里),现在我已将每个表里的数据进行了重复性删除,但一个表和另一个表中的数据会有很多重复的,我想将这100多个表里的数据放在一起,删除重复的,得到一组没有重复的数据。

上面这些数据已是我经过了几天原始数据的处理结果了,但进一步去重却没有了方法,因为EXCEL每个表的行数有限,大约是100多万条,多了就放不进去了,另外行数太多,利用EXCEL本身的去重功能,EXCEL特别容易死掉。

想请教一下有数据处理经验的大佬们,这种情况用什么方法可以比较方便的去重得到一组没有重复的数据呢?谢谢大家了。
回复

使用道具 举报

40

主题

423

回帖

1024

积分

金牌会员

积分
1024
发表于 2020-1-12 15:56:05 | 显示全部楼层
导出csv然后用
Emeditor你试试看,这东西我怎么研究都觉得他很强
EmEditor可以删除重复行
回复

使用道具 举报

46

主题

533

回帖

1274

积分

金牌会员

积分
1274
发表于 2020-1-12 16:05:53 | 显示全部楼层
楼上说的 导出csv 然后按行读取 可以,但要导出100多次也是累…
你要的话直接给你写个软件,我Q在线的
回复

使用道具 举报

628

主题

1946

回帖

5944

积分

论坛元老

积分
5944
 楼主| 发表于 2020-1-12 16:12:20 | 显示全部楼层

Mr. 发表于 2020-1-12 16:05

楼上说的 导出csv 然后按行读取 可以,但要导出100多次也是累…
你要的话直接给你写个软件,我Q在线的 ...

那最好了,正好你也可能用得着。我现在是将06年到目前的所有的淘宝热搜词全部导出来了。就是想做一份淘宝热搜词关键词库。
回复

使用道具 举报

43

主题

173

回帖

529

积分

高级会员

积分
529
发表于 2020-1-12 16:05:00 | 显示全部楼层
这种不是随便玩,pandas批量读取,拼接,然后去重,保存 就可以了?
回复

使用道具 举报

55

主题

565

回帖

1421

积分

金牌会员

积分
1421
发表于 2020-1-12 16:28:40 | 显示全部楼层
写个程序,全部读进内存,也就几分钟的事情。。。。
回复

使用道具 举报

54

主题

2536

回帖

5340

积分

论坛元老

积分
5340
发表于 2020-1-12 16:32:40 | 显示全部楼层
处理成文本格式,导入数据库里
回复

使用道具 举报

31

主题

658

回帖

1533

积分

金牌会员

积分
1533
发表于 2020-1-12 16:36:27 | 显示全部楼层
试试excel的power query
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2026-3-24 18:07 , Processed in 0.016228 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表