MySQL大数据量表中删除重复记录

在线工具

获取币签到有礼联系站长

MySQL大数据量表中删除重复记录

展开阅读全文

最近工作中需要抓取大量新闻，抓取的数据中由于一些原因存在一些重复数据，而整个数据表的记录数接近10万条，大小接近1个G，又在我自己的渣渣本本上，查询速度十分不理想，想要完成一个最基本的查询都很困难。在看了一些相关资料后终于找到解决方法，分享给大家参考。首先说一下新闻表的大概结构，主要是包含id、title、content等字段，其中title字段使用较为频繁，并且需要用该字段判断重复记录，所以我们先给title字段添加索引。添加索引后我们可以使用以下语句来很快地查询出哪些title是重复的：

SELECT `title` FROM `info` GROUP BY `title` HAVING COUNT( `title` ) >1

但如果要一次查出重复字段的id的话就需要用到子查询了，可是子查询的效率很低，明显是不合适的，所以我们可以先建一个临时表：

CREATE TABLE `tmptable` AS (SELECT `title` FROM `info` GROUP BY `title` HAVING COUNT( `title` ) >1);

有了重复字段的标题接下来就可以查出重复字段的id了，我这里为了方便又建了一个临时表：

CREATE TABLE `idtable` AS ( SELECT min(a.`id`) AS id, a.`title` FROM `info` a, `tmptable` t WHERE a.`title` = t.`title` GROUP BY a.`title`);

这样删除重复字段就很容易了：

DELETE a FROM `info` a,`idtable` t WHERE a.`id` = t.`id`;

不过我这篇文章中的方法只适用于记录只重复了一次的情况，不过稍微改改就可以删除重复次数较多的记录.

来源：https://blog.skyx.in/archives/135/

我自己改成这样：

CREATE TABLE `idtable` AS (SELECT `title`,min(id) AS id FROM `info` GROUP BY `title` HAVING COUNT( `title` ) >1)

备注：在删除重复多条的情况下，尽量避免全表搜索，比如!=或者order by等等。

最新文章 Latest articles

html 的一篇文章，怎么让他滑到哪个位置，才加载那个图片，避免一起加载带宽不足卡死 php 七牛云文件太大，怎么切片上传 python 判断图片是横版还是竖版 python 判断图片会不会模糊 python 判断图片是否以黑色或白色为主 python怎么通过视频链接下载完整的视频 python 获取文件最后一次修改的时间 JS中如何通过鼠标滚轮控制横向滚动轴滚动 MySQL 使用 order by limit 分页排序会导致数据丢失和重复 The following untracked working tree files would be overwritten by merge 网站点击安装导航按钮功能 phpExcel设置单元格全部加边框 js canvas 批量插入图片 JS判断视频Video的播放、暂停、结束完成及获取长度事件监听处理 php curl 怎么加上代理IP

相关文章 Related articles

MySQL 使用 order by limit 分页排序会导致数据丢失和重复 mysql 删除字段的数据前面几位字符不等于www.的 mysql 查找等于null（掌握mysql中null的查询方法） mysql如何查询表字所有字段？mysql获取某个表的所有字段名 Linux MySQL误删root用户导致无法登陆的详细解决方法 mysql在某个字段添加索引_为数据库表中某个字段增加索引 mysql 获取所有的数据库名字 mysql SHOW PROCESSLIST info不展示全部宝塔创建数据库表提示： #1874 - InnoDB is in read only mode. MySQL 怎么设置AUTO_INCREMENT中自增ID起始值修改方法 mysqld insert 插入数据失败，怎么让其提示错误信息错误描述: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near mysql获取某个表的所有字段名 GPG key retrieval failed: [Errno 14] Could not open/read file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql的解决方法 SQLSTATE[HY000]: General error: 1366 Incorrect string value: '\xE7

php lua MySQL Linux HTML Jquery Laravel CSS Git javascript 配置 Vue.js 微信小程序 composer Linode thinkphp Windows Flarum Easyui Nodejs KindEditor Android layer summernote Kangle 移动端 python apache java XML editormd 插件框架帝国cms 微信公众号 CDN WordPress 织梦cms 宝塔 SEO GitHub FastAdmin 七牛云 phpcms HBuilder X

你超出了一个边界，就又得到了另一个边界，你的空间越来越大，但你想要找的东西,就越找不到。