SQL SELECT 怎么处理重复值统计？

冷漠man 2025-10-09 00:00:00 次阅读

答案：处理重复值统计需用GROUP BY配合聚合函数。1. 用COUNT()统计每组重复次数，如按user_id分组查登录频次；2. 加HAVING筛选出现超一次的真正重复项；3. 多列组合重复时，将所有列放入GROUP BY以精确识别；4. 结合COUNT(*)与COUNT(DISTINCT)计算总行数、唯一值及重复实例数，评估整体重复情况。关键在掌握分组逻辑与过滤条件应用。

处理重复值统计时，核心是用 GROUP BY 配合聚合函数来识别和计算重复项。以下几种常用方法可以满足不同场景需求。

1. 统计每组重复值的出现次数

使用 GROUP BY 将相同值分组，再用 COUNT() 计算每组数量。

例如，有一个用户登录记录表 login_log，想查看每个用户的登录次数：

SELECT user_id, COUNT(*) AS login_count
FROM login_log
GROUP BY user_id;

这会列出每个 user_id 及其出现的次数，重复越多，count 值越高。

2. 筛选出真正“重复”的数据（出现次数大于1）

在分组后加 HAVING 条件过滤出重复项。

继续上面的例子，只看登录超过一次的用户：

SELECT user_id, COUNT(*) AS login_count
FROM login_log
GROUP BY user_id
HAVING COUNT(*) > 1;

HAVING 是对分组后的结果做筛选，这里排除了只出现一次的记录。

3. 统计整行完全重复的记录

当需要判断多列组合是否重复时，把所有相关列都放进 GROUP BY。

比如表中有姓名和部门两列，想查同名同部门的重复员工：

SELECT name, department, COUNT(*) AS dup_count
FROM employees
GROUP BY name, department
HAVING COUNT(*) > 1;

这样能发现字段组合层面的重复，比单字段更精确。

4. 查看去重后的总数或比例

结合 DISTINCT 和总行数，了解重复程度。

想知道某个字段有多少唯一值，以及重复占比：

SELECT 
  COUNT(*) AS total_rows,
  COUNT(DISTINCT user_id) AS unique_users,
  COUNT(*) - COUNT(DISTINCT user_id) AS duplicate_instances
FROM login_log;