如何在 Go 中检测 JSON 输入中的重复键并实现严格解析

go 标准库的 `encoding/json` 不支持重复键检测(默认覆盖),但可通过基于事件流的 sax 风格解析器(如 `github.com/garyburd/json`)实时捕获键名、维护作用域栈,在解析过程中精准识别并报错重复键。

在 Go 中实现 JSON 重复键检测,核心思路是放弃声明式解码(json.Unmarshal),转而采用流式、事件驱动的解析模型——类似 Python 的 object_hook 或 SAX 解析器,逐个接收语法单元(token),动态构建解析上下文。标准库 encoding/json 仅提供完整结构化解码,无法干预键冲突逻辑;因此需借助第三方流式 JSON 库,其中 github.com/garyburd/json(现归档,但广泛兼容且原理清晰)是经典选择。

该库以 json.Scanner 为核心,按顺序触发以下关键事件:

  • json.Object / json.Array:进入新对象或数组,压入新作用域;
  • json.End:退出当前结构,弹出栈顶作用域;
  • 其他值类型(如 json.String、json.Number)配合 scanner.Name() 获取当前字段名(仅对对象内键有效)。

通过维护一个栈([]Context),每个 Context 记录当前对象的键集合(map[string]struct{}),即可在每次读取到新键时快速查重。一旦发现已存在同名键,立即返回带路径信息的错误。

以下是精简可靠的实现示例:

package main

import (
    "fmt"
    "github.com/garyburd/json"
    "io"
    "strings"
)

type context struct {
    kind json.Kind
    keys map[string]struct{}
}

func validateDuplicateKeys(r io.Reader) error {
    scanner := json.NewScanner(r)
    var stack []context

    for scanner.Scan() {
        switch scanner.Kind() {
        case json.Object, json.Array:
            stack = append(stack, context{
                kind: scanner.Kind(),
                keys: make(map[string]struct{}),
            })
        case json.End:
            if len(stack) == 0 {
                return fmt.Errorf("mismatched closing token: no open object/array")
            }
            stack = stack[:len(stack)-1]
        default:
            // 仅在对象内检查键重复(数组无键)
            if len(stack) > 0 && stack[len(stack)-1].kind == json.Object {
                key := string(scanner.Name())
                if _, exists := stack[len(stack)-1].keys[key]; exists {
                    return fmt.Errorf("duplicate key %q at JSON path %s", 
                        key, jsonPath(stack))
                }
                stack[len(stack)-1].keys[key] = struct{}{}
            }
        }
    }
    return scanner.Err()
}

// jsonPath 演示如何构建可读路径(如 "root.y.z"),实际中可按需增强
func jsonPath(stack []context) string {
    // 简化版:返回层级数示意,生产环境建议记录 field name
    return fmt.Sprintf("level-%d", len(stack))
}

func main() {
    input := strings.NewReader(`{
        "a": 1,
        "b": {"c": 2, "c": 3},
        "d": [4,5]
    }`)

    if err := validateDuplicateKeys(input); err != nil {
        fmt.Printf("JSON validation failed: %v\n", err) // 输出: duplicate key "c" ...
    } else {
        fmt.Println("JSON passed duplicate-key check")
    }
}

⚠️ 注意事项与工程建议

  • github.com/garyburd/json 已归档,但代码稳定、无依赖,适合嵌入关键路径;若需活跃维护,可评估 github.com/tidwall/gjson(只读)或 github.com/mohae/deepcopy + 自定义 Unmarshaler 组合方案;
  • 对于“保持键序”需求(即 Go 中的有序 map),标准库不支持,但可通过 []map[string]interface{} 或自定义结构体 + json.RawMessage 延迟解析实现;更推荐使用 github.com/josharian/intern + 切片存储 (key, value) 对;
  • 本方案具备线性时间复杂度 O(n),内存开销仅取决于最大嵌套深度,适用于高吞吐、强校验场景(如 API 网关、配置中心);
  • 错误信息应补充具体行号/偏移量:scanner.Pos().Offset 可获取字节位置,便于调试。

综上,Go 中实现 JSON 重复键检测并非“不可为”,而是需切换思维——从“解码数据”转向“解析过程”,利用流式解析器的事件能力,在语法树构建途中主动拦截违规行为。这既是 Go 类型安全哲学的延伸,也是构建健壮数据管道的关键一环。