Python re.sub() 替换时如何引用匹配到的分组内容

舞夢輝影 2026-01-23 00:00:00 次阅读

re.sub()中引用捕获组最常用\1、\2等数字形式，命名组用\g更清晰，函数替换通过Match对象的group()方法获取匹配内容。

匹配后想在替换字符串里复用捕获内容，最常用方式就是用反斜杠加数字：\1 表示第一个括号内的匹配，\2 是第二个，以此类推。这是正则引擎原生支持的语法，无需额外函数。

注意：数字只认 () 捕获组，不认 (?:...) 非捕获组；且编号从左到右按开括号顺序算，嵌套也一样。

re.sub(r"(\w+)@(\w+\.\w+)", r"[\1] at [\2]", "user@example.com") → "[user] at [example.com]"
如果写成 r"\0"，它代表整个匹配（等价于 re.sub(..., r"\g", ...)），但容易和八进制转义混淆，不建议用
当替换字符串里要字面量输出反斜杠（比如 Windows 路径），得写双反斜杠：r"C:\\temp\\file.txt"，否则 \t 会被解释为制表符

当正则里有多个括号、逻辑复杂时，靠数 \1 \2 容易错。改用命名捕获组 + \g 语法，可读性和维护性高得多。

当替换逻辑不能靠静态字符串搞定（比如要转大小写、查表、条件判断），就得传一个函数给 re.sub()。函数接收一个 re.Match 对象，从中调用 .group(1)、.group("name") 等方法取值。

函数签名必须是 def replacer(match: re.Match) -> str:，返回替换后的字符串
match.group(0) 是整个匹配，match.group(1) 是第一捕获组，match.group("city") 是命名组
如果某组未匹配（比如用了 ? 修饰且没出现），.group() 会抛 IndexError，要用 .groupdict().get("name", "") 更安全
示例：re.sub(r"(\ d+)", lambda m: str(int(m.group(1)) * 2), "a1b3c5") → "a2b6c10"