如何操作正则表达式_JavaScript中正则表达式的基本语法是什么

优先用字面量(如/^\d{3}-\d{4}$/),性能好;需动态拼接变量或控制flag时用构造函数(如new RegExp(keyword, "i")),注意反斜杠需双写。^、$默认匹配行首行尾,\b不支持中文词边界。

正则表达式字面量和构造函数怎么选

JavaScript 中创建正则表达式有两种方式:/pattern/flags 字面量,或 new RegExp(pattern, flags) 构造函数。字面量更常用、性能更好,但无法动态拼接;构造函数适合 pattern 来自变量或用户输入的场景。

常见踩坑点:用构造函数时,反斜杠要双写——因为字符串本身会先解析一次转义。比如想匹配 \d+,得写成 new RegExp("\\d+", "g"),否则 "\d+" 会被当作非法转义而报错。

  • 固定规则、无变量 → 优先用字面量:/^\d{3}-\d{4}$/
  • 需要拼接变量(如搜索关键词)→ 必须用构造函数:new RegExp(keyword.replace(/[.*+?^${}()|[\]\\]/g, "\\$&"), "i")
  • flag 动态控制(如是否忽略大小写)→ 构造函数更灵活:new RegExp(pattern, ignoreCase ? "i" : "")

常用元字符和边界符的实际含义

很多初学者把 ^$ 理解成“开头”“结尾”,但它们实际匹配的是「行首」和「行尾」,不是整个字符串首尾——除非开启 m(multiline)标志。默认情况下,/^abc$/ 只能匹配纯字符串 "abc",不能匹配 "\nabc\n" 中的 abc

\b 是单词边界,但它只认 ASCII 字母、数字和下划线,对中文、emoji 或带连字符的单词(如 user-name)无效。想匹配中文词边界?得自己定义,比如用 (?。

  • \d 等价于 [0-9],不匹配全角数字或带逗号的数字(如 "1,234"
  • . 默认不匹配换行符,要匹配所有字符需加 s 标志(ES2018+):/a.b/s 才能匹配 "a\nb"
  • \s 包含空格、\t\n\r\f\u00A0(NBSP),但不含 Unicode 分隔符如 \u2000\u200F

test()exec()match() 的行为差异

这三个方法看着都“用来匹配”,但返回值和副作用完全不同:test() 最轻量,只返回布尔值;exec() 返回详细匹配结果(含 indexgroups),且对全局正则(带 g)会维护 lastIndex 状态;match() 是字符串方法,返回数组或 null,但对非全局正则会忽略捕获组之外的信息。

最易被忽略的问题:全局正则对象在多次调用 exec() 时会“记住位置”。如果没重置 lastIndex = 0 或重新创建正则,第二次调用可能直接从上次结束处继续,导致漏匹配或死循环。

  • 只关心“是否匹配” → 用 regex.test(str),安全、快
  • 要取捕获组或匹配位置 → 用 regex.exec(str),注意 lastIndex 影响
  • 想一次性拿到所有匹配项 → str.match(regex),但注意:不带 g 时返回的数组含 groups,带 g 时反而丢掉捕获组

替换操作中 $1$& 这些符号怎么用

replace() 的第二个参数支持字符串模板语法,其中 $1 表示第一个捕获组内容,$& 是整个匹配串,$` 是匹配前的内容,$' 是匹配后的内容。这些不是变量,是字面替换符号,不能参与计算或条件判断。

如果要用逻辑处理替换内容,必须传入函数作为第二个参数。函数接收匹配项、各捕获组、索引、原字符串等参数,返回最终替换字符串。例如把所有数字加 1:

str.replace(/(\d+)/g, (match, p1) => parseInt(p1, 10) + 1)

  • 简单静态替换(如把 "cat" 换成 "dog")→ 直接用字符串:str.replace(/cat/g, "dog")
  • 依赖捕获组做模板替换(如交换日期格式 "2025-04-01""01/04/2025")→ 用 $1/$2str.replace(/(\d{4})-(\d{2})-(\d{2})/, "$3/$2/$1")
  • 需要运行 JS 逻辑(如大小写转换、查表、异步处理)→ 必须用函数回调,别硬套 $ 符号
正则的复杂性不在语法多,而在不同方法间状态共享、不同 flag 对边界语义的改变、以及字符串预处理(如反斜杠转义)带来的双重解析层。写完一个正则,务必用真实数据(尤其是边界 case:空字符串、换行符、Unicode、特殊符号)验证行为,而不是只靠测试用例里的理想输入。