修复 HTML 中缺失引号的 PHP 正则表达式教程

聖光之護 2026-01-26 00:00:00 次阅读

本文介绍如何使用 `preg_replace` 安全修复老旧 HTML 内容中缺失引号的属性值（如 `

⚠️ 重要限制与注
意事项

不适用于复杂场景：该方案无法处理内联 JavaScript（如 onclick="alert('x')" 中的单引号干扰）、多行 HTML、注释或 CDATA 块。若数据含大量脚本，建议先剥离
避免过度匹配：原始提问中的 /()/ 存在两大缺陷：① (.)* 应为 (.*)（否则仅捕获最后一个字符）；② 强制以 h 开头，完全忽略 src=, id=, class= 等其他属性。

XML 导出前必须验证：补引号后仍需用 DOMDocument 进行最终校验，确保结构合法：

$dom = new DOMDocument();
libxml_use_internal_errors(true); // 抑制警告
$dom->loadHTML($output, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
if (libxml_get_errors()) {
    throw new Exception("HTML 仍存在语法错误");
}