XPath怎么选择值唯一的节点

XPath无直接去重语法,需用count()配合current()判断节点值是否全局唯一,如//name[count(//name[text()=current()/text()])=1],推荐normalize-space()处理空白以确保准确匹配。

XPath 本身没有直接的“去重”或“值唯一”选择语法,但可以通过组合函数和轴来定位**值在文档中只出现一次的节点**。核心思路是:对每个候选节点,检查整个文档中与其文本值相等的同类型节点数量是否为 1。

用 count() + 自身值匹配判断唯一性

这是最常用、兼容性最好的方法。例如,想选所有 name 元素中,文本内容在整个文档里只出现一次 的那些节点:

`//name[count(//name[text() = current()/text()]) = 1]`

说明:

  • current()/text() 获取当前遍历的 name 节点的文本值;
  • //name[text() = ...] 找出所有文本值等于它的 name 节点;
  • count(...) 统计个数,等于 1 即表示该值唯一。

注意节点类型和上下文要一致

上面的例子默认所有 name 是同级或可全局匹配的。如果节点嵌套复杂或需限定范围(比如只在某个父元素下判断唯一),应缩小路径范围:

`//book/title[count(../title[text() = current()/text()]) = 1]`

这样只在每个 book 的子 title 中判断,而不是全文档——根据需求选 //title(全局)还是 ../title(局部)。

用 distinct-values()(仅 XPath 2.0+ / XSLT 2.0+)

如果环境支持 XPath 2.0 或更高版本,可用更简洁的方式预处理值列表:

`//name[not(text() = distinct-values(//name/text())[position() > 1])]`

但实际中更推荐用 count() 方式,因为:

  • XPath 1.0 兼容性更好(如多数浏览器 DOM API、旧版 Selenium);
  • 逻辑清晰、调试直观;
  • 避免 distinct-values() 在含空格/换行时需配合 normalize-space() 的额外处理。

常见坑:文本值需标准化再比较

XML/HTML 中的文本常含空白、换行。直接比 text() 可能误判。稳妥做法是用 normalize-space()

`//name[count(//name[normalize-space(text()) = normalize-space(current()/text())]) = 1]`

或者更严谨地统一处理:

`//name[count(//name[normalize-space() = normalize-space(current()/.)]) = 1]`

其中 current()/. 等价于当前节点自身,normalize-space(.) 会自动合并并裁剪首尾空白。

基本上就这些。关键不是“选唯一值”,而是“选其值在文档中无重复的节点”——靠 count() 配合 current() 回溯是最稳的路子。