pandas 如何用 pd.IntervalIndex 实现时间段范围查询_技术教程

pd.Interv
alIndex是pandas中用于表示左闭右开连续区间的索引结构，适用于按时间范围快速定位场景，如订单归属计费周期、访问匹配时间段等，核心价值在于将互斥/非重叠时间段转化为可索引坐标轴。

pd.IntervalIndex 是什么，适合什么场景

pd.IntervalIndex 是 pandas 里专为「连续区间」建索引的数据结构，不是用来存单个时间点的，而是存像 [2025-01-01, 2025-01-15) 这样的左闭右开时间段。它天然支持按时间范围快速定位，比如查“某笔订单落在哪个计费周期内”“某次访问属于哪个小时段”，比用 df[(df['ts'] >= start) & (df['ts'] 手动过滤快得多，尤其当区间数量大、查询频繁时。

注意：它不替代 pd.DatetimeIndex，也不直接用于时间序列重采样；它的核心价值是「把一堆互斥/非重叠的时间段变成可索引的坐标轴」。

构造 IntervalIndex 的常见方式和坑

构造时最容易出错的是区间端点类型不一致或未排序：

必须确保左右端点都是同一种时间类型（推荐 pd.Timestamp），混用字符串或 datetime.datetime 可能导致比较失效
pd.IntervalIndex.from_tuples() 默认不检查重叠，如果区间有重叠，后续 .get_loc() 可能返回多个位置，引发 KeyError 或意外结果
用 closed='both' 或 'neither' 要格外小心：pandas 对时间类型的 'both' 支持有限，多数情况建议坚持默认的 closed='left'（即 [start, end)）

推荐写法：

import pandas as pd
periods = [
('2025-01-01', '2025-01-08'),
('2025-01-08', '2025-01-15'),
('2025-01-15', '2025-01-22')
]
idx = pd.IntervalIndex.from_tuples(
[(pd.Timestamp(s), pd.Timestamp(e)) for s, e in periods],
closed='left'
)

用 .get_loc() 做单点时间查询

.get_loc() 是最常用的时间点落入哪个区间的查询方法，但行为取决于输入：

传入单个 pd.Timestamp：返回整数位置（如 idx.get_loc(pd.Timestamp('2025-01-10')) → 1）
传入时间数组（Series 或 list）：返回位置数组，但要求所有时间都必须落在某个区间内，否则报 KeyError
若时间点恰好等于某个区间的右端点（比如 2025-01-08），而你用的是 closed='left'，那它属于下一个区间，不是上一个——这是最容易误判的地方

安全做法是先用 .contains() 检查是否在任意区间内：

t = pd.Timestamp('2025-01-08')
mask = idx.contains(t)
if mask.any():
    pos = idx.get_loc(t)
else:
    pos = -1  # 未匹配

结合 DataFrame 实现批量时间段归属

真正实用的场景是：给一列时间戳，批量打上所属时间段标签。别用循环调 .get_loc()，性能差且易错。

正确姿势是把 IntervalIndex 当作索引，用 pd.cut() 或 Series.map()：

pd.cut(ts_series, bins=idx, labels=False) 返回每个时间对应的区间下标（NaN 表示无匹配）
更直观的是先构建映射表：lookup = pd.Series(range(len(idx)), index=idx)，再用 ts_series.map(lookup)
如果想返回区间本身（比如显示“第2周”），用 ts_series.map(pd.Series(idx, index=idx))

注意：pd.cut 默认会自动扩展 bin 边界到 ±∞，若你明确只接受完全落在给定区间内的点，得加参数 include_lowest=True 并手动处理边界外值。

区间重叠、端点精度（毫秒级是否对齐）、以及 NaT 值的处理，是上线前必须验证的三个点。