如何实现一个支持 getitem 和切片的自定义序列类

必须实现 __getitem__ 并处理 slice 对象,否则切片会报错;建议用 key.indices(len(self._data)) 解析切片,返回同类型实例;还需实现 __len__ 和 __iter__ 才构成完整序列。

必须实现 __getitem__ 且要处理 slice 对象

Python 的切片操作(如 obj[1:5])会直接调用 __getitem__,但传入的不是整数,而是 slice 实例。如果只支持整数索引,遇到切片就会抛 TypeError: 'slice' object is not subscriptable

实操建议:

  • __getitem__ 中用 isinstance(key, slice) 分支判断
  • 手动调用 key.indices(len(self._data))slice 映射为 (start, stop, step) —— 它自动处理负索引、越界、默认值(None)等细节
  • range(*key.indices(...)) 构造索引序列,再逐个取值或返回新序列实例(推荐)

返回值类型要匹配原序列语义

切片结果该返回什么?取决于你的类设计目标:是“视图”还是“副本”,是否可变。

常见选择:

  • 返回同类型实例(最安全):比如 MyList 切片后仍返回 MyList,需确保构造函数能接收可迭代对象
  • 返回内置 list(简单但丢失类型):适合只读工具类,但破坏了序列一致性
  • 避免返回原始内部列表引用:否则外部修改会影响内部状态,违背封装

示例片段:

def __getitem__(self, key):
    if isinstance(key, slice):
        # 假设 self._data 是 list 或其他序列
        indices = key.indices(len(self._data))
        return self.__class__([self._data[i] for i in range(*indices)])
    else:
        return self._data[key]

别忘了 __len____iter__ 才算完整序列

仅靠 __getitem__ 不足以让类被识别为 Python 序列。很多内置函数(如 len()for 循环、list())会分别查找 __len____iter__

不实现的后果:

  • __len__len(obj)TypeError
  • __iter__for x in obj: 回退到 __getitem__ 从 0 开始调用,但若索引越界没抛 IndexError 就会无限循环

最简 __iter__ 实现就是 yield from self._data__len__ 直接返回 len(self._data) 即可。

边界情况:空序列、负步长、step ≠ 1 的切片

slice.indices() 能帮你扛住大部分边界,但要注意它返回的 rangestep 时是递减的,直接用于索引列表没问题,但如果你手动拼 list,得确保下标合法(range 本身已过滤无效索引)。

容易漏掉的点:

  • 空切片(如 [5:2][1:1])→ range(*...) 为空,返回空序列即可
  • step 为负数时,start 可能大于 stop,但 range 天然支持,不用额外判断
  • 如果

    内部存储不支持随机访问(比如是生成器),就不能用 __getitem__ 支持切片——得换设计,比如只支持按需迭代

真正麻烦的是把自定义序列嵌套进 NumPy 或 Pandas:它们可能绕过 __getitem__ 直接查 __array__ 或调用 C 层接口,这时候光靠 Python 魔术方法不够。