Python 字符串 encode/decode 时报 UnicodeEncodeError 怎么解决?

UnicodeEncodeError 源于编码不匹配:print() 或写文件时,Unicode 字符被转为终端或系统不支持的编码(如 cp936、ascii、gbk);解决需统一指定 encoding='utf-8'、设置 PYTHONIOENCODING、合理选用 errors 策略。

为什么 UnicodeEncodeError 总在 print() 或写文件时突然出现?

这不是字符串本身有问题,而是 Python 尝试把 Unicode 字符(比如中文、emoji)转成当前环境不支持的编码(最常见是 cp936 Windows 控制台或 ascii 某些旧 Linux 终端)。encode() 报错说明目标编码表里压根没这个字符;decode() 报错则多因字节流本身不是合法 UTF-8/GBK 等格式。

写文件时遇到 UnicodeEncodeError: 'gbk' codec can't encode character

Windows 默认用 gbk 打开文本文件,但你的字符串含 gbk 不支持的字符(如某些生僻汉字、emoji)。别硬改系统编码,直接指定更通用的编码:

  • 明确用 encoding='utf-8'
    with open('out.txt', 'w', encoding='utf-8') as f:
        f.write('你好 ?')
  • 如果必须兼容 Windows 记事本(它对 UTF-8 无 BOM 文件支持不好),加 utf-8-sig
    with open('out.txt', 'w', encoding='utf-8-sig') as f:
        f.write('你好 ?')
  • 避免不带 encoding 参数调用 open()——它会 fallback 到系统 locale 编码,极不可控

print() 在终端报 UnicodeEncodeError 怎么办?

终端编码和 Python 解释器看到的编码不一致。Windows CMD/PowerShell 默认是 cp936,但 Python 可能按 UTF-8 解析源码,输出时卡在终端渲染环节:

  • 临时方案:运行前设环境变量 set PYTHONIOENCODING=utf-8(Windows)或 export PYTHONIOENCODING=utf-8(Linux/macOS)
  • PyCharm 等 IDE 需单独设置终端编码:Settings → Tools → Terminal → Shell path 下勾选 “Override encoding” 并选 UTF-8
  • 代码里强行重定向输出到 UTF-8 编码的 io.StringIO 或文件,绕过终端限制(适合脚本化场景)

encode() / decode() 手动转换时怎么防错?

手动编解码最容易忽略错误处理策略。默认 errors='strict' 一错就崩,实际中应按需选:

  • 'ignore':丢掉无法编码的字符(慎用,可能丢失关键信息)
  • 'replace':替换成 ?(适合日志、展示类场景)
  • 'xmlcharrefreplace':把中文转成 这种(HTML 安全输出)
  • 真正需要容错时,用 errors='surrogateescape'

    —它把非法字节转为特殊代理字符,后续可原样恢复,适合底层字节处理

例如:

'你好'.encode('gbk', errors='replace')  # b'\xc4\xe3\xba\xc3'
'你好?'.encode('gbk', errors='replace')  # b'\xc4\xe3\xba\xc3?'

字符编码问题从来不在“会不会”,而在“在哪一层失控”。控制住文件打开编码、终端环境变量、手动编解码的 errors 策略这三点,95% 的 UnicodeEncodeError 就不会意外弹出。