字符串编码格式转换：轻松解决乱码问题

发布时间：2025-12-14 23:04:08 阅读：299 次

你在打开一个文本文件时，是不是经常看到一堆乱码？比如本该是「你好世界」，却显示成「浣犲ソ涓栫晫」。这其实是字符串编码格式不匹配惹的祸。别急，搞懂编码转换，这些问题分分钟就能搞定。

常见的编码格式有哪些？

平时打交道最多的编码是 UTF-8、GBK 和 ISO-8859-1。UTF-8 是国际通用标准，支持几乎所有语言字符，网页和现代系统基本都用它。GBK 主要用于中文环境，能正确显示简体中文，但不兼容英文以外的多数语言。ISO-8859-1 则是西欧语言常用的单字节编码，处理中文时基本必出乱码。

举个例子，你从网上下载了一份订单列表，用记事本打开全是「å¥½è¿æ¥äº」，但在同事电脑上却是正常的「好运来了」。原因很可能就是你的编辑器默认用 GBK 打开，而文件实际是 UTF-8 编码。

Python 处理编码转换特别方便。假设你有一个 GBK 编码的文件，想转成 UTF-8，代码很简单：

with open('input.txt', 'r', encoding='gbk') as f:
    content = f.read()

with open('output.txt', 'w', encoding='utf-8') as f:
    f.write(content)

这段代码先以 GBK 格式读取内容，再用 UTF-8 保存。反过来也一样，只需调换编码名称即可。如果不确定原文件是什么编码，可以用 chardet 库检测：

import chardet

with open('unknown.txt', 'rb') as f:
    result = chardet.detect(f.read())

print(result['encoding'])  # 输出可能为 'gbk' 或 'utf-8'

如果你习惯用命令行，iconv 是个好工具。Linux 和 macOS 自带，Windows 可通过 Cygwin 或 WSL 使用。比如把一个文件从 GBK 转成 UTF-8：

iconv -f GBK -t UTF-8 input.txt -o output.txt

参数 -f 指定源编码，-t 指定目标编码，-o 指定输出文件。执行完，output.txt 就是 UTF-8 格式了。

像 Notepad++、VS Code 这类编辑器都支持手动切换编码。在 VS Code 中，右下角会显示当前编码，点击后选择「通过编码重新加载」，试试 UTF-8 或 GBK，哪个能正常显示就用哪个。保存时再选对编码，下次打开就不会乱码了。

遇到 CSV 文件在 Excel 里中文乱码？那是因为 Excel 默认用本地编码打开。解决办法是：另存为 UTF-8 编码的 CSV，或者用 Excel 的「数据」选项卡导入，过程中明确指定 UTF-8 编码。

编码转换不是玄学，关键是搞清楚原始编码和目标编码。多试几次，配合工具自动检测，基本都能顺利解决。日常处理文档、写脚本、导数据，掌握这点小技巧，省时又省心。