Python 序列化(Python IO)

莫愁
其他
2019-07-29

简介上一节我们学习了文件的读写，把一个字符串（或字节对象）保存到磁盘是一件很容易的事情。但是在实际编程中，我们经常需要保存结构化数据，比如复杂的字典、嵌套的列表等等，这时候就需要我们想办法把这些结构化数据先转变成一个字符串，这个转换过程就叫做“序列化”，这一过程的逆操作就是“反序列化”。
字数 1240.5

上一节我们学习了文件的读写，把一个字符串（或字节对象）保存到磁盘是一件很容易的事情。但是在实际编程中，我们经常需要保存结构化数据，比如复杂的字典、嵌套的列表等等，这时候就需要我们想办法把这些结构化数据先转变成一个字符串，这个转换过程就叫做“序列化”，这一过程的逆操作就是“反序列化”。

Python序列化

JSON序列化

序列化数据的操作在各个语言编程中都会遇到，当然也出现了标准化的格式，比如：JSON（JavaScript Object Notation）。JSON格式通常被现代应用程序用于数据交换，尤其是在Web中广为人知，是许多程序员的选择。Python支持JSON的模块叫做json。

JSON的数据格式和Python中的字典和列表非常相似，可以说它是字典和列表相互嵌套的结合体，而这些字典和列表的基本数据类型只能是：字符串、整数、浮点数、布尔型、None，不能是自定义的类等复杂对象。

一个对象x可以用一行简单的代码转换成它对应的JSON字符串：

In [124]: import json

In [125]: json.dumps({'Tom': 23, 'Jim': 25, 'William': 21})
Out[125]: '{"Tom": 23, "Jim": 25, "William": 21}'

把JSON字符串反序列化为Python对象的代码也只有一行：

In [126]: json.loads('{"Tom": 23, "Jim": 25, "William": 21}')
Out[126]: {'Tom': 23, 'Jim': 25, 'William': 21}

dumps()方法有个变体叫做dump()，它是将对象序列化到文件中。如果f是一个文件对象，我们可以这样操作：

json.dump(x, f)

对应的，从文件对象f中反序列化的操作就是：

x = json.load(f)

dumps()函数有很多参数可选，使我们生成不同格式的JSON字符串，具体可以在IPython中通过json.dumps?来查看。我们可以通过下面的例子来了解一下：

（1）紧凑编码
通过separators参数来实现：

In [130]: json.dumps({"Tom": 23, "Jim": 25, "William": 21}, separators=(',', ':'))
Out[130]: '{"Tom":23,"Jim":25,"William":21}'

（2）美化输出
通过sort_keys， indent参数来实现：

In [132]: print(json.dumps({"Tom": 23, "Jim": 25, '9':3, '3': 10}, sort_keys=True, indent=4)){
    "3": 10,
    "9": 3,
    "Jim": 25,
    "Tom": 23
}

（3）中文编码
参数ensure_ascii默认为True，会把中文等非ascii字符转义：

In [133]: print(json.dumps({"小刚": 23, "小明": 25, '9':3, '3': 10}, sort_keys=True, indent=4))
{
    "3": 10,
    "9": 3,
    "/u5c0f/u521a": 23,
    "/u5c0f/u660e": 25
}

In [134]: print(json.dumps({"小刚": 23, "小明": 25, '9':3, '3': 10}, sort_keys=True, indent=4, ensure_ascii=False))
{
    "3": 10,
    "9": 3,
    "小刚": 23,
    "小明": 25
}

pickle模块序列化

与json模块不同，pickle可以对任意复杂的Python对象进行序列化，它是Python特有的，不能与其它语言进行通信。默认情况下，它也是不安全的，如果数据是由黑客精心设计的，则反序列化的数据可能被植入恶意代码。

pickle的接口跟json是一样的，序列化用dumps(x), dump(x, f)，反序列化使用loads(s), load(f)。但是，pickle可以序列化任意复杂的对象，比如自定义的类、函数都是可以用它来序列化的。比如下面这个例子就是序列化b并反序列化一个函数：

In [136]: def add(x, y):
      ...:     print(x+y)
      ...:

In [137]: import pickle

In [138]: s = pickle.dumps(add)

In [139]: s
Out[139]: b'/x80/x03c__main__/nadd/nq/x00.'

In [140]: f = pickle.loads(s)

In [141]: f
Out[141]: <function __main__.add(x, y)>

In [142]: f(2, 3)
5

从这个例子中，我们实现了序列化和反序列化一个函数的功能。这样，我们可以把一些函数、自定义的类等各种对象先序列化到文件，然后把这个文件发给别人，别人可以通过反序列化来使用这些自定义的类和函数。这个过程中，如果有人对序列化文件做了手脚，比如通过修改文件修改了函数add()的实现，就有可能被黑客利用来进行攻击。这也是前面我们为什么说pickle默认是不安全的。所以，在选择是否使用它进行序列化时，要先思考一番。