最近想看看 Python 的源代码,很久之前就被人安利了《Python源码剖析》,但是一直没有看。刚还,最近有一段比较空闲的时间,可以静下来好好看看,所以就开始翻阅这本书。这本书看下来,发现内容比较过时,有很大一部分内容是已经过期了,不过这个也不能说什么,毕竟 Python 现在都出到 3.6.2 了嘛,这本书讲的还是 2.5 的源码,所以,个人觉得作者还是可以刷新一版,更新一下的话就很好了。

虽然有点过时,但是,很多思路还是可以借鉴的,所以,我就借鉴这本书的一些思路,然后看现在 Python 3.6.2 的代码,看得不多,但是,还是学到了一些内容的,其中肯定是最核心的对象模型,需要单独自己总结一番。

对象模型结构

我们知道,Python 中数据类型是内定的嘛,例如我们经常会看到的:

这个就有点意思了,这个我觉得应该可以从对象模型里面找到原因,下面是我画的几个对象的 UML 图,但是,需要说一下的就是因为 C 没有继承体系,所以,这里的代码实现和 C++ 里面的继承是不一样的!

所以,从这里我就知道数字的类型就是 PyLongObject,那么 type(long) 的类型是 PyTypeObject,然后 type(type) 的类型还是 PyTypeObject

对象的行为

除了关注对象的属性,我还关注对象的行为,在这些对象中,有三组非常重要的操作族,在我后面看其他对象的代码时发现基本上都是以组的形式赋值的,这三组分别是:

例如下面这一段 long 的初始化代码:

我们就可以以这份代码为出发点查看想了解的函数是怎么实现的。

重要的引用计数

之前说过,Python 的垃圾回收依赖于引用计数,从我们上面的 UML 图中可以看到,所有的对象都有引用计数字段:ob_refcnt,同时,当我们查看对象的创建和删除时,会发现,都会伴随着引用计数的增减:

而减少引用计数的代码也是比较清晰的,引用计数 为0的时候直接释放,验证了我们之前的理解:

Reference

  1. PEP 237 — Unifying Long Integers and Integers
  2. Python源码剖析
  3. PEP 393 — Flexible String Representation