Python 是如何管理内存的?

共 2503字,需浏览 6分钟

 ·

2021-08-16 10:26

在 GitHub 看到一篇很不错的学习资料,其中提到 Python 是如何管理内存的,我看完后很有收获,如下:

原文[1]

当面试官问到这个问题的时候,一个展示自己的机会就摆在面前了。你要先反问面试官:“你说的是官方的CPython解释器吗?”。这个反问可以展示出你了解过 Python 解释器的不同的实现版本,而且你也知道面试官想问的是 CPython。当然,很多面试官对不同的 Python 解释器底层实现到底有什么差别也没有概念。所以,千万不要觉得面试官一定比你强,怀揣着这份自信可以让你更好的完成面试。

Python 提供了自动化的内存管理,也就是说内存空间的分配与释放都是由 Python 解释器在运行时自动进行的,自动管理内存功能极大的减轻程序员的工作负担,也能够帮助程序员在一定程度上解决内存泄露的问题。

以 CPython 解释器为例,它的内存管理有三个关键点:引用计数、标记清理、分代收集。

typedef struct _object {
    _PyObject_HEAD_EXTRA
    Py_ssize_t ob_refcnt;
    struct _typeobject *ob_type;
} PyObject;

引用计数:对于 CPython 解释器来说,Python 中的每一个对象其实就是 PyObject 结构体,它的内部有一个名为 ob_refcnt 的引用计数器成员变量。程序在运行的过程中 ob_refcnt 的值会被更新,并用 ob_refcnt 来反映有多少个变量引用到该对象。当对象的引用计数值为 0 时,它的内存就会被释放掉。

以下情况会导致引用计数加 1

  • 对象被创建
  • 对象被引用
  • 对象作为参数传入到一个函数中
  • 对象作为元素存储到一个容器中

以下情况会导致引用计数减 1

  • del语句显示删除对象引用
  • 对象引用被重新赋值其他对象
  • 一个对象离开它所在的作用域
  • 持有该对象的容器自身被销毁
  • 持有该对象的容器删除该对象

可以通过 sys 模块的 getrefcount 函数来获得对象的引用计数。引用计数的内存管理方式在遇到循环引用的时候就会出现致命伤,因此需要其他的垃圾回收算法对其进行补充。

标记清理

CPython使用了“标记-清理”(Mark and Sweep)算法解决容器类型可能产生的循环引用问题。该算法在垃圾回收时分为两个阶段:标记阶段,遍历所有的对象,如果对象是可达的(被其他对象引用),那么就标记该对象为可达;清除阶段,再次遍历对象,如果发现某个对象没有标记为可达,则就将其回收。

CPython 底层维护了两个双端链表,一个链表存放着需要被扫描的容器对象,姑且称之为链表 A,另一个链表存放着临时不可达对象,姑且称之为链表 B。为了实现“标记-清理”算法,链表中的每个节点除了有记录当前引用计数的 ref_count 变量外,还有一个 gc_ref 变量,这个 gc_refref_count 的一个副本,所以初始值为 ref_count 的大小。执行垃圾回收时,首先遍历链表 A 中的节点,并且将当前对象所引用的所有对象的 gc_ref1,这一步主要作用是解除循环引用对引用计数的影响。再次遍历链表 A 中的节点,如果节点的gc_ref值为0,那么这个对象就被标记为“暂时不可达”(GC_TENTATIVELY_UNREACHABLE)并被移动到链表B中;如果节点的gc_ref不为0,那么这个对象就会被标记为“可达”(GC_REACHABLE),对于“可达”对象,还要递归的将该节点可以到达的节点标记为“可达”;链表B中被标记为“可达”的节点要重新放回到链表A中。在两次遍历之后,链表 B 中的节点就是需要释放内存的节点。

分代回收

在循环引用对象的回收中,整个应用程序会被暂停,为了减少应用程序暂停的时间,Python 通过分代回收(空间换时间)的方法提高垃圾回收效率。分代回收的基本思想是:对象存在的时间越长,是垃圾的可能性就越小,应该尽量不对这样的对象进行垃圾回收。CPython将对象分为三种世代分别记为 012,每一个新生对象都在第 0 代中,如果该对象在一轮垃圾回收扫描中存活下来,那么它将被移到第 1 代中,存在于第 1 代的对象将较少的被垃圾回收扫描到;如果在对第 1 代进行垃圾回收扫描时,这个对象又存活下来,那么它将被移至第 2 代中,在那里它被垃圾回收扫描的次数将会更少。分代回收扫描的门限值可以通过 gc 模块的 get_threshold 函数来获得,该函数返回一个三元组,分别表示多少次内存分配操作后会执行 0 代垃圾回收,多少次 0 代垃圾回收后会执行 1 代垃圾回收,多少次 1 代垃圾回收后会执行 2 代垃圾回收。需要说明的是,如果执行一次 2 代垃圾回收,那么比它年轻的代都要执行垃圾回收。如果想修改这几个门限值,可以通过 gc 模块的 set_threshold 函数来做到。

最后的话

学习一门编程语言,一定要弄明白它是如何管理内存的,这不仅是如何应付面试的问题,更是如何更好的使用编程语言的基础。内存管理的一些算法设计,也有助于我们应对一些复杂的系统设计,学好它很有必要。

学习无止境,学的越多,就越觉得不知道的越多,但是学的越多,就越知道自己的边界,也就越不怕未知,这也是学习的意义。

留言讨论


参考资料

[1]

原文: https://github.com/jackfrued/Python-Interview-Bible/blob/master/Python面试宝典-基础篇-2020.md


浏览 20
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐