Python weakref 缓存如何避免内存泄漏？-杰瑞科技汇

什么是 `weakref`？为什么需要它？

在 Python 中，正常的对象赋值（如 a = SomeObject()）会创建一个强引用，只要存在任何强引用，这个对象就不会被垃圾回收器销毁，即使它已经不再被使用了，这在某些情况下会导致内存泄漏，尤其是在对象之间形成了循环引用（A 引用 B，B 又引用 A）时,它们的引用计数永远不会降为零。

（图片来源网络，侵删）

weakref 模块提供了一种创建弱引用的方式，弱引用不会阻止对象被垃圾回收，当你需要一个对象的引用，但又不想影响它的生命周期时,弱引用就派上用场了。

一个简单的比喻：

强引用：你把一本书放在书桌上，只要你还在用它,书就不会被扔掉。
弱引用：你只是记下了这本书的编号（比如图书馆索书号），并没有把书拿走，如果这本书没有被其他人借走（没有其他强引用），图书馆管理员（垃圾回收器）随时可能把它收走，当你需要时，你可以根据索书号去查找，但如果书已经被收走了,查找就会失败。

`weakref` 的核心组件

weakref 模块提供了几个主要的类和函数：

`weakref.ref(object)`

这是最基本的弱引用对象，它是一个可调用的对象，调用它会返回被引用的对象（如果它还存在的话），否则返回 None。

import weakref
class MyClass:
    def __del__(self):
        print(f"My instance {id(self)} is being deleted.")
obj = MyClass()
print(f"Original object: {obj}")  # <__main__.MyClass object at 0x...>
# 创建一个弱引用
weak_ref = weakref.ref(obj)
print(f"Weak reference result: {weak_ref()}")  # 调用 weak_ref，返回原始对象 <__main__.MyClass object at 0x...>
# 删除强引用
del obj
# 再次调用弱引用
print(f"Weak reference after del: {weak_ref()}") # None

输出：

Original object: <__main__.MyClass object at 0x...>
Weak reference result: <__main__.MyClass object at 0x...>
My instance 123456789 is being deleted.
Weak reference after del: None

可以看到，当我们删除了 obj 这个强引用后，MyClass 的实例被垃圾回收了，此时再通过 weak_ref() 获取对象，得到的就是 None。

`weakref.proxy(object)`

proxy 提供了一个代理对象，你可以像操作原始对象一样操作它（proxy.attr 或 proxy.method()），如果原始对象被回收，再通过 proxy 访问会抛出 ReferenceError 异常。

import weakref
class MyClass:
    def do_something(self):
        print("Doing something!")
obj = MyClass()
proxy_obj = weakref.proxy(obj)
print(f"Proxy object: {proxy_obj}")
proxy_obj.do_something() # 正常工作
del obj
try:
    proxy_obj.do_something()
except ReferenceError as e:
    print(f"Error: {e}")

输出：

Proxy object: <__main__.MyClass object at 0x...>
Doing something!
Error: weakly-referenced object no longer exists

`weakref.WeakValueDictionary` 和 `weakref.WeakKeyDictionary`

这两个是 weakref 模块中最实用的类,也是实现缓存的关键。

WeakValueDictionary：它的值是弱引用，当值的对象不再被其他地方强引用时,它对应的键值对会从字典中自动被移除。
WeakKeyDictionary：它的键是弱引用，当键的对象不再被其他地方强引用时，它对应的键值对会自动被移除，这对于缓存那些可哈希的对象（作为字典的键）非常有用。

使用 `weakref` 实现缓存

现在我们来看如何利用 WeakValueDictionary 来实现一个缓存，这通常被称为弱引用缓存或弱缓存。

应用场景： 假设你有一个函数，它执行起来非常耗时（比如从数据库或文件中读取数据），你希望将计算结果缓存起来，以便后续调用时可以直接返回，避免重复计算，如果缓存的对象非常庞大，并且数量很多，缓存会占用大量内存,甚至导致程序耗尽内存。

使用 WeakValueDictionary 可以解决这个问题：缓存中的条目不会阻止对象被垃圾回收，当内存紧张时，垃圾回收器会回收那些不再被程序其他部分使用的缓存对象,从而自动释放内存。

示例：一个简单的缓存装饰器

下面是一个使用 WeakValueDictionary 实现的缓存装饰器。

import weakref
import time
class ExpensiveResult:
    """一个模拟昂贵计算结果的类"""
    def __init__(self, data):
        self.data = data
        print(f"  -> Created ExpensiveResult with data: {data}")
    def __repr__(self):
        return f"ExpensiveResult({self.data})"
# 使用 WeakValueDictionary 作为缓存
result_cache = weakref.WeakValueDictionary()
def get_data_cached(key):
    """
    一个模拟从外部获取昂贵数据的函数。
    它会首先检查缓存，如果命中则直接返回，否则执行“昂贵计算”并缓存结果。
    """
    print(f"Getting data for key: '{key}'...")
    # 检查缓存
    cached_result = result_cache.get(key)
    if cached_result is not None:
        print(f"  -> Cache HIT for key '{key}'")
        return cached_result
    # 缓存未命中，执行“昂贵计算”
    print(f"  -> Cache MISS for key '{key}'. Performing expensive calculation...")
    time.sleep(1)  # 模拟耗时操作
    new_result = ExpensiveResult(f"processed_data_for_{key}")
    # 将结果存入缓存
    result_cache[key] = new_result
    print(f"  -> Cached result for key '{key}'")
    return new_result
# --- 使用示例 ---
if __name__ == "__main__":
    # 第一次调用，会执行计算并缓存
    result1 = get_data_cached("user_123")
    print(f"Got: {result1}\n")
    # 第二次调用同一个 key，会从缓存中获取
    result2 = get_data_cached("user_123")
    print(f"Got: {result2}\n")
    print(f"Are result1 and result2 the same object? {result1 is result2}\n")
    # 获取一个不同的 key
    result3 = get_data_cached("user_456")
    print(f"Got: {result3}\n")
    # 打印当前缓存状态
    print("Current cache contents:", list(result_cache.keys()))
    # 删除外部对 result1 和 result3 的强引用
    # 这会导致它们成为弱引用，可以被垃圾回收
    del result1, result3
    # 手动触发垃圾回收（在真实代码中通常不需要）
    import gc
    gc.collect()
    # 再次打印缓存状态
    # 注意 'user_123' 的结果仍然在缓存中，因为 result2 仍然强引用着它
    # 'user_456' 的结果已经被移除，因为外部没有强引用它了
    print("Cache contents after deleting external references:", list(result_cache.keys()))

输出分析：

第一次调用 get_data_cached("user_123")，缓存为空，执行计算并创建 ExpensiveResult 对象,存入缓存。
第二次调用 get_data_cached("user_123")，缓存命中,直接返回缓存的同一个对象。
调用 get_data_cached("user_456"),再次执行计算并缓存。
当我们删除 result1 和 result3 后，"user_123" 对应的 ExpensiveResult 对象仍然被 result2 强引用，所以它留在缓存中，而 "user_456" 对应的对象没有了任何外部强引用，因此它被自动从 WeakValueDictionary 中移除了。

这个缓存的优势：

高效：避免了重复的昂贵计算。
内存友好：当缓存的对象不再被需要时，它们会自动被清理,不会造成内存泄漏。

`weakref` 的限制

不是所有的 Python 对象都可以被弱引用,主要限制包括：

基本类型：int, str, tuple, list, dict, set 等不可变或可变的基本类型不能被弱引用。
- 例外：tuple 可以被弱引用，但只有当它不包含任何不可哈希的元素时（不能包含列表或字典）。
类实例：用户自定义的类实例通常可以被弱引用。
函数、方法、模块、栈帧：这些内置类型不能被弱引用。
文件对象、套接字：这些也不能被弱引用。

如果你尝试对不支持弱引用的对象创建弱引用，会抛出 TypeError。

# 这会报错
num = 100
try:
    weak_ref = weakref.ref(num)
except TypeError as e:
    print(f"Cannot create weakref to int: {e}")
# 这也会报错
my_list = [1, 2, 3]
try:
    weak_ref = weakref.ref(my_list)
except TypeError as e:
    print(f"Cannot create weakref to list: {e}")

与 `functools.lru_cache` 的对比

Python 标准库中的 functools.lru_cache 是一个非常有用的缓存工具，但它是一个强引用缓存。

lru_cache：
- 优点：实现简单，功能强大（支持最大大小限制、淘汰策略等）。
- 缺点：缓存的对象会一直存在，直到被 LRU 策略淘汰或缓存被清空，如果缓存了很大、很多对象,会显著增加内存占用。
WeakValueDictionary 缓存：
- 优点：内存自动管理，当对象不再被使用时自动释放,非常适合缓存那些生命周期不确定或可能被大量创建的对象。
- 缺点：没有内置的淘汰策略（如 LRU），缓存大小取决于垃圾回收的时机,更难预测。

如何选择？

如果你的缓存对象体积不大，或者你希望精确控制缓存的大小和淘汰策略，使用 @lru_cache。
如果你的缓存对象可能非常大，或者数量非常多，并且你希望缓存不会成为内存负担，使用基于 WeakValueDictionary 的弱引用缓存。

特性	`weakref.ref/proxy`	`WeakValueDictionary`	`functools.lru_cache`
核心用途	创建对单个对象的弱引用	创建键值对，其中值为弱引用	创建函数结果的强引用缓存
内存管理	不阻止对象被GC	自动移除无强引用的条目	手动或策略性移除条目
主要优势	灵活性高，用于解耦	自动内存管理，避免内存泄漏	简单易用，有LRU等策略
主要限制	对象类型受限	对象类型受限，无LRU等策略	强引用，可能造成内存压力
典型场景	破坏循环引用，实现观察者模式	缓存大型对象，实现LRU缓存之外的缓存	缓存函数计算结果，优化性能

weakref 是 Python 内存管理工具箱中的一把利剑，理解并正确使用它，可以让你编写出更健壮、更高效的 Python 代码,尤其是在处理复杂对象关系和大规模数据时。

Python weakref 缓存如何避免内存泄漏？

什么是 `weakref`？为什么需要它？

`weakref` 的核心组件

`weakref.ref(object)`

`weakref.proxy(object)`

`weakref.WeakValueDictionary` 和 `weakref.WeakKeyDictionary`

使用 `weakref` 实现缓存

示例：一个简单的缓存装饰器

`weakref` 的限制

与 `functools.lru_cache` 的对比

99ANYc3cd6

WordPress仿站教程如何快速上手？

Eclipse如何打包Java程序成可执行文件？

Python Notebook中文怎么设置？

cad2010安装教程图解

redis java 存储对象

Java Socket编程实例具体怎么实现？

mysql workbench安装教程

Java语言程序设计基础篇第八版课后答案哪里找？

Python dict为何报KeyError？

Java如何调用asmx webservice？

Java memcache client如何正确使用？

hashcode与equals在Java中如何协同工作？

Zend Framework 2 教程，如何快速上手？

Java如何调用PHP的WebService？

python selenium form

苹果Windows系统安装教程视频，步骤是否通用？

Python weakref 缓存如何避免内存泄漏？

什么是 weakref？为什么需要它？

weakref 的核心组件

weakref.ref(object)

weakref.proxy(object)

weakref.WeakValueDictionary 和 weakref.WeakKeyDictionary

使用 weakref 实现缓存

示例：一个简单的缓存装饰器

weakref 的限制

与 functools.lru_cache 的对比

相关推荐

Java Socket编程实例具体怎么实现？

什么是 `weakref`？为什么需要它？

`weakref` 的核心组件

`weakref.ref(object)`

`weakref.proxy(object)`

`weakref.WeakValueDictionary` 和 `weakref.WeakKeyDictionary`

使用 `weakref` 实现缓存

`weakref` 的限制

与 `functools.lru_cache` 的对比