缓存是个好东西,一个好的缓存算法[4]可以让我们系统的吞吐能力轻松上升一个到两个数量级。当只有唯一的操作缓存的接口时,一切都很简单;但是,一旦有两个或以上的操作接口时,事情就会变得复杂,其核心的问题就是缓存会被失效,这个时候该怎么处理是个值得探究的问题,而我尝试以我的了解,以 Python 代码为示例,做一下小结。

这是一张展示现代计算机各个不同存储模块的性能对比图,摘自:《深入理解计算机系统》

缓存会失效,大多数情况是因为数据被修改了,还有少数情况是被删除了,所以,我们先关注一下修改的问题。对于修改被缓存数据的策略比较常见的有三种:

虽然缓存不是一个依赖于语言的东西,但是为了更好得解释以及让我的逻辑更清晰,这里我就使用简单的Python 代码作为示例,希望能够以更容易理解的方式,来模拟不同的这些缓存策略,从而阐述我的理解。

缓存是存储数据的硬件或软件组件,因此可以更快地响应对数据的请求。当然,这些数据肯定要存储在一个自身响应速度快于实际存储的地方(速度对比见上图)。例如,如果您在内存中存储值,则访问数据通常会比访问数据库更快,因为那可是从磁盘读取数据啊。

下面,我要开始我的表演了,就写两个 Python代码 来表示后台存储和缓存先吧:

这里有两个类

下面就以这个为框架,一一得介绍我的理解。

直写:write-through

直写的意思就是在数据更新时,同时写入缓存Cache和后端存储。我们用代码来描述一下就是:

这里的可以看到 Line 12,直写操作表示 cache 和 真实数据存储都要同时更新才能成功,这种方法很不错,你更新成功之后,可以保证缓存和真实的数据保持一致,但是,问题也很明显,第一个就是,我们更新的速度会很慢,还有万一更新过程中出错了呢?具体对比我们后续说,下面再看看其他的。

回写:write-back

这种方式就简单多了,具体操作就是只更新缓存,只有当缓存被替换时才进行持久化,代码示例是这样的:

这种方式我们很明显就可以看出来,速度很快,因为根本不涉及到后端的数据存储操作,但是,缺点也很明显啊,我们得关注缓存是不是被替换了,而且还有万一缓存就崩了呢?

绕写:write-around

既然只写缓存风险那么大,那我就直接写后端数据,这样让缓存自动失效之后,再刷新一遍,代码这么看:

这种方式的话优点是可以保证最终的持久数据是正确的,但是,因为我们没有让缓存失效,所以只能等缓存主动失效之后再读取持久数据,同时,更新速度也不快。

对比

基本方式我们上面都介绍过了,但是,只是简单得说说各种方式的优缺点,并没有揉碎了好好说,所以,下面就以一张 Excel 表进行介绍,看看具体的对比:

这里可以看出,各种套路都有自己的优缺点,我们可以根据自己项目的需要进行选择,但是,通常来说,我们引入缓存是因为读多写少,所以可能绕写(Write-Around)用的更多,而且常常配合删除缓存的方法,从而让缓存更新。但是,我们需要清晰得知道删除缓存会带来什么问题,我们是否已经注意到这个问题并且避免了或者不在乎这些问题,具体的讨论可以参考[8]

本文的代码都托管在 Github:Git Code

Reference

  1. Understanding write-through, write-around and write-back caching (with Python)
  2. 缓存一致性(Cache Coherency)入门
  3. Cache coherency primer
  4. 常见缓存算法和缓存策略
  5. 缓存相关——缓存穿透、缓存并发、缓存失效、缓存预热、缓存雪崩、缓存算法
  6. Write-through and Write-behind Caching with the CacheWriter
  7. cache algorithm
  8. 缓存更新的套路