「每日分享」Java并发计数器探秘(java中的并发是什么意思)
cac55 2024-10-20 04:21 96 浏览 0 评论
您的关注、点赞、转发是对我们最大的支持
原创: kiritomoe
前言
一提到线程安全的并发计数器,AtomicLong 必然是第一个被联想到的工具。Atomic* 一系列的原子类以及它们背后的 CAS 无锁算法,常常是高性能,高并发的代名词。本文将会阐释,在并发场景下,使用 AtomicLong 来充当并发计数器将会是一个糟糕的设计,实际上存在不少 AtomicLong 之外的计数器方案。近期我研究了一些 Jdk1.8 以及 JCTools 的优化方案,并将它们的对比与实现细节整理于此。
相关面试题:
单机场景下,有比 AtomicLong 更高效的并发计数器方案吗?
阅读本文前
本文相关的基准测试代码均可在博主的 github 中找到,测试方式全部采用 JMH,这篇文章可以帮助你入门 JMH。
AtomicLong 的前世今生
在 Java 中,Atomic* 是高效的,这得益于 sun.misc.Unsafe 提供的一系列底层 API,使得 Java 这样的高级语言能够直接和硬件层面的 CPU 指令打交道。并且在 Jdk1.7 中,这样的底层指令可以配合 CAS 操作,达到 Lock-Free。
在 Jdk1.7 中,AtomicLong 的关键代码如下:
public final long getAndIncrement() { while (true) { long current = get(); long next = current + 1; if (compareAndSet(current, next)) return current; } } public final boolean compareAndSet(long expect, long update) { return unsafe.compareAndSwapLong(this, valueOffset, expect, update); }
- get() 方法 volatile 读当前 long 值
- 自增
- 自旋判断新值与当前值
- 自旋成功,返回;否则返回 1
我们特别留意到 Jdk1.7 中 unsafe 使用的方法是 compareAndSwapLong,它与 x86 CPU 上的 LOCK CMPXCHG 指令对应,并且在应用层使用 while(true) 完成自旋,这个细节在 Jdk1.8 中发生了变化。
在 Jdk1.8 中,AtomicLong 的关键代码如下:
public final long getAndIncrement() { return unsafe.getAndAddLong(this, valueOffset, 1L); }
Jdk1.7 的 CAS 操作已经不复存在了,转而使用了 getAndAddLong 方法,它与 x86 CPU 上的 LOCK XADD 指令对应,以原子方式返回当前值并递增(fetch and add)。
当问及 Atomic* 高效的原因,回答 CAS 是不够全面且不够严谨的,Jdk1.7 的 unsafe.compareAndSwapLong 以及 Jdk1.8 的 unsafe.getAndAddLong 才是关键,且 Jdk1.8 中不存在 CAS。
Jdk1.8 AtomicLong 相比 Jdk1.7 AtomicLong 的表现是要优秀的,这点我们将在后续的测评中见证。
AtomicLong 真的高效吗?
无论在 Jdk1.7 还是 Jdk1.8 中,Atomic* 的开销都是很大的,主要体现在:
- 高并发下,CAS 操作可能会频繁失败,真正更新成功的线程占少数。(Jdk1.7 独有的问题)
- 我之前的文章中介绍过“伪共享” (false sharing) 问题,但在 CAS 中,问题则表现的更为直接,这是“真共享”,与”伪共享“存在相同的问题:缓存行失效,缓存一致性开销变大。
- 底层指令的开销不见得很低,无论是 LOCK XADD 还是 LOCK CMPXCHG,想深究的朋友可以参考 instruction_tables ,(这一点可能有点钻牛角尖,但不失为一个角度去分析高并发下可行的优化)
- Atomic* 所做的,比我们的诉求可能更大,有时候我们只需要计数器具备线程安全地递增这样的特性,但 Atomic* 的相关操作每一次都伴随着值的返回。他是个带返回值的方法,而不是 void 方法,而多做了活大概率意味着额外的开销。
抛开上述导致 AtomicLong 慢的原因,AtomicLong 仍然具备优势:
- 上述的第 4 点换一个角度也是 AtomicLong 的优点,相比下面要介绍的其他计数器方案,AtomicLong 能够保证每次操作都精确的返回真实的递增值。你可以借助 AtomicLong 来做并发场景下的递增序列号方案,注意,本文主要讨论的是计数器方案,而不是序列号方案。
- 实现简单,回到那句话:“简单的架构通常性能不高,高性能的架构通常复杂度很高”,AtomicLong 属于性能相对较高,但实现极其简单的那种方案,因为大部分的复杂性,由 JMM 和 JNI 方法屏蔽了。相比下面要介绍的其他计数器实现,AtomicLong 真的太“简易”了。
看一组 AtomicLong 在不同并发量下的性能表现。
横向对比,写的性能相比读的性能要差很多,在 20 个线程下写性能比读性能差距了 4~5 倍。
纵向对比,主要关注并发写,线程竞争激烈的情况下,单次自增耗时从 22 ns 增长为了 488 ns,有明显的性能下降。
实际场景中,我们需要统计系统的 qps、接口调用次数,都需要使用到计数的功能,写才是关键,并不是每时每刻都需要关注自增后的返回值,而 AtomicLong 恰恰在核心的写性能上有所欠缺。由此引出其他计数器方案。
认识 LongAdder
Doug Lea 在 JDK1.8 中找到了一个上述问题的解决方案,他实现了一个 LongAdder 类。
@since 1.8 @author Doug Lea public class LongAdder extends Striped64 implements Serializable {}
LongAdder 的 API 如下
LongAdder
你应当发现,LongAdder 和 AtomicLong 明显的区别在于,increment 是一个 void 方法。直接来看看 LongAdder 的性能表现如何。(LA = LongAdder, AL = AtomicLong, 单位 ns/op)
我们从中可以发现一些有意思的现象,网上不少很多文章没有从读写上对比二者,直接宣称 LongAdder 性能优于 AtomicLong,其实不太严谨。在单线程下,并发问题没有暴露,两者没有体现出差距;随着并发量加大,LongAdder 的 increment 操作更加优秀,而 AtomicLong 的 get 操作则更加优秀。鉴于在计数器场景下的特点—写多读少,所以写性能更高的 LongAdder 更加适合。
LongAdder 写速度快的背后
网上分析 LongAdder 源码的文章并不少,我不打算详细分析源码,而是挑选了一些必要的细节以及多数文章没有提及但我认为值得分析的内容。
- Cell 设计减少并发修改时的冲突
LongAdder
在 LongAdder 的父类 Striped64 中存在一个 volatile Cell[] cells; 数组,其长度是 2 的幂次方,每个 Cell 都填充了一个 @Contended 的 Long 字段,为了避免伪共享问题。
@sun.misc.Contended static final class Cell { volatile long value; Cell(long x) { value = x; } // ... ignore }
LongAdder 通过一系列算法,将计数结果分散在了多个 Cell 中,Cell 会随着并发量升高时发生扩容,最坏情况下 Cell == CPU core 的数量。Cell 也是 LongAdder 高效的关键,它将计数的总值分散在了各个 Cell 中,例如 5 = 3 + 2,下一刻,某个线程完成了 3 + (2 + 1) = 6 的操作,而不是在 5 的基础上完成直接相加操作。通过 LongAdder 的 sum() 方法可以直观的感受到这一点(LongAdder 不存在 get 方法)
public long sum() { Cell[] as = cells; Cell a; long sum = base; if (as != null) { for (int i = 0; i < as.length; ++i) { if ((a = as[i]) != null) sum += a.value; } } return sum; }
这种惰性求值的思想,在 ConcurrentHashMap 中的 size() 中也存在,毕竟他们的作者都是 Doug Lea。
2.并发场景下高效获取随机数
LongAdder 内部算法需要获取随机数,而 Random 类在并发场景下也是可以优化的。
ThreadLocalRandom random = ThreadLocalRandom.current(); random.nextInt(5);
使用 ThreadLocalRandom 替代 Random,同样出现在了 LongAdder 的代码中。
3.longAccumulate
longAccumulate 方法是 LongAdder 的核心方法,内部存在大量的分支判断。首先和 Jdk1.7 的 AtomicLong 一样,它使用的是 UNSAFE.compareAndSwapLong 来完成自旋,不同之处在于,其在初次 cas 方式失败的情况下(说明多个线程同时想更新这个值),尝试将这个值分隔成多个 Cell,让这些竞争的线程只负责更新自己所属的 Cell,这样将竞争压力分散开。
LongAdder 的前世今生
其实在 Jdk1.7 时代,LongAdder 还未诞生时,就有一些人想着自己去实现一个高性能的计数器了,比如一款 Java 性能监控框架 dropwizard/metrics 就做了这样事,在早期版本中,其优化手段并没有 Jdk1.8 的 LongAdder 丰富,而在 metrics 的最新版本中,其已经使用 Jdk1.8 的 LongAdder 替换掉了自己的轮子。在最后的测评中,我们将 metrics 版本的 LongAdder 也作为一个参考对象。
JCTools 中的 ConcurrentAutoTable
并非只有 LongAdder 考虑到了并发场景下计数器的优化,大名鼎鼎的并发容器框架 JCTool 中也提供了和今天主题相关的实现,虽然其名称和 Counter 看似没有关系,但通过其 Java 文档和 API ,可以发现其设计意图考虑到了计数器的场景。
An auto-resizing table of longs, supporting low-contention CAS operations.Updates are done with CAS’s to no particular table element.The intent is to support highly scalable counters, r/w locks, and other structures where the updates are associative, loss-free (no-brainer), and otherwise happen at such a high volume that the cache contention for CAS’ing a single word is unacceptable.
ConcurrentAutoTable
在最后的测评中,我们将 JCTools 的 ConcurrentAutoTable 也作为一个参考对象。
最终测评
Jdk1.7 的 AtomicLong,Jdk1.8 的 AtomicLong,Jdk 1.8 的 LongAdder,Metrics 的 LongAdder,JCTools 的 ConcurrentAutoTable,我对这五种类型的计数器使用 JMH 进行基准测试。
public interface Counter { void inc(); long get(); }
将 5 个类都适配成 Counter 接口的实现类,采用 @State(Scope.Group),@Group 将各组测试用例进行隔离,尽可能地排除了互相之间的干扰,由于计数器场景的特性,我安排了 20 个线程进行并发写,1 个线程与之前的写线程共存,进行并发读。Mode=avgt 代表测试的是方法的耗时,越低代表性能越高。
Benchmark (counterType) Mode Cnt Score Error Units CounterBenchmark.rw Atomic7 avgt 3 1049.906 ± 2146.838 ns/op CounterBenchmark.rw:get Atomic7 avgt 3 143.352 ± 125.388 ns/op CounterBenchmark.rw:inc Atomic7 avgt 3 1095.234 ± 2247.913 ns/op CounterBenchmark.rw Atomic8 avgt 3 441.837 ± 364.270 ns/op CounterBenchmark.rw:get Atomic8 avgt 3 149.817 ± 66.134 ns/op CounterBenchmark.rw:inc Atomic8 avgt 3 456.438 ± 384.646 ns/op CounterBenchmark.rw ConcurrentAutoTable avgt 3 144.490 ± 577.390 ns/op CounterBenchmark.rw:get ConcurrentAutoTable avgt 3 1243.494 ± 14313.764 ns/op CounterBenchmark.rw:inc ConcurrentAutoTable avgt 3 89.540 ± 166.375 ns/op CounterBenchmark.rw LongAdderMetrics avgt 3 105.736 ± 114.330 ns/op CounterBenchmark.rw:get LongAdderMetrics avgt 3 313.087 ± 307.381 ns/op CounterBenchmark.rw:inc LongAdderMetrics avgt 3 95.369 ± 132.379 ns/op CounterBenchmark.rw LongAdder8 avgt 3 98.338 ± 80.112 ns/op CounterBenchmark.rw:get LongAdder8 avgt 3 274.169 ± 113.247 ns/op CounterBenchmark.rw:inc LongAdder8 avgt 3 89.547 ± 78.720 ns/op
如果我们只关注 inc 即写性能,可以发现 jdk1.8 的 LongAdder 表现的最为优秀,ConcurrentAutoTable 以及两个版本的 LongAdder 在一个数量级之上;1.8 的 AtomicLong 相比 1.7 的 AtomicLong 优秀很多,可以得出这样的结论,1.7 的 CAS+LOCK CMPXCHG 方案的确不如 1.8 的 LOCK XADD 来的优秀,但如果与特地优化过的其他计数器方案来进行比较,便相形见绌了。
如果关注 get 性能,虽然这意义不大,但可以见得,AtomicLong 的 get 性能在高并发下表现依旧优秀,而 LongAdder 组合求值的特性,导致其性能必然存在一定下降,位列第二梯队,而 ConcurrentAutoTable 的并发读性能最差。
关注整体性能,CounterBenchmark.rw 是对一组场景的整合打分,可以发现,在我们模拟的高并发计数器场景下,1.8 的 LongAdder 获得整体最低的延迟 98 ns,相比性能最差的 Jdk1.7 AtomicLong 实现,高了整整 10 倍有余,并且,随着并发度提升,这个数值还会增大。
AtomicLong 可以被废弃吗?
既然 LongAdder 的性能高出 AtomicLong 这么多,我们还有理由使用 AtomicLong 吗?
本文重点讨论的角度还是比较局限的:单机场景下并发计数器的高效实现。AtomicLong 依然在很多场景下有其存在的价值,例如一个内存中的序列号生成器,AtomicLong 可以满足每次递增之后都精准的返回其递增值,而 LongAdder 并不具备这样的特性。LongAdder 为了性能而丧失了一部分功能,这体现了计算机的哲学,无处不在的 trade off。
高性能计数器总结
- AtomicLong :并发场景下读性能优秀,写性能急剧下降,不适合作为高性能的计数器方案。内存需求量少。
- LongAdder :并发场景下写性能优秀,读性能由于组合求值的原因,不如直接读值的方案,但由于计数器场景写多读少的缘故,整体性能在几个方案中最优,是高性能计数器的首选方案。由于 Cells 数组以及缓存行填充的缘故,占用内存较大。
- ConcurrentAutoTable :拥有和 LongAdder 相近的写入性能,读性能则更加不如 LongAdder。它的使用需要引入 JCTools 依赖,相比 Jdk 自带的 LongAdder 并没有优势。但额外说明一点,ConcurrentAutoTable 的使用并非局限于计数器场景,其仍然存在很大的价值。
在前面提到的性能监控框架 Metrics,以及著名的熔断框架 Hystrix 中,都存在 LongAdder 的使用场景,有兴趣的朋友快去实践一下 LongAdder 吧。
本文所有的 JMH 测试代码,均可在我的 github 中获得:https://github.com/lexburner/JMH-samples.git
相关推荐
- 正点原子开拓者FPGA开发板资料连载第四十章 SD卡图片显示实验
-
1)实验平台:正点原子开拓者FPGA开发板2)摘自《开拓者FPGA开发指南》关注官方微信号公众号,获取更多资料:正点原子3)全套实验源码+手册+视频下载地址:http://www.openedv.c...
- 东芝存储改名为铠侠了,铠侠microSD卡128GB全网首测
-
作为一个数码爱好者,平时总爱把玩各种科技数码产品,最近又迷上了口袋云台相机,大疆OsmoPocket、飞宇口袋相机、SnoppaVmate口袋相机什么的,不过这类产品由于设计的机身体积很小(毕竟为...
- SD存储卡卡面上奇奇怪怪的图标,你知道几个?
-
现在对高像素照片、连拍、4K甚至8K的需求越来越多,对存储卡的传输速度、容量等,要求也越来越多了。但是,看到SD存储卡卡面上奇奇怪怪的图标,让人非常迷惑。这篇文章让你简单认识这些图标和奇奇怪怪的数字。...
- 拍摄4K视频上选!铠侠 EXCERIA PLUS microSD卡
-
大家好,我是波导终结者。今天跟大家分享的是铠侠的EXCERIAPLUS极至光速microSDXCUHS-1存储卡,名字有点长,但是不用担心,我会帮大家梳理好存储卡的选购建议。有不少刚入门的朋友...
- 高速稳定,一卡多用:铠侠极至光速microSD存储卡评测
-
Hello,大家好,我是小胖子。半个月前收到了KIOXIA铠侠寄来的一张256GB的TF卡,用了大半个月,让我们看看这款产品表现如何吧。其实很多人并不太了解铠侠,问我铠侠是什么品牌,好不好。其实,东芝...
- 读速205MB/s、V30规格,雷克沙SILVER系列存储卡再添新成员
-
IT之家6月19日消息,雷克沙今日推出3款SILVER系列SD/microSD存储卡新品,支持4K60fps录像。据介绍,该系列存储卡均符合V30标准,其中micr...
- 相机、无人机拍视频,选择SD存储卡有什么需要知道的?
-
本文章不涉及产品推荐导购行为,致力于给到小白带来基础知识。相机一般使用SD卡,无人机一般使用microSD卡(也叫TF卡),使用的标准和图标标识是一样的。相机、无人机拍视频,选择SD存储卡有什么需要知...
- PNY推出适用Switch 2的microSD Express卡,读取速度高达890MB/s
-
任天堂Switch2开始预订,其比前代产品变得更加昂贵,各种配件的价格都高于预期,这也包括转向microSDExpress存储。此时,PNY推出了新款microSDExpress闪存卡。新款mi...
- SD卡迎来25周年:全球售出120亿张,容量翻50万倍
-
IT之家5月21日消息,科技媒体betanews今天(5月21日)发布博文,报道称SD卡迎来了25周年的生日。自2000年首款SD存储卡问世以来,已走过25个年头...
- 微单相机买一款什么样的SD卡才够用?写入速度更为关键
-
最近,评价君朋友发现自己的卡拍摄视频时候总断流,于是感觉写入速度应该是不够的,打算换卡,评价君正好跟他说道说道。目前的SD存储卡,很多只标注读取速度,比如95MB/s,80MB/s等等,而没有写写入速...
- 金士顿Canvas Go!Plus 系列存储卡评测
-
前言2020年,金士顿推出了CanvasGo!Plus系列存储卡,凭借其优秀的读写速度和稳定性获得了广大用户的认可。时隔5年,金士顿推出了其全新升级产品:SDG4/SDCG4,可选容量覆盖64GB...
- TF卡速度等级|MK米客方德(tf卡速度等级图)
-
TF卡(TransFlash卡,又称MicroSD卡)是一种常见的便携式存储媒体,广泛用于智能手机、相机、平板电脑等设备中。TF卡的性能通常由速度等级来衡量,这些等级反映了TF卡的数据传输速度。拓优星...
- 关于SD卡,看这张表就够了(sd卡的作用)
-
这里是溢图科技(原“相机笔记”)。这两天有不少存储产品促销,随之而来的就是关于SD卡的一些提问。文章以前已经写过很多了,这里主要给大家看一张表格:上面就是SD卡协会官方制作的“族谱”,明确给出了不同版...
- 轻量化储存的首选——凯侠极致光速256G microSD存储卡实测
-
对于摄影师而言,我们经常会接触到相关存储设备,像照片拍摄中给相机安装的SD卡,视频录制中外录高规格画面的SSD等,都属于专业的存储介质,被应用于商业拍摄、电影级别拍摄之中。而针对生活中我们日常用于拍摄...
- 首发1569元,读取速度可达250MB/s,闪迪推出最新2TB至尊超极速存储卡
-
近日,闪迪(SanDisk)正式发布了其最新的2TB至尊超极速microSDXCUHS-I存储卡。据悉,这款存储卡的读取速度可达250MB/s,写入速度则达到150MB/s。这意味着用户在处理高分辨...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- 正点原子开拓者FPGA开发板资料连载第四十章 SD卡图片显示实验
- 东芝存储改名为铠侠了,铠侠microSD卡128GB全网首测
- SD存储卡卡面上奇奇怪怪的图标,你知道几个?
- 拍摄4K视频上选!铠侠 EXCERIA PLUS microSD卡
- 高速稳定,一卡多用:铠侠极至光速microSD存储卡评测
- 读速205MB/s、V30规格,雷克沙SILVER系列存储卡再添新成员
- 相机、无人机拍视频,选择SD存储卡有什么需要知道的?
- PNY推出适用Switch 2的microSD Express卡,读取速度高达890MB/s
- SD卡迎来25周年:全球售出120亿张,容量翻50万倍
- 微单相机买一款什么样的SD卡才够用?写入速度更为关键
- 标签列表
-
- 如何绘制折线图 (52)
- javaabstract (48)
- 新浪微博头像 (53)
- grub4dos (66)
- s扫描器 (51)
- httpfile dll (48)
- ps实例教程 (55)
- taskmgr (51)
- s spline (61)
- vnc远程控制 (47)
- 数据丢失 (47)
- wbem (57)
- flac文件 (72)
- 网页制作基础教程 (53)
- 镜像文件刻录 (61)
- ug5 0软件免费下载 (78)
- debian下载 (53)
- ubuntu10 04 (60)
- web qq登录 (59)
- 笔记本变成无线路由 (52)
- flash player 11 4 (50)
- 右键菜单清理 (78)
- cuteftp 注册码 (57)
- ospf协议 (53)
- ms17 010 下载 (60)