Java并发编程实战性能与可伸缩性总结

xiaoxiao2022-07-03 213

对性能的思考要想通过并发来获得更好的性能需要努力做好两件事情：更有效地利用现有处理资源以及在出现新的处理资源时使程序尽可能地利用这些新资源

性能与可伸缩性应用程序的性能可以采用多个指标来衡量例如服务时间延迟时间吞吐率效率可伸缩性以及容量等

可伸缩性指的是：当增加计算资源时(例如CPU 内存存储容量或I/O带宽) 程序的吞吐量或者处理能力能相应地增加

评估各种性能权衡因素避免不成熟的优化首先使程序正确然后再提高运行速度——如果它还运行得不够快

以测试为基准不要猜测

Amdahl定律 Amdahl定律描述的是：在增加计算资源的情况下程序在理论上能够实现最高加速比这个值取决于程序中可并行组件与串行组件所占的比重

对任务队列的串行访问

public class WorkerThread extends Thread { private final BlockingQueue<Runnable> queue; public WorkerThread(BlockingQueue<Runnable> queue) { this.queue = queue; } public void run() { while (true) { try { Runnable task = queue.take(); task.run(); } catch (InterruptedException e) { break; /* Allow thread to exit */ } } } }

在所有并发程序中都包含一些串行部分如果你认为在你的程序中不存在串行部分那么可以再仔细检查一遍

示例：在各种框架中隐藏的串行部分要想知道串行部分是如何隐藏在应用程序的架构中可以比较当增加线程时吞吐量的变化并根据观察到的可伸缩性变化来推断串行部分中的差异

Amdahl定律的应用如果能准确估计出执行过程中串行部分所占的比例那么Amdahl定律就能量化当有更多计算资源可用时的加速比虽然要直接测量串行部分的比例非常困难但即使在不进行测试的情况下Amdahl定律仍然是有用的

线程引入的开销单线程程序既不存在线程调度也不存在同步开销而且不需要使用锁来保证数据结构的一致性在多个线程的调度和协调过程中都需要一定的性能开销：对于为了提升性能而引入的线程来说并行带来的性能提升必须超过并发导致的开销

上下文切换如果主线程是唯一的线程那么它基本上不会被调度出去另一方面如果可运行的线程数大于CPU的数量那么操作系统最终会将某个正在运行的线程调用出来从而使其他线程能够使用CPU 这将导致一次上下文切换在这个过程中将保存当前运行线程的执行上下文并将新调度进来的线程的执行上下文设置为当前上下文

内存同步同步操作的性能开销包括多个方面在synchronized和volatile提供的可见性保证中可能会使用一些特殊指令即内存栅栏(Memory Barrier) 内存栅栏可以刷新缓存使缓存无效刷新硬件的写缓冲以及停止执行管道内存栅栏可能同样会对性能带来间接的影响因为它们将抑制一些编译器优化操作在内存栅栏中大多数操作都是不能被重排序的

没有作用的同步(不要这么做)

synchronized (new Object()) { ...... }

可通过锁消除优化去掉的锁获取操作

@Immutable public final class ThreeStooges { private final Set<String> stooges = new HashSet<String>(); public ThreeStooges() { stooges.add("Moe"); stooges.add("Larry"); stooges.add("Curly"); } public boolean isStooge(String name) { return stooges.contains(name); } public String getStoogeNames() { List<String> stooges = new Vector<String>(); stooges.add("Moe"); stooges.add("Larry"); stooges.add("Curly"); return stooges.toString(); } }

不要过度担心非竞争同步带来的开销这个基本的机制已经非常快了并且JVM还能进行额外的优化以进一步降低或消除开销因此我们应该将优化重点放在那些发生锁竞争的地方

阻塞非竞争的同步可以完全在JVM中进行处理而竞争的同步可能需要操作系统的介入从而增加开销当在锁上发生竞争时竞争失败的线程肯定会阻塞 JVM在实现阻塞行为时可以采用自旋等待(Spin-Waiting 指通过循环不断地尝试获取锁直到成功) 或者通过操作系统挂起被阻塞的线程这两种方式的效率高低要取决于上下文切换的开销以及在成功获取锁之前需要等待的时间如果等待时间较短则适合采用自旋等待方式而如果等待时间较长则适合采用线程挂起方式有些JVM将根据对历史等待时间的分析数据在这两者之间进行选择但是大多数JVM在等待锁时都只是将线程挂起

减少锁的竞争串行操作会降低可伸缩性并且上下文切换也会降低性能在锁上发生竞争时将同时导致这两种问题因此减少锁的竞争能够提高性能和可伸缩性

在并发程序中对可伸缩性的最主要威胁就是独占方式的资源锁

有两个因素将影响在锁上发生竞争的可能性：锁的请求频率以及每次持有该锁的时间

有3种方式可以降低锁的竞争程度：

减少锁的持有时间降低锁的请求频率使用带有协调机制的独占锁这些机制允许更高的并发性

缩小锁的范围(快进快出) 降低发生竞争可能性的一种有效方式就是尽可能缩短锁的持有时间

将一个锁不必要地持有过长时间

@ThreadSafe public class AttributeStore { @GuardedBy("this") private final Map<String, String> attributes = new HashMap<String, String>(); public synchronized boolean userLocationMatches(String name, String regexp) { String key = "users." + name + ".location"; String location = attributes.get(key); if (location == null) return false; else return Pattern.matches(regexp, location); } }

减少锁的持有时间

@ThreadSafe public class BetterAttributeStore { @GuardedBy("this") private final Map<String, String> attributes = new HashMap<String, String>(); public boolean userLocationMatches(String name, String regexp) { String key = "users." + name + ".location"; String location; synchronized (this) { location = attributes.get(key); } if (location == null) return false; else return Pattern.matches(regexp, location); } }

通过缩小userLocationMatches方法中锁的作用范围能极大地减少在持有锁时需要执行的指令数量根据Amdahl定律这样消除了限制可伸缩性的一个因素因为串行代码的总量减少了

减小锁的粒度另一种减小锁的持有时间的方式是降低线程请求锁的频率(从而减小发生竞争的可能性) 这可以通过锁分解和锁分段等技术来实现在这些技术中将采用多个相互独立的锁来保护独立的状态变量从而改变这些变量在之前由单个锁来保护的情况这些技术能减小锁操作的粒度并能实现更高的可伸缩性然而使用的锁越多那么发生死锁的风险也就越高

对锁进行分解

@ThreadSafe public class ServerStatusBeforeSplit { @GuardedBy("this") public final Set<String> users; @GuardedBy("this") public final Set<String> queries; public ServerStatusBeforeSplit() { users = new HashSet<String>(); queries = new HashSet<String>(); } public synchronized void addUser(String u) { users.add(u); } public synchronized void addQuery(String q) { queries.add(q); } public synchronized void removeUser(String u) { users.remove(u); } public synchronized void removeQuery(String q) { queries.remove(q); } }

将ServerStatus重新改写为使用锁分解技术

@ThreadSafe public class ServerStatusAfterSplit { @GuardedBy("users") public final Set<String> users; @GuardedBy("queries") public final Set<String> queries; public ServerStatusAfterSplit() { users = new HashSet<String>(); queries = new HashSet<String>(); } public void addUser(String u) { synchronized (users) { users.add(u); } } public void addQuery(String q) { synchronized (queries) { queries.add(q); } } public void removeUser(String u) { synchronized (users) { users.remove(u); } } public void removeQuery(String q) { synchronized (users) { queries.remove(q); } } }

如果在锁上存在适中而不是激烈的竞争时通过将一个锁分解为两个锁能最大限度地提升性能如果对竞争并不激烈的锁进行分解那么在性能和吞吐量等方面带来的提升将非常有限但是也会提高性能随着竞争提高而下降的拐点值对竞争适中的锁进行分解时实际上是把这些锁转变为非竞争的锁从而有效地提高性能和可伸缩性

锁分段在某些情况下可以将锁分解技术进一步扩展为对一组独立对象上的锁进行分解这种情况被称为锁分段

锁分段的一个劣势在于：与采用单个锁来实现独占访问相比要获取多个锁来实现独占访问将更加困难并且开销更高

在基于散列的Map中使用锁分段技术

@ThreadSafe public class StripedMap { // Synchronization policy: buckets[n] guarded by locks[n%N_LOCKS] private static final int N_LOCKS = 16; private final Node[] buckets; private final Object[] locks; private static class Node { Node next; Object key; Object value; } public StripedMap(int numBuckets) { buckets = new Node[numBuckets]; locks = new Object[N_LOCKS]; for (int i = 0; i < N_LOCKS; i++) locks[i] = new Object(); } private final int hash(Object key) { return Math.abs(key.hashCode() % buckets.length); } public Object get(Object key) { int hash = hash(key); synchronized (locks[hash % N_LOCKS]) { for (Node m = buckets[hash]; m != null; m = m.next) if (m.key.equals(key)) return m.value; } return null; } public void clear() { for (int i = 0; i < buckets.length; i++) { synchronized (locks[i % N_LOCKS]) { buckets[i] = null; } } } }

避免热点域锁分解和锁分段技术都能提高可伸缩性因为它们都能使用不同的线程在不同的数据(或者同一个数据的不同部分)上操作而不会相互干扰如果程序采用锁分段技术那么一定要表现出在锁上的竞争频率高于在锁保护的数据上发生竞争的频率如果一个锁保护两个独立变量X和Y 并且线程A想要访问X 而线程B想要访问Y(这类似于在ServerStatus中一个线程调用addUser 而另一个线程调用addQuery) 那么这两个线程不会在任何数据上发生竞争即使它们会在同一个锁上发生竞争当每个操作都请求多个变量时锁的粒度将很难降低这是在性能与可伸缩性之间相互制衡的另一个方面一些常见的优化措施例如将一些反复计算的结果缓存起来都会引入一些热点域(Hot Field) 而这些热点域往往会限制可伸缩性

一些替代独占锁的方法第三种降低竞争锁的影响的技术就是放弃使用独占锁从而有助于使用一种友好并发的方式来管理共享状态例如使用并发容器读-写锁不可变对象以及原子变量

监测CPU的利用率如果CPU没有得到充分利用那么需要找出其中的原因通常有以下几种原因：

负载不充足I/O密集外部限制锁竞争

向对象池说不通常对象分配操作的开销比同步的开销更低

示例：比较Map的性能在单线程环境下 ConcurrentHashMap的性能比同步的HashMap的性能略好一些但在并发环境中则要好得多在ConcurrentHashMap的实现中假设大多数常用的操作都是获取某个已经存在的值因此它对各种get操作进行了优化从而提供最高的性能和并发性在同步Map的实现中可伸缩性的最主要阻碍在于整个Map中只有一个锁因此每次只有一个线程能够访问这个Map 不同的是 ConcurrentHashMap对于大多数读操作并不会加锁并且在写入操作以及其他一些需要锁的读操作中使用了锁分段技术因此多个线程能并发地访问这个Map而不会发生阻塞

减少上下文切换的开销在许多任务中都包含一些可能被阻塞的操作当任务在运行和阻塞这两个状态之间转换时就相当于一次上下文切换

小结由于使用线程常常是为了充分利用多个处理器的计算能力因此在并发程序性能的讨论中通常更多地将侧重点放在吞吐量和可伸缩性上而不是服务时间 Amdahl定律告诉我们程序的可伸缩性取决于在所有代码中必须被串行执行的代码比例因为Java程序中串行操作的主要来源是独占方式的资源锁因此通常可以通过以下方式来提升可伸缩性：减少锁的持有时间降低锁的粒度以及采用非独占的锁或非阻塞锁来代替独占锁

最新回复(0)

Java并发编程实战 性能与可伸缩性总结

Java并发编程实战性能与可伸缩性总结