希望在几年内,Java将具有“内联类”功能,该功能可以解决Java当前状态下的许多挑战。 阅读本文并学习如何立即使用Java 8或更高版本,并且仍将受益于即将出现的内联对象数组的一些优点,例如; 没有间接指针,消除了对象标头开销,并改善了数据局部性。
 在本文中,我们将学习如何编写一个名为 
 InlineArray支持将来的许多内联类功能。 我们还将看一下Speedment HyperStream,这是一个使用类似操作方法的现有Java工具。 
背景
自1995年以来,当从完全合理的角度出发时,Java中的Objects数组由一个数组组成,该数组又包含对其他对象的大量引用,这些引用最终分散在堆中。
 现在,这是在Java中将具有两个初始Point对象的数组布置在堆上的方式: 
 Array  +======+  |Header|  +------+     Point 0  |ref 0 |---> +======+  +------+    |Header|      Point +------+    |Header|      Point 1  |ref 1 |---- +------+ ---> +======+  +------+    |x    |     |Header|  | null |    +------+     +------+ |    +------+     +------+  +------+    |y    |     |x    |  | null |    +------+     +------+ |    +------+     +------+  +------+                  |y    |  |...  |                  +------+  +------+  但是,随着时间的流逝,典型的CPU的执行流水线已经发生了巨大的变化,并且计算性能得到了惊人的提高。 另一方面,光速保持恒定,因此,不幸的是,从主存储器加载数据的等待时间保持在相同的数量级内。 计算和检索之间的平衡已偏向于计算。
这些天来访问主内存已成为我们要避免的事情,就像我们希望避免过去从旋转磁盘中加载数据一样。
 显然,当前的Object数组布局具有几个缺点,例如: 
- 双内存访问(由于数组中的间接引用指针)
 - 数据局部性降低(因为数组对象放置在堆中的不同位置)
 -  增加的内存占用量(因为数组中引用的所有对象都是对象,因此拥有附加的
Class和同步信息)。 
内联类
 在Java社区内,现在正在付出很大的努力来引入“内联类”(以前称为“值类”)。 这项工作的最新状态(截至2019年7月)由Brian Goetz i提出。 
 在此视频中,标题为“ Project Valhalla Update(2019版)”。 没有人知道何时在正式的Java版本中提供此功能。 我个人的猜测是2021年以后的某个时候。 
 一旦此功能可用,以下是如何排列嵌入式Point对象的数组: 
 Array  +======+  |Header|  +------+  |x    |  +------+  |y    |  +------+  |x    |  +------+  |y    |  +------+  |...  |  +------+   可以看出,该方案消耗更少的内存(没有Point头),提高了局部性(数据按顺序放置在内存中),并且可以直接访问数据而无需遵循间接引用指针。 另一方面,我们丢失了对象身份的概念,本文稍后将对此进行讨论。 
模拟一些内联类属性
在下面,我们将对内联类的某些属性进行仿真。 应当注意,下面的所有示例现在都可以在标准Java 8和更高版本上运行。
 假设我们有一个interface Point带有X和Y吸气剂,如下所述: 
 public interface Point { int x(); int y(); } y(); }   然后,我们可以轻松地创建一个不变的实现 
 Point界面如下图所示: 
 public final class VanillaPoint implements Point { private final int x, y; public VanillaPoint( int x, int y) { this .x = x; this .y = y; } @Override public int x() { return x; } x; } @Override public int y() { return y; } y; } // toString(), equals() and hashCode() not shown for brevity  }   此外,假设我们愿意放弃数组中Point对象的Object / identity属性。 这意味着,除其他外,我们无法同步或执行身份操作(例如==和System::identityHashCode ) 
 这里的想法是创建一个内存区域,我们可以直接在字节级别使用该内存区域,并在那里将对象展平。 可以将这个内存区域封装在一个名为InlineArray<T>的通用类中,如下所示: 
 public final class InlineArray<T> { private final ByteBuffer memoryRegion; private final int elementSize; private final int length; private final BiConsumer<ByteBuffer, T> deconstructor; private final Function<ByteBuffer,T> constructor; private final BitSet presentFlags; public InlineArray( int elementSize, int length, BiConsumer<ByteBuffer, T> deconstructor, Function<ByteBuffer,T> constructor ) { this .elementSize = elementSize; this .length = length; this .deconstructor = requireNonNull(deconstructor); this .constructor = requireNonNull(constructor); this .memoryRegion = ByteBuffer.allocateDirect(elementSize * length); this .presentFlags = new BitSet(length); } public void put( int index, T value) { assertIndexBounds(index); if (value == null ) { presentFlags.clear(index); } else { position(index); deconstructor.accept(memoryRegion, value); presentFlags.set(index); } } public T get( int index) { assertIndexBounds(index); if (!presentFlags.get(index)) { return null ; } position(index); return constructor.apply(memoryRegion); } public int length() { return length; } private void assertIndexBounds( int index) { if (index < 0 || index >= length) { throw new IndexOutOfBoundsException( "Index [0, " + length + "), was:" + index); } } private void position( int index) { memoryRegion.position(index * elementSize); }  }   请注意,此类可以处理任何类型的元素( T类型),但前提是它具有最大的元素大小,但可以将其解构(序列化)为字节。 如果所有元素的元素大小都与Point相同,则该类效率最高(即始终为Integer.BYTES * 2 = 8字节)。 还要注意,该类不是线程安全的,但是可以添加该类以增加内存屏障为代价,并且根据解决方案使用ByteBuffer单独视图。 
 现在,假设我们要分配一万个点的数组。 有了新的InlineArray类,我们可以这样进行: 
 public class Main { public static void main(String[] args) { InlineArray<Point> pointArray = new InlineArray<>( Integer.BYTES * 2 , // The max element size 10_000, (bb, p) -> {bb.putInt(px()); bb.putInt(py());}, bb -> new VanillaPoint(bb.getInt(), bb.getInt()) ); Point p0 = new VanillaPoint( 0 , 0 ); Point p1 = new VanillaPoint( 1 , 1 ); pointArray.put( 0 , p0); // Store p0 at index 0 pointArray.put( 1 , p1); // Store p1 at index 1 System.out.println(pointArray.get( 0 )); // Should produce (0, 0) System.out.println(pointArray.get( 1 )); // Should produce (1, 1) System.out.println(pointArray.get( 2 )); // Should produce null }  }  如预期的那样,代码在运行时将产生以下输出:
 VanillaPoint{x= 0 , y= 0 }  VanillaPoint{x= 1 , y= 1 }  null   请注意,我们如何向InlineArray提供元素解构函数和元素构造函数,以告知其应如何解构和构造 
 Point对象指向线性存储器或从线性存储器Point对象。 
仿真属性
 上面的模拟可能不会获得与真正的内联类相同的性能提升,但是在内存分配和位置方面的节省将是大致相同的。 上面的模拟是分配堆外内存,因此您的垃圾回收时间将不受InlineArray放置的元素数据的InlineArray 。 ByteBuffer中的元素的布局就像建议的内联类数组一样: 
 Array  +======+  |Header|  +------+  |x    |  +------+  |y    |  +------+  |x    |  +------+  |y    |  +------+  |...  |  +------+   由于我们使用ByteBuffer被索引与对象 
 int ,后备存储区域被限制为2 ^ 31个字节。 例如,这意味着我们只能将2 ^(31-3)= 2 ^ 28≈2.68亿 
 在我们用尽地址空间之前,数组中的Point元素(因为每个点占用2 ^ 3 = 8个字节)。 实际的实现可以通过使用多个ByteBuffer,Unsafe或Chronicle Bytes之类的库来克服此限制。 
懒惰的实体
 给定InlineArray类,从中提供元素非常容易 
 InlineArray是惰性的,在某种意义上,当从数组中检索元素时,它们不必急于反序列化所有字段。 这是可以做到的: 
 首先,我们创建Point接口的另一种实现,该实现从后备ByteBuffer本身而不是本地字段中获取其数据: 
 public final class LazyPoint implements Point { private final ByteBuffer byteBuffer; private final int position; public LazyPoint(ByteBuffer byteBuffer) { this .byteBuffer = byteBuffer; this .position = byteBuffer.position(); } @Override public int x() { return byteBuffer.getInt(position); } @Override public int y() { return byteBuffer.getInt(position + Integer.BYTES); } // toString(), equals() and hashCode() not shown for brevity  }   然后,我们只需要替换粘贴到 
 InlineArray是这样的: 
 InlineArray pointArray = new InlineArray<>( Integer.BYTES * 2 , 10_000, (bb, p) -> {bb.putInt(px()); bb.putInt(py());}, LazyPoint:: new // Use this deserializer instead  );  如果使用与上述相同的主要方法,将产生以下输出:
 LazyPoint{x= 0 , y= 0 }  LazyPoint{x= 1 , y= 1 }  null  凉。 这对于具有数十个甚至数百个字段的实体特别有用,因为对于其中的问题,只能访问字段的有限子集。
 这种方法的缺点是,如果在我们的应用程序中仅保留一个LazyPoint引用,则它将阻止整个后备ByteBuffer垃圾回收。 因此,像这样的任何惰性实体都最好用作短期对象。 
使用大量数据
如果我们想使用非常大的数据集合(例如,以TB为单位),可能来自数据库或文件,并将其有效地存储在JVM内存中,然后能够与这些集合一起使用以提高计算性能,该怎么办? 我们可以使用这种技术吗?
Speedment HyperStream是一种利用类似技术能够将数据库数据作为标准Java Streams提供的产品,并且已经有一段时间了。 HyperStream可以按上述方式布置数据,并且可以在单个JVM中存储TB级的数据,而对Garbage Collection的影响很小或没有影响,因为数据是非堆存储的。 它可以使用就地反序列化直接从后备存储区域中获得单个字段,从而避免了不必要的实体完全反序列化。 它的标准Java流是确定性的超低延迟,在某些情况下可以在100 ns内构造和使用流。
 这是在电影之间进行分页时如何在应用程序中使用HyperStream(实现标准Java Stream)的示例。 的 
 Manager films变量由Speedment自动提供: 
 private Stream<Film> getPage( int page, Comparator<Film> comparator) { return films.stream() .sorted(comparator) .skip(page * PAGE_SIZE) .limit(PAGE_SIZE) }   即使可能有数万亿的影片,该方法通常也将在不到一微秒的时间内完成,因为Stream直接连接到RAM并使用内存索引。 
在此处阅读有关Speedment HyperStream性能的更多信息。
通过在此处下载Speedment HyperStream 来评估自己的数据库应用程序中的性能。
资源资源
 瓦尔哈拉计划https://openjdk.java.net/projects/valhalla/ 
 Speedment HyperStream https://www.speedment.com/hyperstream/ Speedment初始化程序https://www.speedment.com/initializer/ 
翻译自: https://www.javacodegeeks.com/2019/08/java-benefit-inline-class-properties-starting.html