在美国亚利桑那州凤凰城举办的tech tour活动上,intel不但公布了代号“panther lake”的新一代酷睿ultra处理器的架构技术细节,还首次介绍了代号“clearwater forest”的新一代至强处理器,正式命名为“至强6 ”系列,同样是intel 18a工艺。
我们知道,intel从至强6开始,更改了全新的命名,不再叫做“至强可扩展处理器”,但依然延续了已有的代际命名。
更重要的是,至强6家族开始兵分两路:
一是至强6000p系列,采用p核设计、面向计算密集型负载,首批产品代号granite rapids;
二是至强6000e系列,采用e核设计、面向高密度计算,首批产品代号sierra forest。


clearwater forest从名字就能看出是sierra forest的继任者,同样是纯e核设计,但是在工艺和架构方面都进行了重大升级,只是没有如猜测中命名为至强7系列,而是很保守地取名至强6 系列,意在强调和至强6家族的延续性、兼容性。
granite rapids的后继者则是代号“diamond rapids”,将在后续跟进。

clearwater forest自然也是chiplets芯粒设计,而且更加复杂。
至强引入芯粒设计的开端是第四代sapphire rapids,但只有一种模块,计算、i/o单元仍然集成在一起,intel 7工艺,通过emib连接封装。
第五代emerald rapids只是一次小幅升级,工艺、架构都没变。

第六代granite ridge/sierra forest改成了一个或多个计算模块加两个io模块,工艺分别为intel 3、intel 7,还有多个emib 2.5d技术的连接封装模块,这也是intel 3工艺此前唯一的产品。

clearwater forest更进一步,分割成最多12个intel 18a工艺的计算模块、最多3个intel 3工艺的有源基础模块,从而实现更多核心、更大缓存等更强大的规格。
同时,它重复使用了来自至强6系列的intel 7工艺的i/o模块、emib 2.5d连接封装模块,甚至数量都一样。——amd处理器的iod模块有时候就一模一样。
这正是芯粒设计的最大好处,不需要升级的模块可以在不同产品中重复使用,从而大大降低研发和制造成本,而在需要升级的时候甚至可以单独更换。

计算模块部分最多有3个,每个模块内部又分为6个模组,而每个模组由4个e核组成,总计最多288个核心(288线程)。
这种四个为一组的方式和消费级的酷睿处理器上一模一样。
至强6000e系列虽然也能做到288核心,但那属于定制产品,公开路线图产品最多是144核心。
更进一步,至强6 还支持单路、双路并行,单系统可以做到最多576个核心。
e核架构也是darkmont,和panther lake处理器上一模一样。
二级缓存也是每4个e核共享4mb(相当于每个核心1mb),总计多达288mb。
那么,三级缓存呢?

原来在这里。
基础模块不再是单纯的连接作用,而是承载了三级缓存、内存控制器。
一个基础模块可以承载四个计算模块,而每个计算模块对应48mb三级缓存,每个基础模块就是192mb,合计最多576mb。
在不考虑一级缓存的情况下,一颗clearwater forest处理器就有多达864mb缓存!不知道这是不是intel大缓存消息的根源?
ddr5内存控制器每个基础模块有四个,组成四通道,合计就是12通道。

i/o模块和上代一模一样,自然规格也没变,每一个里边有8个加速器、48条pcie 5.0通道、32条cxl 2.0通道、96条upi 2.0链路,总量乘以二就是了。


clearwater forest的另一个重点,就是首发量产了全新的foveros direct 3d封装技术,将计算模块与基础模块连接在一起,而基础模块、i/o模块与封装基底的连接则采用了emib。
它采用了非常先进的铜-铜键合技术,凸点间距只有9微米,凸点密度超过每平方毫米1万!
要知道,panther lake处理器使用的foveros-s 2.5d,凸点间距为36微米,这就差了足足4倍。
想一想,在区区1平方毫米的空间内,就有上万个这样的连接,该有多么复杂、精密!
再加上有源硅中介层的配合,可以实现不同die之间超高带宽、超低功耗、超低电阻的连接,而且能效比极为出色,传输每个比特的功耗只有大约0.05皮焦耳——1皮焦耳等于1万亿分之一焦耳。
直观地比较一下,手机芯片一个指令周期的能耗就是几纳焦耳,而皮焦耳是纳焦耳的千分之一!

性能方面,intel只提供了一些架构层面的数据,号称至强6 系列对比至强6780e 144核心可提升最多90%,能效提升最多23%。
对比古老的二代至强,至强6 可以将机架空间缩小到1/8,而得益于能效的3.5倍飞跃,还可以节省750千瓦的能耗。

总结一下clearwater forest的主要特点:
支持单路、双路并行,向下兼容至强6900p系列(接口都是lga7529)。
最大热设计功耗300-500w。
最多288核心、288mb二级缓存、576mb三级缓存。
12通道ddr5内存,最高频率800mt/s。
最多6条upi 2.0(每通道带宽24gt/s)、96条pcie 5.0(可拆分为x16/x8/x4/x2)、64条cxl 2.0。
最多16个集成加速器,包括4个qat、4个dlb、4个dsa、4个iaa。
支持avx 2指令集(vnni/int8)——还是没有avx-512。
支持sgx、tdx安全扩展。

clearwater forest对比至强6700e系列,提升可以说是全方位的:
核心增加1倍,ipc性能提升17%,三级缓存增加4.3倍,内存通道增加50%,upi 2.0连接增加50%,内存频率提升25%。

最后一图看懂!