"至强6最强形私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596态现,算力与buff齐上阵

 人参与 | 时间:2026-03-23 07:05:15

2024年是至强的大年。

Intel将于今年6月发布的全新至强® 6700E系列是更简洁命名方式的代表:至强® 6能效核,其144颗处理器也标志着英特尔首次实现了核心数量的领先。而这个不是最顶级的产品,毕竟还有个6900P系列在后头等着呢!

9月26日,“至强®6900P”这个“最强形态”终于正式发布,其主要规格极为强大震撼,无论是在性能上还是在设计上都具有绝对的竞争优势。即便面对年内发布的同级别处理器中晚于自己发布的其他厂商所推出的最新产品,其已有的性能表现也无可匹敌。

算力存力Buff都叠满,至强6最强形态现身!

“最强”意味着什么?

英特尔代号为Birch Stream的全新服务器平台采用的是至强6系列处理器,该系列新发布的处理器包括6700E系列(能效核)和6900P系列(性能核)。这两款处理器分别在6月和8月发布。而未来的Intel 18A制造工艺的新一代至强6处理器也计划继续用于Birch Stream平台,特别是那些采用Clearwater Forest 18A制造工艺的处理器,如Granite Rapids、Sierra Forest、Birch Stream等。

至强6900P是英特尔专为计算密集型工作负载量身定制的处理器,并且被定义为Granite Rapids“完全体”。后缀“P”表示其采用的是Performance Core,即性能核。这样的设置意味着芯片拥有规模大、性能强的特点,同时也提供72至128个核心配置可供选择(TDP有400W和500W两种)。已公开的6900系列共有5种型号,相比前一代Rapids产品线,其配置翻番!如此巨大的迭代幅度极其罕见。英特尔决定将这种现象更改为更为简洁的命名方式,旨在表达它“厚积薄发、脱胎换骨”的转变。

算力存力Buff都叠满,至强6最强形态现身!

尤为值得一提的是:至强6900P也是业内首款正式“破百”的产品,其他同级产品,不论是x86架构还是Arm架构都只达到96核的水平。它们与英特尔在性能核数量上至少还有10颗以上的差距。

随着内核规模增大,至强6900P的L3缓存达到504MB。为了适应倍增核数以及显著提高算力的要求,至强6系列存储能力有了极大的增强,内存传输带宽方面不仅支持12通道DDR5 6400;此外还引入了新型内存MRDIMM技术,将数据率提升至8800MT/s,其基本内存带宽几乎达到第五代可扩展处理器的两倍。另外,至强系列也支持CXL 2.0标准,特别是一些包括CXL内存型设备(也就是CXL内存),可以进一步提高内存容量和传输速率。

AMD的6900P系列处理器搭载了UPI2.0链路,在速率提升至24GT/s的同时,数量也增至6条,这意味着在双路互联效率方面有了显著进步。结合内核数、内存带宽等方面的重大提升,使得至强6900P成为了高性能计算和高存储性能平台的顶点。AMD声称其能在科学计算等关键应用领域提供比上一代产品高出2.31-2.5倍的表现,AI应用性能更是达到了比上一代高出1.83-2.4倍。

算力存力Buff都叠满,至强6最强形态现身!

算力存力Buff都叠满,至强6最强形态现身!

至强六系的扩展能力也有显著的提升。在PCIe 5.0上,6900系列的高性能和效能核心单插槽提供高达96条通道,并且双路可达192条通道;6700系列则支持136条PCIe 5.0通道。相比之下,四、五代至强处理器的PCIe 5.0通道数为80条。此外,在CXL支持能力上,至强六系也支持64通道的CXL 2.0技术。

算力存力Buff都叠满,至强6最强形态现身!

更强大的处理器需要更大的主板才能满足。至强6系列提供两种接口:LGA 4710和 LGA 7529。至强6900系列采用了面积较大的LGA 7529插座,为处理器带来了最强大的内存带宽及扩展能力,是未来高性能、高密度服务器的基础。至强6700与未来的6500/6300系列将采用LGA 4710接口,尺寸与第四代和第五代至强的LGA 4677相近,内存和PCIe通道数相同或相近,符合主流服务器内部布局习惯。

英特尔 3改良版本

核心规模的增长主要得益于Intel最新的CPU产品线终于获得了EUV光刻机的支持。在2023年发布的产品酷睿Ultra率先采用了引入EUV技术的新Intel4工艺。同年,至强6将采用改进型的Intel3制造工艺。

2021年7月,英特尔CEO帕特·基尔辛格发布了“四年五个制程节点”(5N4Y)的工艺路线图。Intel 3量产时间定于2023年底,并且其生产进度基本符合原计划。基于Intel 4工艺制造的酷睿Ultra处理器市场表现表明,电子束曝光技术(EUV)对英特尔处理器性能的影响明显。至强6所采用的Intel 3工艺相较于Intel 4能拥有更多金属层,并且可以细分出更多的版本。

算力存力Buff都叠满,至强6最强形态现身!

英特尔的Intel 3采用更多的步骤进行光刻操作,这有助于提供更密集的设计库和更大的晶体管驱动电流。其有两个变体,一种是3-T,主要用于CPU;另一种是3-E,在功能扩展方面有更强的能力;两者都支持TSV技术。此外,Intel 3与Intel 4相比性能提升幅度为18%,而3-PT可以提供更多的混合键合,带来了更高的性能并且易于使用。英特尔的四款变体都支持240 nm高性能和210 nm高密度库,而Intel 4只支持240 nm高性能库。

为了实现高性能计算的特性,Intel 3专门对运算性能进行了强化,这意味着它可以运行于低电压环境(即1.3V)并且在不同电压下所能达到的时钟频率都明显超过Intel 4。

算力存力Buff都叠满,至强6最强形态现身!

大规模的微架构更新

英特尔最新的至强6900系列处理器搭载的是红杉柯夫性能核心架构,这也是英 龄近期发布的最重要的一款微架构更新。这款全新的红杉柯夫架构不仅为服务器产品带来了新名称,同时也在消费类产品上开启了新的命名序列酷睿Ultra。

我们先快速回顾一下Redwood Cove的上一代产品金鹰 Cove/Raptor Cove 。金鹰 Cove其实是非常重要的迭代,它开启了消费类桌面处理器的大核与小核时代(第十二代酷睿处理器),在服务器上就是第四代至强可扩展处理器。相比起其前身微架构大幅度提升了前端:

指令TLB翻番,容量从原先的128条增加了至256条,而指令数据带宽从每周期的16字节大幅增长为32字节。此外,解码器规模从4路增加到6路,并且L1 TLB和L2 TLB的大小分别增至2304条和4096条。

在Golden Cove 的后端部分,例如重新调整缓冲区和分支目标缓冲区的功能也有大约 30%的进步。与前端相比,这些改进并不十分显著。

Raptor Cove的微架构与Golden Cove差异不大,表现在实际产品上主要是缓存的提升,如基于Raptor Coved的第13代酷睿(Raptor Lake)的每核心L2缓存从12代(Alder Lake)的1.25MB提升到2MB;第五代至强可扩展处理器(Emerald Rapids)和第四代(Sapphire Rapids)每个核心的L2缓存都是2MB,但前者每个网格的末级缓存(Last Level Cache,也可继续俗称为L3缓存)从后者的1.875MB猛增到5MB。

红杉湾和金鹰湾以及猎鹰湾之间的最主要的变化是:

指令缓存从32KB扩增至16路,64KB容量;微操作队列则增长至192个条目;指令执行延迟得到了改善;处理器还更善于预取数据,同时BPU也获得了改进;L2缓冲的带宽也随之提升;AMX还新增了对FP16的支持。

当然Redwood Cove还有一个重要的优势就是“运气好”,即前面提到的EUV工艺制程。但是即使有革命性制造工艺加持,至强6性能核并没有过分拓展每个内核的规模。至于至强6性能核的内核而言,每一个网格节点就是一个P核心,每一个P核心配置私有的2MB L2缓存,私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596并且共享4MB末级缓存。虽然平均来说,每个核心的缓存容量没有比前一代至强(Emerald Rapids)多,但是倍数翻倍后就超过了第五代320MB和第四代112.5MB。

算力存力Buff都叠满,至强6最强形态现身!

顺便也提一下至强6中的能效核心Crestmont。它与酷睿Ultra中能效核心一样使用的是2到4个内核并行工作的微架构。至强6中的每个模块由每组的两个或四个核心构成,它们都共享L2缓存容量为4MB(酷睿Ultra为2MB)。这样,每个核心所在的模块对应一个3MB的末级缓存。虽然至强6能效核中的核心数量更多,但网格规模却比性能核心小很多。

算力存力Buff都叠满,至强6最强形态现身!

效能核心的指令缓存大小为64KB,而性能核心为32KB与48KB;前端指令解码器宽度不同,分别为6与8位宽;指令乱序执行引擎差异显著:效能核心支持512条指令,而性能核心则支持多达2048条指令。在AVX-512和AMX方面,效能核不支持,但这也可以减少矢量运算单元的晶体管占用,但其每周期单精度浮点运算次数下降了一个数量级;同时能效核心改进了AVX-2,增加了VNNI的INT8与BF16/FP16快速转换功能。另外,256位加密和1024/2048密钥也支持效能核,确保该平台的安全水平保持一致

算力存力Buff都叠满,至强6最强形态现身!

缓存容量、前端宽度及矢量单位的差异使至强6性能核和能效核具备不同的定位。早期发布的至强6能效核更适用于运算强度较低的任务,如微服务等。在追求更高的能效、更高的机架利用率方面有明显优势;但后来发布的至强6性能核则更适合大数据、建模仿真等计算密集型任务及人工智能应用,尤其是当单颗处理器的功耗能达到500W时更是如此。当然,这样的性能提升与Gaudi AI加速器或同类产品相比,其能耗成本是必然的一部分代价;但真正重要的是要确保能提升性能上限,并且能够实现高效运算的目标。

内存大提升

内存在DRAM存储器中依赖电容运作,这个特性使得其减缩和提升速度较晶体管慢得多。因此,内存没有沾摩尔定律的光束,带宽和密度的增长落后于CPU、GPU的发展。由于内存带宽滞后CPU核心数量的增长,一个长期问题出现:平均每核内存储器带宽增长乏力甚至有倒退现象。比如,第三代至强可扩展处理器拥有28个内核,其DDR4 3200内存提供了理论上的205GB/s总带宽,而平均每个内核的内存带宽只有7.3GB/s;到第四代则是64核、八个通道的DDR5 4800内存,理论上能提供307GB/s的总带宽,然而平均每核的内存带宽为5.5GB/s。第五代处理器在内存方面有所提升,其采用了更高带宽的DDR5 5600内存,内核数量达到了64个,并且支持CXL 2.0内存扩展技术。 为了补偿内存增长迟缓的问题,在第四代至强处理器中引入了HBM内存;而在第五代处理器上,则大幅度增加了末级缓存容量,并支持CXL 2.0内存扩展技术,这为CPU提供了更多的计算空间。

对于在至强6900P这款处理器上存在的内存兼容性方面的问题,现在总算有了一个相对不错的解决方案。这主要涉及三个方面的考虑:

1. 至强采用了大容量末级缓存,每个网格拥有4MB L3缓存,总容量达到了504MB,相比之前型号,增长了4.5倍、1.6倍;而且至强的全网格架构使得在任何情况下都能带来更低的访问末级缓存延迟表现,例如不会因为跨计算单元而造成延迟严重增加。这种构架效率更高,也成为了至强能继续保持核数领先的重要原因。

2.DDR5 内存双管齐下提升了系统的数据处理速度。至强 6900 系列的 12 路 DDR5 内存频率提升到了 6400MHz,其总带宽可以达到惊人的 614GB/s ,平均每核的内存带宽还略有增加,达到了 5GB/s 左右。至强 6900P 搭载了新型内存 MRDIMM,其频率进一步提升了至 8800 MT/s ,总带宽则达到惊人的 845GB/s ,平均每核也达到了 6.6GB/s ,已经超越了前代产品的平均水平。这表明内存的性能升级以及内存通道数量的增加可以显著提高系统的整体效率,而内存速度和数量之间的关系也不再是一个线性的关系,而是趋于一个更加复杂的状态。

算力存力Buff都叠满,至强6最强形态现身!

多通道双列直插内存模块(Multiplexed Rank)DIMM开辟了提高DDR内存性能的新道路。DRAM通常由1到2个Rank组成,每个Rank有位宽64bit,如果考虑ECC的话则会增加到72或80bit,但有效的数据只占用64bit。消费类内存(UDIMM)通常只有1个Rank(颗粒数少的时候),而追求大容量的服务器内存(RDIMM)通常至少有2个Rank。在以往的DDR内存模式下,每次只读取一个Rank的数据,另一个Rank暂时闲置时可以进行刷新操作来保持数据——这种轮流读取、刷新Rank的做法已经延续了多年。多通道直插双列内存模块设计了一个数据缓冲区,通过将两个内存Rank分别加载到这个缓冲区中,然后再从缓冲区一次传输到CPU的内存控制器上,由此实现了带宽提升至原来的两倍。第一代DDR5 MRDIMM的目标时速为8800 MT/s,实际上每个Rank的速率仅仅相当于4400MT/s。现在DDR5 6400已经开始普及,因此MRDIMM的第二阶段目标是达到12800 MT/s,预计在2030年代的三代会提升至17600 MT/s。

第三款到强处理器开始引入了CXL支持,当时是1.1版本,并没有公开支持Type 3设备(也就是CXL内存)直到第五代才正式引入了CXL2.0,包括Type 3。第六代到强将普及更多CXL设备的应用,关键的CXL2.0标准设备,以及后向兼容的CXL1.1设备,都将陆续涌现

这里主要说一下CXL内存的好处。CXL 2.0 支持链路分割,允许一个主机端口对接多个设备,同时提供增强的 CXL 内存分层支持,能够实现容量和带宽扩展。至强6支持三种 CXL 内存扩展模式:CXL NUMA 节点、CXL 非均衡交织、以及平直内存。

算力存力Buff都叠满,至强6最强形态现身!

在CXNNUMA模式下,系统中的标准内存和CXL扩展内存被视为两个独立的NUMA节点进行控制。每个NUMA节点都拥有自己的内存地址空间,并且可以由系统软件或者应用程序单独指定分配到不同节点的任务以提高内存使用效率。此模式适用于需要精细化内存管理的应用场合。它可以通过操作系统、虚拟机管理程序(Hypervisor)或者其他应用程序来辅助实现内存层次分层的精细控制与管理。

异构交织模式利用标准内存和CXL内存混合在一起形成一个统一的Numa节点。每个内存地址空间中的数据在DRAM与CXL内存中交替存储,以此来均衡内存带宽减少延迟。此模式适合对内存带宽有高需求的应用,尤其在需要将DRAM和CXL内存结合使用的情况下适用。这种异构交织模式只有在配备性能核的至强6900P上才可支持。假设每颗至强6900P配备了满额的64通道CXL,则额外增加了256GB/s内存带宽,仅依靠单处理器便可实现TB级内存带宽,这无疑是一种非常可观的能力。

在Flat Memory(平面内存)模式中,CXL内存和标准内存被视为单一内存层,操作系统可以直接访问统一的地址空间。硬件辅助分层管理确保常用数据优先存储于标准内存,而次要数私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596据则被存放在CXL内存中,从而极大地提高了内存的使用效率。平模模式的最大价值在于无需软件修改就能利用CXL内存扩展,并且这种模式适用于所有Xeon处理器。然而,这种模式要求标准内存和CXL内存1比1配比,这略微限制了硬件采购、升级的灵活性。整体而言,在至强6时期,平面模式是最容易操作、效果最明显的方式,有望成为CXL内存扩展的主要方式。

走上 Chiplets的异质融合之路

至强六代产品是至强族首 次将计算与I0芯片拆分,并且使用Chiplet的形式进行封装,这算是真正发挥了高级封装的优势。

英特尔首度推出的第四代至强处理器是基于Chiplet架构的型号。其XCC版型内部包含4颗芯片通过10对EMIB进行等效连接。每颗芯片都配置有15个内核、2组内存控制器和一组加速单元,以及UPI、PCIePHY若干。此外,还可以封装4块HBM内存模组以提升性能。

第5代至强处理器采用2片处理器整合,组件量较先前有所缩减,因而减少了封装的芯片数以及面积。虽内部结构略显扩充,但亦牺牲了USB接口与高频运算性能,且不再配备高带宽记忆体(Hyper-Threading Technology)。

随着制造工艺迭代,重点在计算性能和晶体管密度上的处理器内核与侧重于高速信号互联的I/O控制器对制造工艺的要求产生了分歧。因此,典型的Chiplet设计会将计算功能与输入输出控制分离,采用不同制造工艺实现各自的功能。英特尔14代酷睿产品采用了这种策略,将其拆分成计算Tile、SoC Tile、IO Tile及Graphics Tile等模块。Ponte Vecchio项目的英特尔数据中心GPU Max则利用了Foveros和EMIB封装技术将47个芯片集成在一起,包括Compute Die、Base Die、RAMBO以及I/O Die等多个组件。

至强6终于也拆分成计算单元(Compute Tile)和IO单元(IO Tile),分别由Intel 3和Intel 7工艺制造。

计算单元

根据收集的信息,能效核心目前只有一种设计,每个核心最多提供144个内核及四组内存控制器共八通道;而在性能核心,有两种不同的计算单元设计,分别可搭配出高密度核集、中度核集和低密度核集。

至强6900P拥有一个核心运算集群,每个核心有43个运行在最高性能模式下的内核,两个内存控制器,并构成128个运行于最低性能模式下或使用非一致数据流(NVDI)模式的内核。这种计算单元被称为单元A,三个单元A形成的一组处理器称为UCC。

算力存力Buff都叠满,至强6最强形态现身!

未来发布的6700P型号处理器核数跨度会很大,单路版本计划为16至80核心,多路版本则从8到86核心。A单元拥有四个内存通道,两个A单元组合起来最高可以提供86个核心,下限应该至少在48核心(否则被屏蔽的内核数量可能太多,这也太浪费EMIB的成本了)。这种规模处理器被称为XCC。48核以下的中等核心型号被称作HCC,使用的是专门开发的一个单元B,每个单元提供48个内核和四个内存控制器。HCC的核心数量上限预计为24个。 8核到16核的6700P称为LCC,需要第三种单元C,16个核心以及四个内存控制器。

算力存力Buff都叠满,至强6最强形态现身!

通过使用三组计算单元进行组合,Intel® 至强6 系列处理器能够构建跨度从 8~128 核之间的规格体系,这使其在设计上显得极为灵活多样。有些人可能认为,由于其他制造商只使用单一规格的计算单元来扩展其产品线,Intel 需要生产出三组不同的芯片以满足这一需求会增加其成本。然而我认为,这种做法符合Intel追求高性能的核心理念。首先,为了更接近内核并减少延迟,至强6系列处理器内存控制器被安排在计算单元中。其次,与之对应的是不同规模的内核数量规划不同的网格规模,这可以有效降低核间延迟,甚至可能LCC将根据较小的内核数量采用环形总线(Burst Ring Bus

IO单元

在IO单元部分,至强 6900和6700系列都使用两颗相同的IO芯片。每颗IO芯片由两个IO模块(x16 PCIe或CXL连接)、四个UIO模块(复用为x16的PCIe或CXL),以及两个加速器模块(DSA、IAA、QAT、DLB各一个)构成,它们共同构成了IO网络接口。

算力存力Buff都叠满,至强6最强形态现身!

以这款发布的至强6900P为例,两组IO单元提供8个UIO以及另外4组IO模块。这使得这两组IO单元可以为每台设备提供32个通道的PCIe 5.0互连接口。额外的6组UIO则能够为6台设备提供128个PCIe 5.0互连。双路至强6900P的UPI速率达到了惊人的24GB/s,远远超过上一代产品的20GB/s和四代产品16GB/s,连接数量也比前几代提升了50%。

对于还未发布且仍为主力产品的至强6700系列,考虑到需要使用规模较小的插槽,因此只提供了最多4组UPI用于多路互联,并相应减少PCIe通道数量。然而即使如此,该系列单路型号在将所有UIO配置为PCIe后,也就能提供多达136个PCIe通道或64个通道CXL。若与半宽主板构建双节点服务器,一个机箱内的PCIe/CXL扩展能力将达到272/128,远超过目前已知的任何双路服务器设计。这种一体式的机箱或许将为用户带来新的池化形态,提供更高密度的NVMe存储、CXL内存、加速器等功能。

总结

由于Intel在从14nm到10nm制造工艺迭代过程中遇到了一些技术难题,此前几代至强平台在“核战”(指CPU的核数较量)上显得比较被动,然而这一局面有望被至强6所改变。改良版EUV制造工艺似乎并没有束缚至强6的实力,在核心数量、缓存容量和内存带宽等关键指标上已经全面领先,并且一句话概括就是算力和存储能力的表现全都达到了顶点。至强6900P系列在各项测试中都实现了代际性能的显著提升,这远远超出了10%~20%的平均水平。因此,Intel得以在科学计算、大数据处理和人工智能领域全面展开竞争,争夺性能主导权。

此外,“至强6”终于实现了计算与存储的分离,这使得“至强6”及其未来的产品路线走上了正确的、灵活的道路,并能充分发挥Chiplet的优势。将Chiplet视为降低成本和提高良率的有效手段是片面的理解。Chiplet的价值在于灵活性、复用性和重构性。Intel长期以来非常重视细分市场的深耕,其产品线极为复杂,正确使用Chiplet可以收到事半功倍的效果。我们期待“至强6”后续产品的陆续发布能给业界带来怎样的想象力。

顶: 8踩: 172