网站首页

ng体育产品中心

智能终端处理器 智能云服务器 软件开发环境

ng体育新闻中心

关于ng体育

公司概况 核心优势 核心团队 发展历程

联系我们ng体育

官方微信 官方微博
ng体育 > ng体育新闻中心

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐

发布时间:2024-09-29 09:51浏览次数: 来源于:网络

  NG体育官网app下载来源:内容由半导体行业观察(ID:icbank)编译自chipsandcheese,谢谢。

  Nuvia 之所以引人注目,是因为其领导层包括几位著名的芯片架构师,其中一位曾为 Apple 工作。M1 等 Apple 芯片因性能与 AMD 和 Intel 产品相同,同时提供更好的能效而受到认可。Nuvia 有着类似的目标,旨在打造一个节能的内核NG体育娱乐,可以超越 AMD、Apple、Arm 和 Intel 的设计。

  高通于 2021 年收购了 Nuvia,将其员工纳入高通内部 CPU 工作。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图1)

  Nuvia 员工的加入让高通内部 CPU 工作焕发了生机,最终促成了 Snapdragon X Elite 中 Oryon 核心的诞生。Oryon 的推出距离 Nuvia 的发布已过去了五年,距离高通上一次发布采用内部设计核心的智能手机 SoC 也已过去了八年。对于关注 Nuvia 发展的人们来说,这是一个漫长的等待。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图2)

  请注意,由于这台笔记本电脑没有任何上游设备树,我们无法在其上安装 Linux 桌面,所以我们的很多测试必须在 Windows Subsystem for Linux (WSL) 上进行。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图3)

  Snapdragon X Elite 的集群安排在核心到核心延迟测试中清晰可见,该测试在核心对之间反弹缓存行并测量所需的时间。核心内的传输处理得相当快,但跨集群传输会导致高延迟,尤其是对于具有消费级核心数量的单片芯片而言。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图4)

  与高通之前制造笔记本电脑芯片的尝试相比,延迟不太一致。8cx Gen 3 有四个 Cortex X1 内核和四个 Cortex A78 内核。它可能使用 Arm 的 DSU 互连,该互连还实现了共享的 L3 缓存。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图5)

  Nuvia 的联合创始人曾就职于 Apple,因此 M1 是一个值得注意的比较点。Apple 也使用四核集群和共享 L2。但是,M1 使用混合核心排列。集群内的核心到核心延迟相似。跨集群传输会产生高延迟,就像 Snapdragon X Elite 一样,不过绝对值要好一些。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图6)

  Snapdragon X Elite 和 M1 均具有系统级缓存 (SLC),可以为芯片上的多个块提供服务,但性能低于专用于一个块的缓存。

  只要我们停留在 Meteor Lake 的 CPU 块内,核心到核心的延迟就很低,但跨越到低功耗 E-Core 集群需要更长的时间。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图7)

  CPU 通过在空闲时降低时钟来节省电量。从空闲状态过渡到高性能状态需要时间。在电池供电下,Snapdragon X Elite 在负载施加后超过 110 毫秒才达到最大时钟速度。这几乎肯定是三星故意为之,通过避免在短时间活动期间进入高功率状态来延长电池寿命。英特尔的 Meteor Lake 将这一策略发挥到了极致,在电池供电下不会达到最大加速时钟。AMD 的墙壁电源和电池电源的加速策略都非常快,在一毫秒或更短的时间内达到 5 GHz。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图8)

  在电源方面,三星选择不让 CPU 闲置。这样可以提高响应速度,因为内核的起始频率为 3.4 GHz,可以在 1.44 毫秒内达到 4 GHz。然而,这会使笔记本电脑即使在闲置时也明显发热,而 Meteor Lake 或 Phoenix 则没有这种特点。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图9)

  Zen 4 仍然具有时钟速度优势,但与移动设备相比差距并不大。与 Oryon 相比,Zen 4 的架构看起来很小。它只有 6 宽,并且具有较小的无序缓冲区。但是,Zen 4 可以以更高的时钟速度运行。Ryzen 7840HS 在 HP ZBook Firefly 14 G10 A 中可以达到 5.1 GHz。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图10)

  高通表示,Oryon 的错误预测惩罚为 13 个周期,与 Zen 4 的常见情况相同。

  分支预测器是提高每焦耳能耗性能的最佳方法之一。因此,现代 CPU 在分支预测方面投入了大量资金。随着核心宽度和重新排序能力的提高,准确的分支预测器变得更加重要,因为错误预测往往会导致更多的工作浪费。

  方向预测器的作用正如其名称所示,它告诉分支预测器分支可能朝哪个方向发展。Oryon 似乎有一个单级方向预测器,与 Golden Cove 非常相似。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图11)

  Oryon 分支预测单元方向预测器在与 Golden Cove 的对抗中表现良好,但在与 Zen 4 的对抗中表现不佳。

  分支预测器的工作可以简化为告诉前端它接下来应该从哪个地址获取。其中一部分涉及确定是否执行分支。如果是,预测器需要以最小的延迟告诉前端该分支的去向。分支目标缓冲区 (BTB) 缓存分支目标地址以加快该过程。与任何缓存一样,不同的 BTB 实现具有不同的性能特征。现代 CPU 通常也具有多级 BTB,以在速度和处理大型分支占用空间的能力之间取得平衡。

  Oryon 似乎将其 BTB 与指令缓存绑定在一起,因为当测试循环溢出指令缓存时,执行的分支会经历更高的延迟。8 KB 内存占用内的分支可以在单周期延迟内处理,AMD 称之为“零泡沫”分支。具有较大分支占用空间的应用程序可以每三个周期执行一次分支,只要代码适合 192 KB L1 指令缓存即可。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图12)

  高通可以在解码管道的早期放置一个分支地址计算器。通过这种解释,Oryon 将拥有一个具有单周期延迟的 8 KB L0 指令缓存。192 KB L1i 将具有 3 个周期延迟。Oryon 的 BTB 设置与 Kryo 的相似,因为只要测试在 8 KB 以内,两个内核都可以快速分支。它还与 M1 有共同的特征,当测试超过某些代码占用空间大小时,M1 也会看到分支延迟增加。然而,M1 仅在 4 KB 以内获得单周期分支。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图13)

  AMD 的 Zen 4 以及 Arm Ltd 和英特尔核心都将分支目标缓存与指令缓存分离。一旦分支超过一定数量,Clam 的 BTB 测试就会发现延迟更高,而分支间距的影响较小。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图14)

  间接分支可以转到多个目标,这又增加了预测的难度。Oryon 似乎有一个 2048 条目间接分支预测器。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图15)

  Oryon 的间接预测器不如 Zen 4 的 3072 入口间接分支预测器大,无法跟踪那么多目标。但与 Zen 4 不同的是,单个分支在 32 个目标之后不会出现缓慢增加的惩罚。这可能意味着 Oryon 没有使用与 Zen 4 类似的机制。现在将 Oryon 与 Golden Cove 进行比较,它们彼此非常相似,但 Oryon 可以跟踪的目标比 Golden Cove 多。

  返回是间接分支的一个特例。Oryon 有一个深度为 48 的返回堆栈。相比之下,Zen 4 有一个 32 的返回堆栈。两者都相当深,可能足以处理绝大多数代码。高通的策略与 Apple M1 的 Firestorm 架构相似,后者显然有一个 50 的返回堆栈。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图16)

  当超出返回堆栈容量时,Oryon 发现调用+返回时间急剧增加。4-5 纳秒在 3.7 GHz 下相当于 15-18 个周期,这足以成为分支预测错误。这与 Dougall 在 Apple 的 M1 上发现的情况类似,表明内核在溢出时清除返回堆栈,而不是实施一种机制来更优雅地处理这种情况。

  接下来,前端必须从内存中获取指令并将其解码为微操作。Oryon 和 Apple 的 Firestorm 核心使用非常相似的策略。两者都有一个巨大的 192 KB L1 指令缓存,为 8 宽解码器提供数据。AMD 的 Zen 4 享有高指令带宽,指令占用空间小,但持续带宽受到 Zen 4 下游 6 宽重命名阶段的限制。与 Oryon 和 Firestorm 相比,Zen 4c 的小 32 KB 指令缓存是一个明显的劣势。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图17)

  但是,AMD 为非常大的代码占用空间保持了较高的前端带宽,因为即使从 L3 提取代码,它也可以维持每周期超过 12 个字节。在 L1i 未命中后,Oryon 和 M1 的代码提取带宽要低得多。

  前端的微操作需要分配后端资源,以便在无序执行期间跟踪它们。该过程涉及寄存器重命名,以打破错误的写后写依赖关系。重命名器还可以通过创造性地分配后端资源来打破其他依赖关系。例如,可以通过让其“结果”指向源寄存器来消除在寄存器之间移动值的指令。已知将寄存器设置为零的指令也可以进行类似优化。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图18)

  Oryon 具有移动消除功能,但它不如 Intel 或 AMD 的链式依赖 MOV 实现那样强大。对于将寄存器与自身进行异或或将寄存器从自身中减去,没有归零习语识别。将立即值零移动到寄存器当然可以打破依赖关系。但是,吞吐量不超过 6 IPC,这表明 Oryon 仍然使用 ALU 管道将零写入寄存器。

  Oryon 具有庞大的无序执行引擎,可隐藏延迟并提取指令级并行性。其重排序缓冲区有助于按程序顺序提交指令结果,具有 680 个条目,非常庞大。整数和浮点寄存器文件都有 384 个条目可用于推测结果。再添加 32 个条目用于已知良好的架构寄存器值,总共有 416 个条目。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图19)

  内存排序队列的大小更为保守。加载队列和存储队列分别有 192 个和 56 个条目。虽然加载队列的容量与 Redwood Cove 相当,并且大小合适,可以覆盖重新排序缓冲区,但存储队列感觉有点小。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图20)

  Oryon 真正擅长的是调度能力。调度器是一种昂贵的结构,因为每个周期,它们都必须检查所有条目,以查找准备好执行的微操作。而且,它们必须查看刚刚完成的微操作的结果是否使任何待处理的微操作准备就绪。进行所有这些检查和比较可能会占用大量空间和功耗。高通可能通过将每个调度队列与一个执行端口关联来降低成本,确保每个调度器每个周期只需选择一个微操作。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图21)

  Oryon 仅针对基本整数运算就能带来令人难以置信的 120 个调度器条目。它略低于 Firestorm 的 134 个条目NG体育娱乐,但远高于 Zen 4 的 96 个条目。Oryon 和 Zen 4 之间的差距更大,因为 Zen 4 的 ALU 调度条目与内存访问操作共享。英特尔的 Redwood Cove 有 97 个调度条目,由整数和 FP/矢量运算共享。

  在 FP/矢量方面,Oryon 同样具有强大的调度能力。Arm CPU 传统上具有较弱的矢量执行能力,因为在智能手机或平板电脑的功率预算中,处理吞吐量受限的工作负载会很困难。然而,x86 应用程序有不同的期望,用户希望在本地执行密集型任务,而不是将它们发送到远程服务器进行处理。Oryon 通过为四个 128 位执行端口提供总共 192 个调度程序条目来解决这个问题。所有四个管道都可以处理基本的浮点和矢量整数运算。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图22)

  在这方面,Oryon 与 Firestorm 非常相似,尽管这两个核心在处理不太常见的操作方面有所不同。Firestorm 还与众不同,它使用较小的(尽管在绝对意义上仍然很大)调度程序,并使用可以延迟重命名阶段停顿的非调度队列来弥补这一点。

  AMD 再次拥有最低的调度能力,而是使用一个巨大的非调度队列来防止满负荷的调度程序导致流水线进一步停滞。尽管如此,Zen 4 对不完整 FP/矢量操作的缓冲能力仍远不及 Oryon。但是,AVX(2) 和 AVX-512 仍然可以为 Zen 4 带来优势,因为宽矢量操作使用单个微操作可以完成更多工作。英特尔的 Redwood Cove 同样可以从更宽的矢量中受益,尽管 Meteor Lake 的混合核心设置使其无法支持 AVX-512。

  Oryon 的 FP/向量方面感觉与任何 NEON/ASIMD 设置一样强大。如果没有 SVE 支持,Oryon 就无法使用宽度超过 128 位的向量。在所有四个管道上支持 FMA 操作使其具有与 Zen 4 类似的浮点吞吐量,但可能使 Oryon 在不使用宽度超过 128 位的向量的代码方面具有优势。但是为该设置提供数据需要 12 个 FP 寄存器文件端口,因为每个 FMA 都需要三个输入。使用 416 个条目的寄存器文件来实现这一点听起来很昂贵。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图23)

  Oryon 的地址生成操作调度能力比数学操作要弱,但 4 个 16 条目调度器也算不上什么。这些调度器加起来可以容纳的微操作比 Firestorm 的 AGU 调度和非调度队列加起来还要多。理论上,Zen 4 可以同时运行 72 个不完整的地址生成操作,但这些条目与整数数学操作共享。

  在任何现代 CPU 上,程序都会对虚拟地址进行操作,这些虚拟地址会即时转换为物理地址。地址转换缓存(称为转换后备缓冲区 (TLB))通过缓存常用的转换来帮助加速这一过程。Oryon 具有非常大的 TLB,有助于减少地址转换延迟。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图24)

  Oryon 的第一级数据 TLB 有 224 个条目,是 7 路组相联的,提供 896 KB 的覆盖范围和 4K 页。与 AMD 和 Intel CPU 上的第一级 TLB 相比,这是一个很大的容量。它让人想起 Kryo 的 192 个条目 L1 DTLB,它同样在相对较大的地址空间上提供快速地址转换覆盖。而且,与 AMD、Intel 和 Arm 的小型 L1 DTLB 相比,它令人耳目一新。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图25)

  但与 Kryo 不同,Oryon 拥有一个大型二级 TLB,可容纳超过 8K 个条目,而 Kryo 会直接丢弃 L1 TLB 未命中。从 L2 TLB 进行转换似乎需要额外的 7 个周期,考虑到 Oryon 的 4 GHz 以上时钟频率和 L2 TLB 的大小,这还是不错的。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图26)

  不过,测量结果令人困惑,显示地址转换惩罚在超过 6 MB 后有所增加。这相当于 1536 个 L2 TLB 条目,远远低于 Zen 4 的 L2 TLB 可覆盖的 12 MB。超过 128 MB 的测试大小显示出另一个增加,但这并不对应于 8K 条目 * 4K 页面 = 32 MB。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图27)

  AMD 为每个核心配备了 1 MB 的 L2 中级缓存,然后是 16 MB 的 L3。这种设置使增加缓存容量变得更加容易,因为 L2 缓存可以将核心与 L3 延迟隔离开来。但是,对于移动版 Zen 4 部件来说,这种优势微乎其微,因为其 L3 缓存最大为 16 MB。因此,Oryon 提供了具有竞争力的延迟,尤其是当访问超出 Zen 4 的 L2 时。Meteor Lake 遵循与 Zen 4 类似的缓存策略,但具有更大的缓存容量,但代价是更高的延迟。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图28)

  在 L2 之后,Oryon 拥有 6 MB 系统级缓存 (SLC),声称延迟为 26-29 纳秒。12 到 18 MB 之间的测试大小通常与此一致。例如,使用 2 MB 页面时,14 MB 的延迟约为 25 纳秒。准确评估 SLC 延迟很困难,因为即使是 18 MB 阵列中的许多访问也会导致 L2 命中。与 L2 缓存相比,SLC 的容量较低NG体育娱乐,这可能会限制其与 CPU 端代码的相关性。

  x86 CPU 传统上非常注重矢量执行,并且拥有足够的缓存带宽来支持其矢量单元。Oryon 在这一领域的竞争力出人意料地强。虽然没有 SVE 支持,但 Oryon 可以合理地使用 128 位矢量宽度,支持每周期 4 次 128 位加载。这与 Zen 4 的 2×256 位加载带宽相当,但略逊于 Redwood Cove 的 3×256 位加载能力。

  Oryon 的大型 L1 缓存容量应该能够很好地处理较小的数据占用空间,但如果数据超出 L1,AMD 和英特尔的中级缓存可提供带宽优势。AMD 的 L3 也表现出色,为单个内核提供的带宽比高通的 L2 要多。Apple 的 Firestorm 并不强调矢量工作负载,在这次比较中落后于其他内核。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图29)

  从 DRAM 读取时,单个 Oryon 核心可以实现惊人的 80 GB/s 带宽。高通表示,每个核心可以向系统发出超过 50 个正在运行的请求,而 L2 实例可以跟踪超过 220 个内存事务。这些大型队列可能是单个 Oryon 核心可以从 DRAM 中获取如此多带宽的原因NG体育娱乐。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图30)

  在多线程负载下,共享缓存承受的压力更大,因为更多内核需要带宽。Oryon 处理得当,L2 为四个内核提供近 330 GB/s 的带宽。这相当于每个内核约 82 GB/s,略低于 Oryon 内核在没有争用的情况下可以获得的 100 GB/s。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图31)

  同样,AMD 和英特尔从其核心专用的 L2 缓存中获得了大量的带宽,而 AMD 的 L3 继续在更大的数据占用空间方面大放异彩。英特尔的 Redwood Cove P-Core 具有非常高的缓存带宽,但一旦数据溢出到 L3,这种优势就会消失。

  对于全核工作负载,Oryon 与 Phoenix 的较量取决于我们击中了哪个级别的内存层次。L1 缓存带宽相当,AMD 的八个 Zen 4 内核时钟频率更高,略微领先。AMD 在所有内核中享有大约 25% 的 L2 带宽。英特尔的 Meteor Lake 通常具有带宽领先优势,这要归功于内核数量多以及 Redwood Cove 的 3×256 位/周期负载能力。然而,当所有线程都加载时,由于时钟速度下降和较低带宽的 E-Core 发挥作用,领先优势就不那么明显了。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图32)

  多年来,Maxon 的 Cinebench 一直是基准测试的主流,因为它能够随着核心数量而扩展。现代 CPU 拥有大量核心,但在有限的功率预算内提供高多线程性能非常困难。Cinebench 2024 采用原生 ARM64 构建NG体育娱乐,因此 Snapdragon X Elite 将不受二进制翻译惩罚的影响。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图33)

  高通表现非常出色。SMT 通过为每个 Zen 4 核心提供显式并行性来帮助 AMD。然而,这不足以抵消骁龙 X Elite 更高的核心数量。骁龙 X Elite 拥有 12 个核心,而 AMD 只有 8 个,性能领先 8.4%,而功耗仅高出 2%。但从另一个角度来看,每个 Zen 4 核心都发挥了超乎寻常的作用。高通的核心数量增加了 50%,而且核心更大。骁龙 X Elite 在纸面上应该会压倒竞争对手,但热量和功耗限制阻碍了它脱颖而出。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图34)

  高通的幻灯片显示,更高功率的参确实可以实现这样的结果。更高的核心数需要更多的功率和更好的冷却才能发挥出最佳性能。我们不知道高通更高功率的参能够维持什么样的时钟速度。在三星 Book Edge4 中,骁龙 X Elite 平均为 2.71 GHz。在惠普 ZBook Firefly G10 A 中,Ryzen 7840HS 平均为 3.75 GHz,这解释了 AMD 为何能够以更少的核心如此接近目标。

  Oryon 结合了 Firestorm 和该公司更老的 Kryo 的设计理念。结果是一个非常坚固的架构,因为高通小心翼翼地将这两个领域中最好的部分都发挥出来了。高通一直想超越智能手机,占领笔记本电脑市场,而骁龙 X Elite 是该公司迄今为止最强大的产品。从理论上讲,12 个 Oryon 大核心应该是 AMD 的 8 个 Zen 4 核心和 Meteor Lake 的 16 个各种类型核心的强大对手。

  我们将把详细的基准测试留给主流技术网站,因为他们可以在更受控制的环境中进行测试,并且有预算提供更多比较点。但乍一看,Snapdragon X Elite 在运行本机应用程序时提供了具有竞争力的性能。即使使用二进制翻译,Oryon 的速度也足够快,可以提供可用的性能。考虑到这一点,Oryon 已经满足了推动 Apple Firestorm 在 2020 年取得成功的两个条件。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图35)

  但是与苹果的 M1 相比,骁龙 X Elite 的挑战更大。Apple Silicon 是苹果生态系统中唯一的升级选项,而 PC 客户可以选择最新的 AMD 和 Intel 选项。PC 生态系统的受欢迎程度和持久力归功于其出色的软件兼容性传统。Oryon 依靠二进制翻译来执行 x86 代码,这会带来性能损失。兼容性期望也延伸到了操作系统。PC 用户希望能够(重新)安装自己选择的操作系统。通常,无论设备或主板制造商是谁,原装 Linux 或 Windows 映像都可以在几代之前的 x86 CPU 上启动。Arm 设备遭受严重的平台碎片化困扰,骁龙 X Elite 也不例外。必须为每台笔记本电脑定制操作系统映像,即使是使用相同 Oryon 内核的笔记本电脑也是如此。

高通最强芯片解读苹果M芯片终于迎来了对手NG体育娱乐(图36)

  最后,骁龙 X Elite 设备太贵了。Phoenix 和 Meteor Lake 笔记本电脑通常价格较低,即使配备了更多 RAM 和更大的 SSD。说服消费者为较低规格支付更多费用已经很难了。兼容性问题让事情变得更加困难。高通需要与 OEM 合作,提供具有竞争力的价格。较低的价格将鼓励持怀疑态度的消费者尝试骁龙 X Elite,让更多设备投入流通。这反过来又会带来更多使用 ARM64 Windows 设备的开发人员和更多 ARM64 原生应用程序。

  高通的任务已经很艰巨了。我们期待他们的下一代 CPU 核心,希望它足够强大,能够与 AMD 和英特尔的下一代产品保持同步。

下一篇:芯百特入选江苏潜在独角兽企业 引领射频芯片技术新发展NG体育娱乐
上一篇:NG体育美国发出全球通缉令逮捕中国芯片科学家陈正坤现在怎么样了?

咨询我们

输入您的疑问及需求发送邮箱给我们