开云体育下图提供了一些键盘和清楚器的视角(莫得清楚电缆-Kaiyun网页版·「中国」开云官方网站 登录入口

Kaiyun网页版·「中国」开云官方网站 登录入口
新闻
栏目分类
Kaiyun网页版·「中国」开云官方网站 登录入口
资讯
娱乐
新闻
旅游
汽车
电影
开云体育下图提供了一些键盘和清楚器的视角(莫得清楚电缆-Kaiyun网页版·「中国」开云官方网站 登录入口
发布日期:2025-07-13 11:43    点击次数:142

开云体育下图提供了一些键盘和清楚器的视角(莫得清楚电缆-Kaiyun网页版·「中国」开云官方网站 登录入口

在 2025 年的 CES 行径上,Nvidia (NVDA.US)这告示与联发科互助诞生了一款售价 3000 好意思元的新式台式电脑,该电脑搭载了基于 Arm 的全新精简版 Grace CPU 和 Blackwell GPU 超等芯片。新系统名为“Project DIGITS”(不要与 Nvidia 的深度学习 GPU 锻真金不怕火系统:DIGITS欺侮)。该平台为 AI 和 HPC 市集提供了一系列新功能。

Project DIGITS 罗致具有 20 个 Arm 中枢的全新 Nvidia GB10 Grace Blackwell 超等芯片,旨在提供“千万亿次”(FP4 精度)的 GPU-AI 筹备性能,用于原型筹商、微长入运转大型 AI 模子。(强制性浮点解释器可能在这里有所匡助。)

自 G8x 系列显卡发布(2006 年)以来,Nvidia 一直力争于提供适用于通盘 GPU 系列的 CUDA 器具和库。大约使用低资本客户显卡进行 CUDA 诞生有助于创建充满活力的诓骗关节生态系统。由于高性能 GPU 的资本和稀缺性,DIGITS 名堂应该大约达成更多基于 LLM 的软件诞生。与低资本 GPU 一样,在桌面上运转、确立和微调怒放式变压器模子(举例 llama)的身手应该对诞生东说念主员具有诱骗力。举例,通过提供 128GB 内存,DIGITS 系统将有助于克服好多低资本破钞级显卡上的 24GB 完毕。

规格不及

新款 GB10 超等芯片罗致 Nvidia Blackwell GPU,配备最新一代 CUDA 中枢和第五代 Tensor 中枢,通过 NVLink-C2C 芯片到芯片互连络续到高性能 Nvidia Grace 类 CPU,其中包括20 个节能的 Arm 中枢(十个 Arm Cortex-X925 和十个 Cortex-A725 CPU 中枢)。

天然莫得可用的规格,但 GB10 的 GPU 端被以为提供的性能低于Grace-Blackwell GB200。需要明确的是;GB10 不是分档或激光修剪的GB200。GB200超等芯片有 72 个 Arm Neoverse V2 中枢和两个 B200 Tensor Core GPU。

DIGITS 系统的界说特征是 CPU 和 GPU 之间归并、一致的内存 128GB(LPDDR5x)。这种内存大小在 GPU 上运转 AI 或 HPC 模子时冲破了“GPU 内存壅塞”;举例,80GB Nvidia A100 确面前市集价钱从 18,000 好意思元到 20,000 好意思元不等。有了归并、一致的内存,CPU 和 GPU 之间的 PCIe 传输也被扬弃了。下图中的渲染标明内存量是固定的,用户无法彭胀。该图还标明ConnectX 收罗(以太网?)、Wifi、蓝牙和 USB 络续可用。

该系统还提供高达 4TB 的 NVMe 存储。在电源方面,Nvidia 提到了模范电源插座。莫得特定的电源条款,但尺寸和筹商可能会提供一些陈迹。当先,与 Mac mini 系归并样,小尺寸(见图 2)标明产生的热量一定不会那么高。其次,凭证 CES 展厅的图像,莫得电扇透风口或切口。机箱的正面和后面似乎有一种海绵状的材料,不错提供气流,并可能充任通盘系统的过滤器。由于散热筹商标明功率,功率标明性能,因此 DIGITS 系统可能不是一款为达成最大性能(和功耗)而调遣的尖叫器,而是一款具有优化内存架构的寒冷、酣畅、高效的 AI 桌面系统。

如上所述,该系统相称小。下图提供了一些键盘和清楚器的视角(莫得清楚电缆。凭证咱们的讲明注解,其中一些微型系统可能会因电缆分量而从桌面上拉下来。)

桌面上的东说念主工智能

Nvidia 敷陈称,诞生东说念主员不错运转多达 2000 亿个参数的大型谈话模子,以增强 AI 立异。此外,使用 Nvidia ConnectX 收罗,两台 Project DIGITS AI 超等筹备机不错络续起来,运转多达 4050 亿个参数的模子。借助 Project DIGITS,用户不错使用我方的桌面系统诞生和运转模子推理,然后在加快云或数据中心基础设施上无缝部署模子。

Nvidia 首创东说念主兼首席现实官黄仁勋暗示:“AI 将成为九行八业中每一种诓骗的主流。借助 Project DIGITS,Grace Blackwell 超等芯片将惠及数百万诞生者。将 AI 超等筹备机放在每一位数据科学家、AI 预想东说念主员和学生的桌子上,将使他们大约参与并塑造 AI 时间。”

这些系统不适用于锻真金不怕火,而是筹商用于在腹地运转量化的  LLM(减少模子权重的精度大小)。Nvidia 援用的 1 petaFLOP 性能数字适用于 FP4 精度权重(四位,或 16 个可能的数字)好多模子不错在此级别充分运转,但量化不错增多到 FP8、FP16 或更高,以赢得更好的效果,具体取决于模子的大小和可用内存。举例,对 Llama-3-70B 模子使用 FP8 精度权重需要每个参数一个字节或大要 70GB 的内存。将精度减半到 FP4 会将其减少到 35GB 的内存,但增多到 FP32 将需要 140GB,这比 DIGITS 系统提供的内存还要大。

有东说念主用 HPC 集群吗?

可能不为东说念主所知的是,DIGITS 并不是第一款桌边 Nvidia 系统。2024年,GPTshop.ai推出了一款基于 GH200 的桌边系统。HPCwire提供了包括 HPC 基准测试在内的报说念。与 DIGITS 名堂不同,GPTshop 系统在桌边机箱中提供了 GH200 Grace-Hopper 超等芯片和 GB200 Grace-Blackwell 超等芯片的一齐功能。性能的普及也伴跟着更高的资本。

将 DIGITS 名堂系统用于桌面 HPC 可能是一种意想的轨范。除了运转更大的 AI 模子除外,集成的 CPU-GPU 全局内存对 HPC 诓骗关节也相称有益。请推敲最近HPCwire 的一篇对于仅在英特尔两颗 Xeon 6 Granite Rapids 措置器(无 GPU)上运转的 CFD 诓骗关节的故事。凭证作家 Moritz Lehmann 博士的说法,模拟的促成身分是他大约用于模拟的内存量。

一样,好多 HPC 诓骗关节不得不想方设法绕过常见 PCIe 络续视频卡的小内存域。使用多张卡或 MPI 有助于彭胀诓骗关节,但 HPC 中最有益的身分永远是更多内存。

天然,需要基准测试来细目 DIGITS 名堂是否豪阔适用于桌面 HPC,但还有另一种可能性:“用这些构建一个 Beowulf 集群”。这句话频繁被以为是一个打趣,但对于 DIGITS 名堂来说可能更严肃一些。天然,集群是用干事器和(多个)PCEe 络续的 GPU 卡构建的。可是,一个微型、中等功率、豪阔集成的全局内存 CPU-GPU 可能会成为更均衡、更有诱骗力的集群构建块。还有一个公正:它们依然运转 Linux 并具有内置的 ConnectX 收罗。

本文转自“半导体行业不雅察”微信公众号;智通财经剪辑:陈筱亦。

海量资讯、精确解读,尽在新浪财经APP

株连剪辑:郭明煜 开云体育