来源:雪球App,作者: 莫奈的太阳,(https://xueqiu.com/3818451315/316859267)
关注下超以太网联盟内的公司UEC 是联合开发基金会项目有限责任公司系列,是 Linux 基金会的附属机构。创始成员包括 AMD、Arista、$博通(AVGO)$ Broadcom、思科、Eviden(Atos 旗下业务)、HPE、英特尔、Meta、微软。更多信息请访问 ultraethernet.org国内的 阿里巴巴 H3C$紫光股份(SZ000938)$ 中兴 华为 联想 腾讯 等大厂都在里面。AI 系统通常部署在具有从发送方到接收方的多条路径的网络拓扑上。同时高效地使用这条昂贵高速公路的所有车道至关重要。为了实现这一点,需要使用数据包喷洒、灵活排序和优化的拥塞控制算法来实现可扩展且高效的远程内存访问。此外,新的端到端遥测、可扩展安全性和 AI 优化 API 对于针对未来密集 AI 计算的独特通信需求进行优化的网络至关重要。 UEC 协议还旨在支持现代 HPC 工作负载,利用上述相同的传输机制,同时保留广泛使用的 API,例如 MPI 和 PGAS。UEC 的创始成员包括当今许多最大的 AI 和 HPC 网络的供应商和运营商。UEC 的努力利用了其成员多年来构建和运营这些网络的经验。即将发布的 UEC 草案规范将开放使用,作为 AI 和 HPC 网络的可互操作基础。UEC 正在开发的技术将产生持久影响,提高未来要求苛刻的 AI 和 HPC 应用程序的性能、易用性和成本。有关更多信息,请访问 网页链接。关于超级以太网联盟超级以太网联盟将公司聚集在一起,在互操作性方面进行全行业的合作,并构建一个完整的基于以太网的通信堆栈架构,以最好地匹配快速发展的 AI/HPC 工作负载,并提供一流的功能、性能、互操作性和 TCO 以及开发人员和最终用户的友好性。现代 AI 工作对网络的需求网络对于高效且经济地训练 AI 模型越来越重要。大型语言模型 (LLM)(例如 GPT-3、Chinchilla 和 PALM)以及推荐系统(例如 DLRM 和 DHEN)在数千个 GPU 的集群上进行训练。训练包括频繁的计算和通信阶段,其中训练的下一阶段的启动取决于整个 GPU 套件的通信阶段的完成。最后到达的消息决定了所有 GPU 的进度。此尾部延迟(以通信阶段最后一条消息的到达时间为衡量标准)是系统性能的关键指标。大型模型的参数数量、嵌入表条目和上下文缓冲区的字数的大小持续增加。例如,在 2020 年,GPT-3 是最先进的,拥有 1750 亿个参数。最近,GPT-4 模型宣布拥有预计一万亿个参数,而 DLRM 拥有数万亿个参数,预计还会增长。这些越来越大的模型需要越来越大的集群进行训练,并在网络上传递更大的消息。当网络性能不佳时,这些昂贵的集群就无法得到充分利用。连接这些计算资源的网络必须尽可能高效且经济高效。高性能计算 (HPC) 作业同样要求很高,而且在规模和高效利用分布式计算资源方面,HPC 和 AI 的需求越来越趋同。虽然 AI 工作负载通常极其耗费带宽,但 HPC 还包括对延迟更敏感的工作负载。以太网的优势目前,许多大型集群(包括用于 AI 训练的 GPU 的超大规模部署)已经在基于以太网的 IP 网络上运行,并利用了其诸多优势:● 由众多参与方组成的广泛的多供应商互操作以太网交换机、NIC、电缆、收发器、光纤、管理工具和软件生态系统● 经过验证的 IP 网络寻址和路由规模,支持机架规模、建筑规模和数据中心规模的网络● 用于测试、测量、部署和高效运行以太网网络的一系列工具● 通过竞争性生态系统和规模经济降低成本的经过验证的历史● IEEE 以太网标准已证明能够在多个物理层和光学层上快速、有规律地发展我们预计这些优势将成为必备条件,并且以太网将在未来越来越多地主导各种规模的 AI 和 HPC 工作负载