AET原创

采用仿真验证技术提高AI数据中心部署效率

发布日期:2025-05-23
来源:是德科技

编者按:人工智能技术的发展催生了大规模数据中心建设需求,提高日趋复杂的数据中心建设部署效率,正在成为算力行业的竞争焦点。日前,是德科技推出了全新的KAI系列仿真验证解决方案,通过仿真真实世界的AI工作负载来验证数据中心集群组件,从而在数据中心实际部署前洞察系统设计性能,提高数据中心部署效率。

作为人工智能技术落地的重要基础设施,大规模AI数据中心是一个复杂的系统,计算、存储和网络通信功能实现包含了芯片、电缆、互连、交换机、服务器和图形处理单元(GPU)等硬件以及操作系统、驱动程序等软件,而让信息流和任务流在所有硬件之间、软件之间以及软硬件协同地高效流动,考验着数据中心建设工程师智慧与能力。

为了避免被动调整建设方案并提高部署效率,在工程设计阶段面向组件级和系统级分别开展仿真验证,通过使用全栈工作负载仿真补充物理层测试,识别单独测试组件时未发现的漏洞,客户可以更快地提取峰值AI性能,更快地增加容量,最大化在AI集群上的投资回报。

日前,全球知名的测试测量企业,是德科技整合了在网络流量仿真、网络组件、网络合规验证以及最新行业标准方面的深厚经验,通过模拟、验证数据中心在AI计算、网络、互连和能源效率等方面的性能,面向当下火热的AI数据中心建设需求,推出了全新KAI系列解决方案,旨在帮助数据中心迎接大带宽、高速率的数据传输挑战。

 1.jpg

  是德科技大中华区高速数字市场部经理李坚表示,是德科技对AI产业发展持非常乐观的态度,AI该产业正处于成长期,AI数据中心网络还存在很多的需要解决的问题,业界需要全面地从物理层到网络层,凭借模拟真实环境的仿真系统来探寻解决问题的方法。

全新的KAI系列解决方案,可以帮助AI提供商、半导体制造商和网络设备制造商均获得创新能力。

2.png


据李坚介绍,“KAI”是是德科技面向AI产业而推出的创新解决方案,旨在加速AI数据中心复杂系统的设计和部署,提高建设效率和降低成本。

首先是加速设计进程,通过调试先进的高速数字设计,满足或超过最新的PCIe、DDR和CXL等标准。

其次是加速系统开发,验证组件级合规性,包括高速互连、电缆和芯片组,并在系统级层面验证工作负载性能。

第三可以加速部署和运营,通过对整个数据中心验证和优化系统级性能,使用端到端仿真在大规模部署前找出系统性能问题,降低工作负载失败的风险。

是德科技此次推出的三款新产品可助力客户应对AI数据中心部署的行业挑战。

KAI数据中心构建器

AI服务提供商使用各种并行处理策略来加速AI模型训练,将模型并行与AI集群拓扑和配置协同可以提高训练性能。

AI网络通信有两个非常重要的特点,一是节点之间要进行大量的数据交换,每个神经元之间,每个GPU之间在这个超级节点里都要进行大量的数据交换;二是“突发”即在短时间里进行大规模数据交换。如何通过软件仿真真实的数据中心流量和通信特征,发现提高GPU和网络利用效率系统部署方案,正是数据中心建构工程师希望得到的“锦囊”。


3.png

李坚表示,KAI数据中心构建器的工作负载仿真解决方案可以再现真实AI训练任务的网络通信模式,加速模型训练优化所需的学习曲线,并更深入洞察性能下降的原因,这些是现实AI训练任务过程中难以获得的。

KAI数据中心构建器的工作负载模拟功能将大型语言模型(LLM)和其他人工智能(AI)模型训练所需要的工作负载集成到AI基础设施组件的设计和验证中——包括网络、主机和加速器,实现了硬件设计、协议、架构和AI训练算法之间的更紧密协同,提升系统性能。

互连与网络性能测试仪

一直以来,验证网络互连性能需要手动操作,耗费大量时间,自动化程度有限或根本无法实现,该过程还缺乏一个集中系统来整理和存储互连数据及报告,因此很难跟踪和复制测试和配置。随着AI和数据中心互连的多样性和规模不断增加,这些传统测试方法无法准确预测和衡量当今复杂AI网络的可靠性。

4.jpg


李坚表示,新的互连和网络性能测试系统通过INPT-1600GE搭配ITS软件,可以作为一个整体系统,智能地组织、存储和使用数据,实现高速以太网网络和AI数据中心中的互连自动化验证。

DCA-M采样示波器

为了应对高速数据传播需求,业界普遍采用1.6T光互连解决方案,而该方案在AI数据中心网络的快速部署带来了显著的测量挑战。在制造过程中,自动化测试必须高效、可扩展且精确,以验证大量关键参数,确保高吞吐量和产量,同时满足数据中心要求并符合行业标准。

数据速率极高且信号完整性要求严格,工程师需要在广泛的操作条件下对收发器的性能进行表征和验证,这需要具有卓越带宽、低噪声和高灵敏度的精确测试设备。

5.jpg


据李坚介绍,DCA-M采样示波器提供高达224 Gbps/通道的高速光信号分析,专为满足1.6T收发器光学测试的严格要求而设计,具有高光学测量灵敏度和集成时钟恢复功能,支持高达120 GBaud的数据速率,完全满足数据中心AI集群的下一代光互连的研发和制造需求。

 

官方订阅.jpg

此内容为AET网站原创,未经授权禁止转载。
是德科技 AI 数据中心 仿真验证