增強 AI 性能的測試解決方案

我們提供更廣泛的解決方案來測試人工智能基礎(chǔ)設(shè)施

為人工智能開發(fā)和部署提供端到端支持

二十多年來,Teledyne LeCroy 在數(shù)據(jù)中心人工智能技術(shù)的可靠運行中發(fā)揮著關(guān)鍵作用。我們的測試解決方案用于整個生態(tài)系統(tǒng),包括高性能計算和分析、允許高效移動和訪問數(shù)據(jù)的網(wǎng)絡(luò)以及作為云中冷熱存儲支柱的存儲設(shè)備。我們通過為超大規(guī)模環(huán)境中使用的 PCI Express、CXL、NVMe、千兆以太網(wǎng)和 SAS 等技術(shù)提供專業(yè)的解決方案來實現(xiàn)這一點,這些技術(shù)面向設(shè)計和測試工程師(從早期采用者到系統(tǒng)集成商)。

    人工智能 - 互連

    計算

    人工智能應(yīng)用需要數(shù)據(jù)中心的高性能計算來以高吞吐量和低延遲分析大量數(shù)據(jù),這推動了現(xiàn)代計算機和以數(shù)據(jù)為中心的架構(gòu)的發(fā)展。
    人工智能 - 網(wǎng)絡(luò)

    網(wǎng)絡(luò)

    在機架、數(shù)據(jù)中心和校園內(nèi)移動大量數(shù)據(jù)加速了對更快、更高效的網(wǎng)絡(luò)技術(shù)的追求。
    人工智能 - 存儲

    存儲

    對存儲容量的不斷增長的需求以及從任何地方訪問數(shù)據(jù)的追求推動了云和混合存儲解決方案以及存儲接口技術(shù)的發(fā)展。

    計算 - 互連、處理、數(shù)據(jù)流和內(nèi)存管理

    人工智能變革力量的核心是使這一切成為可能的計算和處理要求。人工智能工作負載推動數(shù)據(jù)中心高性能計算 (HPC) 的轉(zhuǎn)型,每秒提供數(shù)萬億次計算,以驚人的速度和準確性實現(xiàn)圖像識別、自然語言理解和趨勢預測。并行處理系統(tǒng)使人工智能能夠高效地執(zhí)行多任務(wù),反映出人腦的復雜性。

    代表 PCIe/CXL 的 AI 大腦的彩色圖像
    管理記憶和人工智能的頭部彩色圖像

    Teledyne LeCroy Summit 分析器、訓練器、干擾器、插入器和測試系統(tǒng)有助于構(gòu)建和優(yōu)化使用 PCIe 來支持 AI 的更快和更新系統(tǒng)。這些設(shè)備和計算系統(tǒng)使用高速接口將 AI 加速器(例如 GPU 和定制硅片)連接到中央處理器 (CPU)。它的不斷發(fā)展確保 AI 系統(tǒng)始終處于技術(shù)前沿,隨時準備應(yīng)對未來數(shù)據(jù)驅(qū)動世界的挑戰(zhàn)。

    • 可擴展性:PCIe 每一代的帶寬都會翻倍,以滿足 AI 應(yīng)用日益增長的需求。最新的 PCIe 6.0 規(guī)范提供了每針 64 GT/s 的數(shù)據(jù)傳輸速率,確保 AI 系統(tǒng)能夠處理日益復雜的任務(wù)。
    • 多功能:PCIe 的用途非常廣泛,從用于深度學習系統(tǒng)的大型芯片到較小的空間加速器,后者可以擴展以處理需要數(shù)百 petaFLOPS 處理能力的廣泛神經(jīng)網(wǎng)絡(luò)。
    • 能源效率:較新的 PCIe 版本引入了低功耗狀態(tài),有助于提高 AI 系統(tǒng)的能效。這對于可持續(xù)且經(jīng)濟高效的 AI 運營至關(guān)重要。
    • 互聯(lián)性:PCIe 促進了 AI 基礎(chǔ)設(shè)施內(nèi)計算、加速器、網(wǎng)絡(luò)和存儲設(shè)備的互連,從而實現(xiàn)了具有更低功耗和更大覆蓋范圍的高效數(shù)據(jù)中心解決方案。

    CXL 在塑造 AI 格局方面具有重要前景,而 Teledyne LeCroy 解決方案是測試和優(yōu)化當今 CXL 系統(tǒng)的重要方法。使用支持 CXL 測試和合規(guī)性的 Teledyne LeCroy 解決方案,可以實現(xiàn)內(nèi)存效率、延遲減少和性能 - 所有這些都對于保持低延遲和高吞吐量至關(guān)重要。這對于需要快速訪問大型數(shù)據(jù)集的帶寬密集型 AI 工作負載尤其重要。

    • 內(nèi)存容量擴展:CXL 允許將大型內(nèi)存池連接到多個處理器或加速器。這對于處理海量數(shù)據(jù)集的 AI/HPC 應(yīng)用程序至關(guān)重要。
    • 減少延遲:CXL 的低延遲設(shè)計可確保數(shù)據(jù)在計算元素之間快速傳輸。AI/ML 工作負載受益于最小化的等待時間。
    • 互操作性:CXL 促進與供應(yīng)商無關(guān)的兼容性,允許不同的加速器和內(nèi)存模塊無縫協(xié)作。
    • 增強內(nèi)存帶寬:CXL 顯著提高了內(nèi)存帶寬,確保數(shù)據(jù)密集型工作負載能夠無瓶頸地訪問數(shù)據(jù)。

    網(wǎng)絡(luò) - 高速以太網(wǎng)、數(shù)據(jù)吞吐量、結(jié)構(gòu)和網(wǎng)絡(luò)

    最近的大型語言模型(如 Chat GPT)需要通過可擴展網(wǎng)絡(luò)快速訪問來自不同來源的數(shù)億個參數(shù)。為了確保合適的用戶體驗,網(wǎng)絡(luò)必須支持低延遲,并高效傳輸針對這些新工作負載優(yōu)化的數(shù)據(jù)。

    有線連接 AI 基礎(chǔ)設(shè)施
    用于 AI 后端測試的程式化全球網(wǎng)絡(luò)

    以太網(wǎng)支持從 10Mbps 到 800Gbps(千兆位每秒)的數(shù)據(jù)傳輸速率,1.6Tbps(太比特每秒)的速率即將到來。這些速度對于處理人工智能通常使用的海量數(shù)據(jù)集至關(guān)重要。

    • 實時響應(yīng):低延遲對于 AI 系統(tǒng)至關(guān)重要。以太網(wǎng)可最大限度地減少延遲,確保 GPU、CPU 和存儲設(shè)備等組件之間的及時交互。
    • 實時決策:以太網(wǎng)可實現(xiàn)實時人工智能驅(qū)動的決策。其高帶寬可確保人工智能節(jié)點之間的高效通信。
    • 無損網(wǎng)絡(luò):傳統(tǒng)以太網(wǎng)在擁塞時可能會丟包,影響 AI 模型的準確性。然而,新興技術(shù)承諾“無損”傳輸,即使在高負載下也能確保數(shù)據(jù)完整性。
    • 可擴展性:隨著 AI 模型變得越來越復雜,可擴展的基礎(chǔ)設(shè)施變得至關(guān)重要。以太網(wǎng)通過連接其他服務(wù)器和設(shè)備實現(xiàn)無縫擴展。以太網(wǎng)可適應(yīng)其指數(shù)級增長,確保高效的連接和數(shù)據(jù)交換。

    Xena 以太網(wǎng)測試平臺可幫助公司優(yōu)化和確保其 AI 后端網(wǎng)絡(luò)結(jié)構(gòu)的未來發(fā)展,以處理大量時間關(guān)鍵型流量。用于 AI 工作負載的數(shù)據(jù)中心架構(gòu)通常采用脊葉結(jié)構(gòu),通過低延遲 L2/L3 網(wǎng)絡(luò)基礎(chǔ)設(shè)施以 400-800Gbps 端口速度連接數(shù)千個 AI 加速器和存儲解決方案。融合以太網(wǎng)上的 RDMA (RoCE) 是存儲數(shù)據(jù)傳輸協(xié)議的一個有前途的選擇。

    • 數(shù)據(jù)中心橋接 (DCB):促進 RDMA 數(shù)據(jù)包(無損流量)以及常規(guī)盡力流量(有損流量)的高吞吐量、低延遲和零數(shù)據(jù)包丟失傳輸。
    • 優(yōu)先流量控制 (PFC):當緩沖區(qū)填滿超過某個閾值時,通過提示發(fā)送方暫時暫停發(fā)送數(shù)據(jù)包來防止數(shù)據(jù)包丟失。
    • 擁塞通知(CN):RoCEv1 和 RoCEv2 在網(wǎng)絡(luò)設(shè)備之間實現(xiàn)了一種信令,可用于減少無損網(wǎng)絡(luò)中的擁塞蔓延、降低延遲和提高突發(fā)容忍度。
    • 增強流量選擇 (ETS):能夠為每種服務(wù)類別 (CoS) 分配最低保證帶寬。

    存儲 - SSD、數(shù)據(jù)中心、數(shù)據(jù)管理

    AI 存儲解決方案必須快速適應(yīng) AI/ML 工作負載的擴展要求。應(yīng)支持存儲容量和性能的可擴展性,而不會中斷正在進行的操作,并防止過度配置和利用不足。同時支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。存儲基礎(chǔ)設(shè)施的核心是 NVMe、SAS、CXL 等技術(shù),它們與固態(tài)硬盤、旋轉(zhuǎn)介質(zhì)和高帶寬內(nèi)存元件一起使用。

    AI 和 Oakgate SSD 設(shè)備測試
    管理記憶和人工智能的頭部彩色圖像
    AI 頭部和 SAS 盒的彩色圖像

    人工智能和機器學習 (ML) 的出現(xiàn)只會增強對全面固態(tài)存儲設(shè)備 (SSD) 測試的迫切需求。由于人工智能工作負載的計算要求很高,預計人工智能將增加數(shù)據(jù)中心對 SSD 的需求。人工智能應(yīng)用程序會生成和處理大量數(shù)據(jù),因此需要具有高速數(shù)據(jù)訪問和處理能力的存儲解決方案。

    • 更快的數(shù)據(jù)訪問和處理速度:對于處理 AI 任務(wù)中使用的大型數(shù)據(jù)集和復雜算法至關(guān)重要。AI 應(yīng)用程序通常涉及頻繁的讀寫操作,這使得 SSD 的性能和耐用性比傳統(tǒng) HDD 更合適。這種需求可能會推動 SSD 技術(shù)和其他高性能存儲解決方案的創(chuàng)新。
    • 專業(yè)化和多樣化的工作量:可能會有專門針對 AI 應(yīng)用需求的存儲解決方案的需求。這可能包括針對深度學習算法、實時分析或大規(guī)模數(shù)據(jù)處理優(yōu)化的存儲系統(tǒng)。
    • 優(yōu)化存儲系統(tǒng):提高效率、可靠性和性能。這涉及使用機器學習算法來預測存儲使用模式、自動化數(shù)據(jù)分層或改進數(shù)據(jù)壓縮技術(shù)。

    Teledyne LeCroy OakGate 解決方案為新興的 CXL(Compute Express Link)內(nèi)存設(shè)備提供測試功能,這些設(shè)備有望徹底改變數(shù)據(jù)中心,尤其是對于 AI 和機器學習工作負載。使用 CXL 的 AI 平臺需要 CPU 和 GPU、FPGA 和 TPU 等加速器之間進行高速、一致的內(nèi)存訪問,CXL 內(nèi)存設(shè)備將顯著提高數(shù)據(jù)傳輸速度、減少延遲并提高整體系統(tǒng)性能。

    • 功能和性能驗證測試:確保新的 CXL 設(shè)備投放市場時符合標準。
    • 質(zhì)量和合規(guī)性測試:這意味著 AI 模型的訓練和推理時間更快,最終使數(shù)據(jù)中心的機器學習操作更加高效、強大。
    • 訓練和推理時間:在數(shù)據(jù)中心測試人工智能系統(tǒng)以實現(xiàn)更高效、更強大的機器學習操作,并增加不同處理單元之間的一致內(nèi)存訪問,從而促進更復雜、更精密的人工智能算法和工作流程。

    測試串行連接 SCSI (SAS) 對于支持 AI 應(yīng)用程序至關(guān)重要,尤其是在數(shù)據(jù)存儲和檢索方面。通過確保 SAS 系統(tǒng)經(jīng)過全面測試并符合要求,AI 應(yīng)用程序可以從可靠、高速且可擴展的數(shù)據(jù)存儲解決方案中受益,這對于有效的 AI 操作至關(guān)重要。

    • 高速數(shù)據(jù)傳輸:SAS 提供高速數(shù)據(jù)傳輸率,這對于需要快速訪問大型數(shù)據(jù)集的 AI 應(yīng)用至關(guān)重要。這確保了 AI 模型能夠得到高效訓練和部署。
    • 可靠性和冗余:SAS 系統(tǒng)以其可靠性和冗余功能而聞名。這對于 AI 來說很重要,因為它可以確保數(shù)據(jù)始終可用并防止發(fā)生故障。
    • 可擴展性:SAS 支持可擴展存儲解決方案,允許 AI 系統(tǒng)擴展并處理不斷增加的數(shù)據(jù)量,而不會影響性能。
    • 兼容性:SAS 兼容各種存儲設(shè)備和接口,使其能夠靈活適用于不同的 AI 應(yīng)用和環(huán)境。
    • 合規(guī)性測試:SAS 合規(guī)性測試可確保硬件符合性能和可靠性的行業(yè)標準。這對于維護依賴這些存儲解決方案的 AI 系統(tǒng)的完整性至關(guān)重要

    需要幫助或信息?

    我們隨時為您提供幫助,解答您的任何問題。我們期待您的回復