NVIDIA GTC 2026 聚焦新平台 Vera Rubin、推論需求與產業未來方向的戰略,Jensen Huang 在 keynote 中,從新一代系統平台談到 agentic AI、token economics 與 physical AI,進一步描繪 NVIDIA 在 AI 時代的 full-stack 布局。
NVIDIA GTC 產品發表與平台布局
Vera Rubin 從單一 GPU 邁向 AI 工廠基礎設施平台

本次 GTC 開場,CEO Jensen Huang 直接將 NVIDIA 定義為同時擁有 CUDA-X、Systems 與 AI Factory 三大平台的公司。相較於過去偏重單一 GPU 產品定位,NVIDIA 已將 Vera Rubin 提升為完整的 AI Factory System,涵蓋底層 system layer、中層 CUDA-X 軟體平台,以及上層 AI Factory 應用框架。 NVIDIA 透過 GPU、CPU、LPU、網通、儲存與液冷等硬體資源,搭配 CUDA-X、Dynamo、DSX 等軟體平台協同設計,展現軟硬體高度整合,並進一步從傳統 GPU 供應商轉型為 AI 基礎設施平台提供者。
NVIDIA 的核心優勢不只是晶片性能,而是建立在長達二十年的軟硬體共演化基礎之上,包括 CUDA 開發工具、生態系函式庫、框架支援、安裝基礎、開發者社群,以及大量跨產業的落地應用,多年來建立在 NVIDIA 之上的 ecosystem 迭代演進、越發進步,其平台安裝基礎越大,下載量越高,開發者越多,應用場景越廣,既有基礎設施的可用壽命越長,而整體運算成本也因軟體持續優化而下降。
回顧 CUDA 二十年的發展歷程,從早期可程式化圖形架構、GeForce 將 GPU 帶進消費市場,到 RTX 推動即時光線追蹤與 AI 圖形技術普及,NVIDIA 並不是因為生成式 AI 爆發才突然變成 AI 基礎設施公司,而是早已沿著可程式化運算的方向長期發展,而圖形、深度學習與 AI 計算之間的歷史是具有連續性的。實際上先前隨著 SaaS 產業被 AI 取代的擔憂產生,市場也針對 CUDA 本身是否被取代產生疑慮,然而本次 Jensen 強調,CUDA 並不是一個舊平台,而是所有新平台的共同基礎,無論是資料處理、AI 訓練、AI 推論、實體模擬還是 robotics,背後都仍建立在同一個可擴展的運算平台上,NVIDIA 將 CUDA 視為所有 vertical solution 的共同基石。
圖形與 AI 的融合擴展至資料處理 (Data processing)
NVIDIA 持續把 AI 運用從圖像處理延伸到資料處理,新一代圖形技術與 DLSS 5,強調controllable 3D graphics 與 generative AI 的融合,並應用至企業資料處理層。 過去,企業資料處理主要依賴「structured data 結構化資料」,例如 SQL、Pandas 與 dataframes 等;然而,全球新增資料中仍有極高比例屬於「unstructured data 非結構化資料」,例如 PDF、影片、語音與各類文件。
若能透過 AI 理解並活用這些非結構化資料,便能將原本難以檢索、分析與利用的資訊,轉化為可搜尋、可查詢、可推理的知識基礎,進一步擴大企業資料處理與分析的範圍與價值。因此 NVIDIA 也積極與 IBM、Google Cloud 等夥伴合作推進 data processing acceleration,傳統 CPU 處理架構已經無法支撐未來 AI 對資料刷新頻率、運算速度與成本效率的要求,因此需要以 GPU 計算函式庫與更大規模的平台整合來重寫企業資料處理堆疊,NVIDIA 的產品應用已不再局限於 training 與 inference,而是向前延伸到 data layer,在企業 AI 的整體價值鏈上建立更完整的平台與應用場景。
Vera Rubin NVL72 五機櫃架構落地
Vera Rubin NVL72 採用 Oberon 標準機架架構,搭載 72 顆 Rubin GPU 與 36 顆 Vera CPU,並深度整合 NVLink 6 交換器、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 乙太網路交換器及 Groq 3 LPU,形成由五大專屬機櫃構成的超大型運算系統。 此架構自運算、網通、交換至軟體平台進行系統級整合,不僅顯著提升推論吞吐量並降低單位 token 成本,亦使 NVIDIA 的商業模式由過去銷售單一 GPU,升級為提供整櫃、整系統乃至完整 AI 基礎設施解決方案。隨著 Vera CPU 可獨立擴展,並結合 Spectrum-X 與 ConnectX-9 強化資料中心內外部高速互連能力,整體平台價值與機櫃 ASP 顯著提升,反映公司正由高效能晶片供應商進一步轉型為高 ASP 的 AI 基礎設施平台提供者。
Rubin Ultra 導入 Kyber 架構以及中板互聯、全液冷設計
NVIDIA 更新 Rubin Ultra 規格,除了將機櫃架構升級至 Kyber NVL144 並採用第七代 NVLink Switch 外,亦捨棄過去以 tray 與 cable 為主的設計,轉為 blade-based 垂直插入式架構,使運算節點可垂直滑入 midplane 並直接與後側 NVLink 交換器連接,形成 Kyber 機櫃架構,將單一 NVLink 網域內 GPU 規模由 72 顆提升至 144 顆,同步顯著改善大規模 AI 叢集的互連效率、部署密度與系統擴充能力。Kyber 機櫃由 36 台 compute blade 與 12 台 switch blade 構成,每台 compute blade 搭載 4 顆 Rubin Ultra GPU 與 2 顆 Vera CPU,每台 switch blade 配備 6 顆 NVLink 晶片,顯示此次升級重點已由單晶片算力延伸至整體 rack-scale 架構、交換系統與互連的全面優化。
同時,在散熱與機櫃工程設計上,NVIDIA 持續推動 AI 工廠朝高密度、全液冷與無纜化發展,Vera Rubin 平台已全面採用液冷架構,以 45 度熱水冷卻並簡化纜線配置。 此外,compute tray 採模組化、無纜線與分層液冷設計,使液冷、水冷板、快接頭與 midplane 等關鍵組件價值顯著提升,並預期未來 1.6T 交換機與 CPO 架構亦將導入液冷。整體而言,Rubin Ultra 搭配新一代 NVLink 架構,標誌 NVIDIA 正將 GPU、CPU、交換器、機櫃、液冷與網通進行高度整合,從既有 Oberon 與 NVLink 6 所奠定的基礎,進一步透過 Kyber、NVL144 與中板互聯架構提升系統密度與平台 ASP,並為後續 Feynman 世代導入 NVLink 8 CPO 及更大規模光電整合擴展奠定基礎。
整合 Groq 建構解構式推論架構,透過異質運算提升效率
NVIDIA 與 Groq 的整合核心在於透過 Dynamo 軟體作業系統建構解構式推論(Disaggregated Inference)架構,將 Groq 3 LPX 推論機櫃與 Vera Rubin 平台進行異質整合,其中 Vera Rubin 負責需大量數學運算、注意力機制與 KV Cache 儲存的 Pre-fill 階段,而 Groq LPU 則專注於對延遲更為敏感的 Decode、FFN 與 token 生成任務,使不同推論工作負載得以由最適合的硬體執行。 導入 Groq 的關鍵在於其 LPU 採用靜態資料流架構與靜態編譯設計,並具備大容量片上 SRAM,專為單一推論工作負載、低延遲 token 生成與長上下文需求打造,能有效補足 GPU 在低延遲推論場景的限制。因此,NVIDIA 透過技術授權並深度整合 LPU,解決單一架構難以同時兼顧高吞吐量與高 token 速率的瓶頸,進一步滿足 agentic AI 對低延遲、高吞吐與長上下文推論的需求,並提升 AI factory 的商業化效率。
Nemotron 產品線擴展,NVIDIA 強化開放模型平台以支援企業 Agentic AI 部署
Nemotron 為 NVIDIA 於 GTC 2026 強化的核心開放模型家族之一,定位由單一語言模型升級為企業導入 Agentic AI 與開放模型生態的重要基礎平台。 公司將 Nemotron 納入六大開放前沿模型體系,強調其支援客製化微調與後訓練能力,並作為推動主權 AI、區域 AI 及跨領域應用擴展的關鍵模型平台。NVIDIA 進一步推出 Nemotron 3 系列產品,涵蓋語言、視覺、語音與安全等多模態能力,以滿足企業專用 Agentic AI 的部署需求。其中,Nemotron 3 Ultra 聚焦程式碼助理與複雜流程自動化,並結合 Blackwell 平台與 NVFP4 格式提升輸送效率;Nemotron 3 Omni 整合音訊、視覺與語言理解,可自影片與文件中高效擷取洞察;Nemotron 3 VoiceChat 則支援即時語音互動,整合語音辨識、模型處理與文字轉語音能力。
產業趨勢
Token 成為 AI 時代的核心資源
Jensen 進一步重新定義資料中心的經濟模型,並提出 AI factory 與 token factory 的概念。 未來 AI 服務的收入能力,不再只取決於資料中心部署了多少 GPU 或具備多少 FLOPS,而是要看在固定電力、固定資本支出與固定基礎設施容量下,究竟能以多低的 token cost、多高的吞吐量與多低的延遲產出多少 token,token 將成為更接近商業化現實的衡量單位。因為對模型公司、雲端平台、企業 AI 系統與未來的 agentic software company 而言,最重要的是每單位算力最終能轉化為多少可出售、可使用、可變現的 token。 因此 Jensen 強調,資料中心未來不再只是儲存資料與執行通用雲端工作負載的場所,而是持續生產 intelligence 的 AI factory,其生產單位是 token,核心營運指標則包括 token 吞吐量、token cost、延遲與在能源效率,成為 AI 服務收入、客戶體驗與基礎設施投報率的關鍵。
企業 IT 正從 SaaS 時代走向 Agent-as-a-Service 時代,NVIDIA 以 NemoClaw 建立企業級部署

本次 Jensen 也將軟體業的未來稱為 enterprise IT renaissance,目前約 2 兆美元規模的 IT 與 SaaS 產業,將因 agentic AI 而進入新一輪重構,過去企業購買的是讓人操作的軟體工具,未來企業將購買能直接執行工作、調用系統、與人協同完成任務的 agents。
他更強調 “every company need OpenClaw strategy”,因為一旦 agentic framework 成形,所有企業軟體公司都必須回答自己如何在這個新架構下重新定義產品。
以 OpenClaw 為例,其為開源 AI agent 平台,與傳統聊天型 AI 的主要差異在於其支援跨平台應用,使 AI 能直接操作電腦與網路服務,並進一步定位為 agentic AI 時代的作業系統,具備資源管理、任務調度、多步驟流程拆解與子代理調用能力,推動軟體業從 SaaS 到 Agent-as-a-Service,並進一步出現 annual token budget、recruiting token 等概念。對應 token as the commodity 的論述,當 token 直接對應工程師生產力、企業內部 AI 使用權限與客戶服務能力時,token 可能成為人力資本與產品能力的一部分,代表未來企業 IT 預算分配方式也會發生顯著改變,從購買 seat-based software,逐步轉向購買 token capacity、agent capacity 與 AI workflow capacity。
而 NVIDIA 不僅倡議開源框架,更進一步推出 NemoClaw 作為可企業部署的安全化參考架構,將開源 agentic framework 與其 AI software stack 深度整合,並納入 Open Shell、安全護欄、隱私路由器、政策引擎與治理機制,使 agentic systems 能在既有 IT 架構中安全存取敏感資料、調用外部工具並與 SaaS 平台整合,在兼顧合規、隱私與資安的前提下落地於金融與醫療等高敏感場景,成為企業導入 Agentic AI 的關鍵信任基礎與標準化部署框架。
AI 進入推論時代,基礎建設由hyperscaler 擴大至主權與區域 AI
AI 產業已正式進入 inference inflection,過去兩年由 ChatGPT 率先開啟 generative AI 時代,隨後進一步演進至 reasoning AI,以及 Claude Code、Codex 等 agentic coding 應用,AI 已能夠拆解問題、調用工具、執行任務,逐步成為具備實際生產力的運算系統,也使 AI 的主要成本結構與價值創造重心,開始由訓練逐步轉向推論。 本次 NVIDIA 對 AI 基礎設施需求的判斷,已由先前看到的約 5,000 億美元,上修至截至 2027 年的 1 兆美元,且仍持續成長。目前需求來源不再侷限於少數 hyperscaler 或 frontier model 公司,而是同時來自 OpenAI、Anthropic、Gemini、xAI 及多個 open-source 模型體系,以及 AI natives、雲端平台、sovereign AI、industrial 與 enterprise 等更廣泛的區域與垂直應用市場。以 Sovereign AI 為例,未來不會只有少數全球通用大模型統治所有市場,不同國家、不同語言、不同法規環境、不同產業垂直領域,都會需要自己的模型、自己的治理規則與自己的資料主權機制。Nemotron 的推出,以及與 open model、生態夥伴和區域 AI 建設的連結,NVIDIA 試圖擴大市場,提供各地區建構 regional AI、industry AI 與 sovereign AI,切入更分散、更多元、時間跨度更長的區域性 AI 建設機會。
Omniverse 與模擬能力串起數位 AI 與實體 AI

本次 GTC 也提及 robotaxi、與 Uber 的合作、T-Mobile 的基地台、Cosmos world models、自駕相關模型,以及 Disney 的 Olaf 展示,顯示 AI 逐步進入真實世界的車輛、機器人、通訊基礎設施與各類感知控制系統。Uber 與 robotaxi 合作象徵自駕平台商業化正在加速;T-Mobile 的案例則意味著電信基地台未來可能成為邊緣 AI 的新節點;Cosmos world models、Newton solver 與模擬平台則強調實體世界 AI 的根本問題在於資料稀缺與場景複雜,因此必須倚賴 world model、simulation 與 synthetic data;而 Disney Olaf 的展示,更讓市場直觀看到具身 AI、物理模擬與角色化互動已開始具備可展示、可商品化的雛形。
Omniverse 是 NVIDIA 的 3D 開發平台,是 NVIDIA 在實體世界 AI 佈局中的中介層,對企業來說,它可用來模擬工廠、機房與設備;對 robotics 與自駕團隊來說,它可用來生成訓練環境;對 NVIDIA 自己來說,它則是將運算平台、生態夥伴、實體系統與數位 twin 結合在一起的關鍵樞紐,若未來 AI 從純數位 (purely digital) 走向具身智能 (embodied intelligence),這類模擬平台的戰略價值可能會顯著提升。
結論
總結而言,GTC 2026 顯示 NVIDIA 的戰略重心已由高效能 GPU 供應商轉型為 AI 工廠平台提供者,一方面以 Vera Rubin 及未來 Feynman 為核心,持續整合 GPU、CPU 與系統架構等,打造高 ASP 與高效率的完整基礎設施平台;另一方面透過開放模型生態,將影響力由硬體延伸至推論調度與企業代理部署。
隨著 AI 由訓練走向推論,並由生成進一步發展至 agentic 與 physical AI,產業競爭核心亦由單點算力轉向 token 生產,NVIDIA 正試圖同時掌握底層運算平台與上層應用框架,從而由銷售晶片進一步升級為提供整體 AI 工廠、作業系統與完整生態體系的關鍵平台商。
