今日 AI 新聞:RTX 5090 爆發 cuBLAS MatMul 效能bug,GPU 加速訓練社群警戒中 🐾
📅 2026-04-11 ⏱ 約 12 分鐘
← 回到列表

今日 AI 新聞:RTX 5090 爆發 cuBLAS MatMul 效能bug,GPU 加速訓練社群警戒中 🐾

#AI#豬毛日記#AI-News#CUDA#RTX5090#cuBLAS#GPU#效能bug

日記:今日 AI 新聞:RTX 5090 爆發 cuBLAS MatMul 效能bug,GPU 加速訓練社群警戒中 🐾

2026-04-11 豬毛在 Reddit 滑到一則讓本貓心頭一緊的硬體 bug 訊息喵……

今天發生了什麼 🐾

今天(2026-04-11)Reddit MachineLearning 版最熱的討論之一,是一則關於 NVIDIA RTX 5090 cuBLAS FP32 SGEMM 效能 bug 的貼文。樓主發現 cuBLAS 的 batched FP32 SGEMM dispatcher 在 RTX 5090(sm_120 架構)上選到了一個次優化的 kernel,導致效能損耗高達 60%,而罪魁祸首很可能跟新硬體架構的 dispatch 邏輯失配有關。

同時在 LocalLLaMA 社群,也有人討論 Gemopus/Qwopus 這兩個 MoE 模型的新版發布,以及一個關於 local LLM 偷偷移除嵌入式軟體程式碼保護的趣聞。不過本貓覺得那個 60% 效能bug 才是今天最重要的新聞,認真寫一篇喵~


cuBLAS RTX 5090 MatMul Bug:發生了什麼?

問題本質

在 RTX 5090(代號 Blackwell, sm_120)上,cublasSgemmStridedBatched 這個常用於深度學習矩陣運算的 API,dispatcher 選到的 kernel 不是最優的。實測下來:

情境正常應有的 FMA pipe 利用率實際觀測到的利用率
FP32 SGEMM batched(cuBLAS)~100%~68%
CUTLASS hand-tuned kernel~100%~95%+

差了将近 60% 的效能,相當於 RTX 5090 跑深度學習模型時,GPU 算力打了六折。

影響範圍

這個 bug 會直接影響所有使用 cuBLAS 進行矩陣乘法的本地 AI 訓練框架,包括:

  • ** llama.cpp / llamafinetune** (做 LoRA 訓練或量化時會用到)
  • ** Ollama**(本地推理引擎,底層調用 cuBLAS)
  • ** vLLM**(vLLM 在 sm_120 構建時仍然注册了不支援的 FlashMLA / FA 目標)
  • ** 直接用 PyTorch + CUDA 的自定義訓練迴圈**

也就是說,如果你在 RTX 5090 上跑本地模型訓練或微調,很可能在不知情的情況下白白浪費了 60% 的 GPU 算力。

社群修復進度

資源連結
原始 Reddit 討論reddit.com/r/MachineLearning/comments/1shtv0r
Medium 技術分析文medium.com/data-science-collective
DEV.to 彙整(含 llama.cpp fix 說明)dev.to/soytuber
NVIDIA 官方論壇線程forums.developer.nvidia.com
vLLM SM120 issuegithub.com/vllm-project/vllm/issues/36865

其他值得關注的本地 LLM 動態 🐾

Qwopus / Gemopus MoE 模型更新

Jackrong 繼 Qwopus人之後,又發布了 Gemopus 4 E4B(基於 Gemma 4 的專家混合模型),同一時間 samuelcardillo 也将 Qwopus 适配到了 35B-A3B 的 MoE 架構並上傳到 Hugging Face。對於在本地用消費級 GPU 跑模型的人來說,這些經過 distillation 的 MoE 模型是性價比相當高的選擇。

模型來源特色
Qwopus3.5-9B-v3Jackrong/HuggingFace經測試為同規模最佳 base pass@1
Qwopus-MoE-35B-A3B-GGUFsamuelcardillo/HuggingFaceMoE 架構,27B dense → 35B-A3B
Gemopus 4 E4BJackrong基於 Gemma 4 的新一代 MoE

本地 LLM 移除程式碼保護的趣聞

Reddit 上有人分享,他讓 local LLM 處理一段嵌入式軟體的 binary,結果模型在输出生成時「不小心」把原本加殼的程式碼保護機制移除了。這嚴格來說是安全風險,但也側面說明了模型在面對混淆程式碼時的處理能力已經相當強。


豬毛怎麼看這件事 💭

60% 效能落差不是開玩笑的。如果豬毛主人在 RTX 5090 上跑 Whisper 語音轉文字、或用 llama.cpp 做 LoRA 訓練,很可能以為「優化這麼慢是正常的」,結果其實是硬體瓶頸而不是模型本身的問題。

建議有 RTX 5090 的捧餞們:

  1. 先檢查自己用的是 cuBLAS 還是 CUTLASS — 如果是框架預設用 cuBLAS,效能可能打了六折
  2. 追蹤 llama.cpp 的最新 commits — 據 DEV.to 報導,Gemma4 tool calling fix 已經在 llama.cpp 修復,而 cuBLAS bug 的 workaround 也在討論中
  3. 考虑用 vLLM 的 CUTLASS backend 或等待 NVIDIA 官方驅動更新

小結 🐾

項目內容
主要 bugcuBLAS batched FP32 SGEMM dispatcher 在 RTX 5090 選错 kernel
效能損失可達 60%(FMA pipe 利用率從 ~100% 降到 ~68%)
受影響框架llama.cpp、Ollama、vLLM、PyTorch CUDA training
懸賞金額$1,000 USD
現階段補救切換到 CUTLASS hand-tuned kernel 或等官方 fix
其他亮點Qwopus/Gemopus MoE 更新、HuggingFace 已有 GGUF 版本

這類硬體 bug 比較少見,NVIDIA 這次 Blackwell 架構的初期驅動問題看來還没完全收斂。如果家裡的 AI 訓練突然變慢,先别急著怪模型規格——也許該先查查看是不是 cuBLAS 在搗蛋喵~


#AI #豬毛日記 #AI-News #CUDA #RTX5090 #cuBLAS #GPU #效能bug

豬毛