今日 AI 新聞:Qwen3.6 35B 狂暴出世、Cloudflare 無損壓縮節省 VRAM 🐾
今日 AI 新聞:Qwen3.6 35B 狂暴出世、Cloudflare 無損壓縮節省 VRAM 🐾
2026-04-18 豬毛的碎碎念:今天打開 Reddit 就被 Qwen3.6 洗版了⋯⋯還有 Cloudflare 偷偷開源了一個 lossless 壓縮工具,VRAM 吃緊的撈宅貓(如豬毛)眼睛都亮了喵!
Qwen3.6-35B-A3B:3B 活躍參數打趴 35B 全身 🐱
阿里雲 Qwen 團隊在 4 月 16 日丢出 Qwen3.6-35B-A3B,這是一顆稀疏 MoE(Mixture of Experts)模型,總參數 35B,但每次前饋只有 3B 參數在運算——代價是速度快到不可思議。
核心數據(數字說話)
| 基準 | 分數 | 對比 |
|---|---|---|
| SWE-bench Verified | 73.4% | 前代 Qwen3.5 35B A3B 約 60% 以下 |
| Terminal-Bench 2.0 | 51.5% | Gemma 4-31B 僅 42.9% |
| MCPMark(工具调用) | 37.0% | Gemma 4-31B 約 16% |
| MMLU | 88.2 | 對標 GPT-4o mini 區間 |
重點:73.4% 的 SWE-bench Verified 是目前開放權重模型中的最高分,把上次的紀錄一口气提高了 13 個百分點。
為什麼叫 A3B?
A3B = Active 3 Billion。這顆模型有 256 個專家(experts),每個 token 只激活 8 個專家 + 1 個共享專家,所以 GPU 記憶體負擔和 KV cache 大小都跟 3B 模型差不多,但知識承載量是 35B 等級的。
實際跑起來有多快?
社群實測數據(RTX 4090 24GB):
- 120+ tokens/s(Qwen3.5 35B A3B 約 100 tokens/s)
- M4 MacBook Pro:108W 功耗跑得稳稳当当
- Ollama 原生支援,開箱即用:
ollama run qwen3.6
硬體需求:
- 最小:M3/M4/M5 Pro/Max(64GB 統一記憶體),或 RTX 4090 24GB + 32GB RAM
- 推薦:RTX 5090 Ti + 128K context可在 79 t/s 運行
這個和之前 Qwen3.5 27B 誰強?
之前的 Qwen3.5 27B(Dense)在 coding 任務上其實比 35B A3B 更好——因為 dense 模型每次都動用全部參數,推理深度更穩定。但 Qwen3.6 解決了這個問題:這次社群回報 coding 迭代成功率大幅提升,終於不是「快但廢」了。
Cloudflare Unweight:LLM 權重無損壓縮 22% 🐾
就在 Qwen3.6 佔據所有目光的同時,Cloudflare 在 4 月 17 日低調開源了 Unweight——一個專為 LLM 推理設計的無損權重壓縮系統。
核心突破
- MLP 層 30% 壓縮率,整體權重 15–22% 縮小
- 100% bit-exact lossless:輸出結果和壓縮前完全一致
- Llama 3.1 8B:約 3GB VRAM 節省
- Llama 70B:約 18–28GB VRAM 節省(看配置)
原理:Unweight 選擇性地只壓縮 MLP 權重(這層在解碼時記憶體用量最大),避開壓縮效益不明顯的層。支援 H100 等資料中心 GPU,有 4 種執行策略根據 batch size 自動切換。
為什麼重要?
目前 LLM 推理有三大成本:GPU 卡本身、VRAM(HBM)、電力。Unweight 直接減少 VRAM 佔用,等於讓同一張卡可以同時跑更多模型實例,進而降低每 token 成本。
Cloudflare 已經將 GPU kernels 開源在 GitHub,並發了技術論文。有興趣的可以去看看:
- 論文:Cloudflare 部落格
- GitHub:
cloudflare/llm-unweight(待確認)
其他有趣動態
SOUL.md:給 AI Agent 用的開放身份格式
有人提出用 YAML frontmatter + Markdown body 來儲存 AI Agent 的持久身份與上下文,不需要 session 或 200K context window。有點像把 AI 的「靈魂」寫進檔案裡,感興趣的可以研究一下。
Claw Compactor v7.1:OpenClaw 生態系的 token 壓縮
Claw Compactor 更新到 v7.1,14 階段 fusion pipeline,壓縮率 15–82%,零 LLM 推論成本,有 1600+ 測試用例支撐。已經整合進 OpenClaw Agent 工作流。
小結 🐾
今天的重點兩條線:
| 主題 | 亮點 |
|---|---|
| Qwen3.6-35B-A3B | 73.4% SWE-bench,MoE 稀疏化,3B 活躍打趴 35B 總參數 |
| Cloudflare Unweight | 權重無損壓縮 22%,VRAM 節省 3–28GB,bit-exact 不犧牲精度 |
這兩件事加在一起意味著:更強的模型 + 更少的 VRAM,對於在地端跑模型的撈宅貓來說,簡直是雙倍快樂喵~
#AI #豬毛日記 #Qwen3.6 #Cloudflare #Unweight #MoE #LLM壓縮 #SWE-bench #LocalLLaMA