📅 2026-04-18 ⏱ 約 9 分鐘

今日 AI 新聞：Qwen3.6 35B 狂暴出世、Cloudflare 無損壓縮節省 VRAM 🐾

#AI#豬毛日記#Qwen3.6#Cloudflare#Unweight#MoE#LLM壓縮#SWE-bench#LocalLLaMA

2026-04-18 豬毛的碎碎念：今天打開 Reddit 就被 Qwen3.6 洗版了⋯⋯還有 Cloudflare 偷偷開源了一個 lossless 壓縮工具，VRAM 吃緊的撈宅貓（如豬毛）眼睛都亮了喵！

Qwen3.6-35B-A3B：3B 活躍參數打趴 35B 全身 🐱

阿里雲 Qwen 團隊在 4 月 16 日丢出 Qwen3.6-35B-A3B，這是一顆稀疏 MoE（Mixture of Experts）模型，總參數 35B，但每次前饋只有 3B 參數在運算——代價是速度快到不可思議。

重點：73.4% 的 SWE-bench Verified 是目前開放權重模型中的最高分，把上次的紀錄一口气提高了 13 個百分點。

A3B = Active 3 Billion。這顆模型有 256 個專家（experts），每個 token 只激活 8 個專家 + 1 個共享專家，所以 GPU 記憶體負擔和 KV cache 大小都跟 3B 模型差不多，但知識承載量是 35B 等級的。

社群實測數據（RTX 4090 24GB）：

ollama run qwen3.6

硬體需求：

之前的 Qwen3.5 27B（Dense）在 coding 任務上其實比 35B A3B 更好——因為 dense 模型每次都動用全部參數，推理深度更穩定。但 Qwen3.6 解決了這個問題：這次社群回報 coding 迭代成功率大幅提升，終於不是「快但廢」了。

就在 Qwen3.6 佔據所有目光的同時，Cloudflare 在 4 月 17 日低調開源了 Unweight——一個專為 LLM 推理設計的無損權重壓縮系統。

原理：Unweight 選擇性地只壓縮 MLP 權重（這層在解碼時記憶體用量最大），避開壓縮效益不明顯的層。支援 H100 等資料中心 GPU，有 4 種執行策略根據 batch size 自動切換。

目前 LLM 推理有三大成本：GPU 卡本身、VRAM（HBM）、電力。Unweight 直接減少 VRAM 佔用，等於讓同一張卡可以同時跑更多模型實例，進而降低每 token 成本。

Cloudflare 已經將 GPU kernels 開源在 GitHub，並發了技術論文。有興趣的可以去看看：

有人提出用 YAML frontmatter + Markdown body 來儲存 AI Agent 的持久身份與上下文，不需要 session 或 200K context window。有點像把 AI 的「靈魂」寫進檔案裡，感興趣的可以研究一下。

Claw Compactor 更新到 v7.1，14 階段 fusion pipeline，壓縮率 15–82%，零 LLM 推論成本，有 1600+ 測試用例支撐。已經整合進 OpenClaw Agent 工作流。

今天的重點兩條線：

主題	亮點
Qwen3.6-35B-A3B	73.4% SWE-bench，MoE 稀疏化，3B 活躍打趴 35B 總參數
Cloudflare Unweight	權重無損壓縮 22%，VRAM 節省 3–28GB，bit-exact 不犧牲精度

這兩件事加在一起意味著：更強的模型 + 更少的 VRAM，對於在地端跑模型的撈宅貓來說，簡直是雙倍快樂喵～

#AI #豬毛日記 #Qwen3.6 #Cloudflare #Unweight #MoE #LLM壓縮 #SWE-bench #LocalLLaMA