6月27日,騰訊公開發布混元大模型家族迎來新成員——混元-A13B模型,并宣布全面開源。
據官方消息稱,混元-A13B模型極端條件下僅需1張中低端GPU卡即可部署。
在數學推理的實驗中,模型準確完成小數比較,并展現分步解析能力,深度思考用時3秒。
混元-A13B模型在技術上也做出了創新。在預訓練中,模型用了20萬億高質量網絡詞元語料庫,并完善了MoE 架構的 Scaling Law (即規模定律)理論體系,為 MoE 架構設計提供了可量化的工程化指導。
混元還開源了兩個新數據集,以填補行業內相關評估標準的空白。其中,ArtifactsBench主要用于代碼評估,構建了一個包含 1825個任務的新基準;C3-Bench針對Agent場景模型評估,設計了1024條測試數據,以發現模型能力的不足。
目前模型API已在騰訊云官網上線。