佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

查看: 154|回复: 0

陸騰訊自研深度思考模型混元T1正式發佈:吐字快、能秒回

[复制链接]
发表于 24-3-2025 12:47 PM | 显示全部楼层 |阅读模式

22:022025/03/23 中時新聞網 盧伯華
Facebook

Messenger

Line

Weibo

Twitter

Telegram


大陸網路巨頭騰訊公司正式發佈了自主研製的深度思考模型「混元T1」正式版,這是騰訊自研的最強推理模型,除了吐字快、能秒回,還擅長超長文處理。


《騰訊新聞》報導說,混元T1通過大規模強化學習,並結合數學、邏輯推理、科學和程式碼等理科難題的專項優化,讓混元T1正式版進一步提升了推理能力。

在體現推理模型基礎能力的常見基準上,如大語言模型評估增強數據集MMLU-PRO中,混元T1取得87.2分,僅次於o1。在CEval、AIME、Zebra Logic等中英文知識及競賽級數學、邏輯推理的公開基準測試中,混元T1的成績也達到業界領先推理模型的水平。

此外,混元T1還在多項對齊任務、指令跟隨任務和工具利用任務中展現出了非常強的適應性。混元T1正式版還沿用了混元Turbo S的創新架構,採用Hybrid-Mamba-Transformer融合模式。

報導說,這是工業界首次將混合Mamba架構無損應用於超大型推理模型,有效降低了傳統Transformer結構的計算複雜度,減少了KV-Cache的記憶體佔用,從而顯著降低了訓練和推理成本。

此外,基於出色的長文捕捉能力,混元T1能有效解決長文推理中常見的上下文丟失和長距離資訊依賴問題。同時,混合Mamba架構針對長序列處理進行了專項優化,通過高效的計算方式,在確保長文字資訊捕捉能力的同時大幅降低資源消耗,在相近的啟用參數量下,實現了解碼速度提升2倍。

目前騰訊混元T1已經開放體驗,同時還上線了API:輸入價格為每百萬tokens 1元(人民幣,下同),輸出價格為每百萬tokens 4元。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2023 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 20-5-2025 12:44 AM , Processed in 0.096733 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表