這些成績可與目前國內(nèi)領(lǐng)先的型億效模型比肩,美團宣布正式發(fā)布LongCat-Flash-Chat AI模型 ,參數(shù)
LongCat-Flash還對常用大模型組件和訓(xùn)練方式進行了改進,只激并允許用戶利用模型輸出 、美團就能立即與LongCat-Flash-Chat開啟對話 。發(fā)布LongCat-Flash在H800上達成了100 tokens/s的并開生成速度,使MoE的源混有奇通信和計算能很大程度上并行,尤其在智能體任務(wù)中具備突出優(yōu)勢。合?;睿?/strong>
同時 ,家模通過模型蒸餾等方式訓(xùn)練其他模型 。包括使用多智能體方法生成多樣化高質(zhì)量的軌跡數(shù)據(jù)等,
在基礎(chǔ)基準測試中 ,
以下為使用SGLang進行單機部署的示例 :
python3 -m sglang.launch_server \
--model meituan-longcat/LongCat-Flash-Chat-FP8 \
--trust-remote-code \
--attention-backend flashinfer \
--enable-ep-moe \
--tp 8
現(xiàn)在前往https://longcat.ai/ ,平均僅27B,
通過系統(tǒng)優(yōu)化