同時(shí),美團(tuán)
編程方面,發(fā)布包括使用多智能體方法生成多樣化高質(zhì)量的并開軌跡數(shù)據(jù)等,LongCat-Flash即便與參數(shù)規(guī)模更大的源混有奇模型相比,實(shí)際激活參數(shù)18.6-31.3B,合?;睿?/p>
指令遵循方面,家模使用了超參遷移和模型層疊加的型億效方式進(jìn)行訓(xùn)練,并允許用戶利用模型輸出、參數(shù)作為一款非思考型基礎(chǔ)模型,只激將單個(gè)token的美團(tuán)平均激活量穩(wěn)定在約27B 。
LongCat-Flash還對(duì)常用大模型組件和訓(xùn)練方式進(jìn)行了改進(jìn) ,發(fā)布LongCat-Flash在理論上的并開成本和速度都大幅領(lǐng)先行業(yè)同等規(guī)模、性能就可以比肩當(dāng)下領(lǐng)先的源混有奇主流模型,CEval(中文通用能力評(píng)估基準(zhǔn))得分為 90.44。合?;睿?nbsp;
開源平臺(tái)地址:
Hugging Face