為控制總算力消耗,美團且其參數(shù)規(guī)模少于DeepSeek-V3.1、發(fā)布實際激活參數(shù)18.6-31.3B ,并開
指令遵循方面 ,源混有奇并在訓練全流程進行了全面的合?;睿?yōu)化,
開源平臺地址 :
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
Github
為控制總算力消耗,美團且其參數(shù)規(guī)模少于DeepSeek-V3.1、發(fā)布實際激活參數(shù)18.6-31.3B ,并開
指令遵循方面 ,源混有奇并在訓練全流程進行了全面的合?;睿?yōu)化,
開源平臺地址 :
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
Github