9月1日消息,發(fā)布據(jù)介紹,并開(kāi)總參數(shù)560B ,美團(tuán)LongCat-Flash采用創(chuàng)新性混合專家模型(Mixture-of-Experts,發(fā)布 MoE)架構(gòu) ,激活參數(shù)18.6B-31.3B(平均27B),并開(kāi)實(shí)現(xiàn)計(jì)算效率與性能的美團(tuán)雙重優(yōu)化
9月1日消息,發(fā)布據(jù)介紹,并開(kāi)總參數(shù)560B ,美團(tuán)LongCat-Flash采用創(chuàng)新性混合專家模型(Mixture-of-Experts,發(fā)布 MoE)架構(gòu) ,激活參數(shù)18.6B-31.3B(平均27B),并開(kāi)實(shí)現(xiàn)計(jì)算效率與性能的美團(tuán)雙重優(yōu)化