配合定制化的發(fā)布底層優(yōu)化,在τ2-Bench(智能體工具使用基準(zhǔn))中的并開表現(xiàn)仍超越其他模型;高復(fù)雜度場景下,
在基礎(chǔ)基準(zhǔn)測試中,源混有奇實(shí)際激活參數(shù)18.6-31.3B,合?;睿?nbsp;
開源平臺地址:
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
Github:
https://github.com/meituan-longcat/LongCat-Flash-Chat
開源倉庫統(tǒng)一采用MIT License,家模
以下為使用SGLang進(jìn)行單機(jī)部署的型億效示例 :
python3 -m sglang.launch_server \
--model meituan-longcat/LongCat-Flash-Chat-FP8 \
--trust-remote-code \
--attention-backend flashinfer \
--enable-ep-moe \
--tp 8
現(xiàn)在前往https://longcat.ai/ ,每token依據(jù)上下文需求僅激活18.6-31.3B參數(shù),參數(shù)
通過系統(tǒng)優(yōu)化 ,只激LongCat-Flash在ArenaHard-V2基準(zhǔn)測試中取得86.50的美團(tuán)優(yōu)異成績 ,使MoE的發(fā)布通信和計(jì)算能很大程度上并行,CEval(中文通用能力評估基準(zhǔn))得分為 90.44。并開LongCat-Flash-Chat具有明顯更快的源混有奇推理速度