精準(zhǔn)狙擊Llama 3.1?Mistral AI開源Large 2,123B媲美Llama 405B
機(jī)器之心報(bào)道
機(jī)器之心編輯部
AI 競(jìng)賽正以前所未有的速度加速,繼 Meta 昨天推出其新的開源 Llama 3.1 模型之后,法國 AI 初創(chuàng)公司 Mistral AI 也加入了競(jìng)爭(zhēng)。
剛剛,Mistral AI 宣布其旗艦開源模型的下一代產(chǎn)品:Mistral Large 2,該模型擁有 1230 億個(gè)參數(shù),在代碼生成、數(shù)學(xué)、推理等方面與 OpenAI 和 Meta 的最新尖端模型不相上下。
緊隨 Llama 3.1 405B 之后,Mistral Large 2 的發(fā)布讓開源大模型的賽道一下子熱鬧起來,而這一模型的特點(diǎn)是 ——「足夠大」。
具體來說,雖然 Mistral Large 2 參數(shù)量低于 Llama 3.1 的 4050 億,但兩者性能接近。并且在多個(gè)基準(zhǔn)測(cè)試中與 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。
今年 2 月,Mistral AI 推出了最初的 Large 模型,其上下文窗口包含 32,000 個(gè) token,新版模型在此基礎(chǔ)上構(gòu)建,具有更大的 128,000 個(gè)上下文窗口(大約相當(dāng)于一本 300 頁的書)—— 與 OpenAI 的 GPT-4o 和 GPT-4o mini 以及 Meta 的 Llama 3.1 相匹配。
目前,Mistral Large 2 支持?jǐn)?shù)十種語言,包括法語、德語、西班牙語、意大利語、葡萄牙語、阿拉伯語、印地語、俄語、中文、日語和韓語,以及 80 多種編程語言,包括 Python、Java、C、C++、JavaScript 和 Bash。
Mistral AI 指出,新模型將繼續(xù)突破成本效率、速度和性能的界限,同時(shí)為用戶提供新功能,包括高級(jí)函數(shù)調(diào)用和檢索,以構(gòu)建高性能的 AI 應(yīng)用。
不過,值得注意的是,Mistral Large 2 雖然是開放的,但只限于研究和非商業(yè)用途。它提供了開放的權(quán)重,允許第三方根據(jù)自己的需求對(duì)模型進(jìn)行微調(diào)。這一協(xié)議是對(duì)用戶使用條件的一個(gè)重要限制。對(duì)于需要自行部署 Mistral Large 2 的商業(yè)用途,必須提前獲取 Mistral AI 商業(yè)許可證。
性能表現(xiàn)
在多項(xiàng)評(píng)估指標(biāo)上,Mistral Large 2 刷新了性能和服務(wù)成本的新標(biāo)準(zhǔn)。特別是在 MMLU 上,預(yù)訓(xùn)練版本實(shí)現(xiàn)了 84.0% 的準(zhǔn)確率。
代碼與推理
Mistral AI 基于此前 Codestral 22B 和 Codestral Mamba 的經(jīng)驗(yàn),在很大一部分代碼上訓(xùn)練了 Mistral Large 2。
Mistral Large 2 的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于上一代的 Mistral Large,并且與 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等頂尖模型相當(dāng)。
Mistral AI 還投入了大量精力來增強(qiáng)模型的推理能力,重點(diǎn)之一就是盡量減少模型產(chǎn)生「幻覺」或產(chǎn)生看似合理但實(shí)際上不正確或不相關(guān)信息的傾向。這是通過微調(diào)模型來實(shí)現(xiàn)的,使其在回復(fù)時(shí)更加謹(jǐn)慎和敏銳,確保其提供可靠和準(zhǔn)確的輸出。
此外,在找不到解決方案或沒有足夠的信息來提供一個(gè)自信的答案時(shí),Mistral Large 2 會(huì)承認(rèn)(自己答不出來)。這種對(duì)準(zhǔn)確性的追求體現(xiàn)在了數(shù)學(xué)基準(zhǔn)測(cè)試中模型性能的提高,下圖展示了其增強(qiáng)的推理和解決問題的能力:
代碼生成基準(zhǔn)上的性能準(zhǔn)確性(所有模型都通過相同的評(píng)估流程進(jìn)行基準(zhǔn)測(cè)試)。
MultiPL-E 上的性能準(zhǔn)確性(除 paper 外,所有模型都通過相同的評(píng)估流程進(jìn)行基準(zhǔn)測(cè)試)。
GSM8K(8-shot)和 MATH(0-shot,無 CoT)生成基準(zhǔn)上的性能準(zhǔn)確性(所有模型都通過相同的評(píng)估流程進(jìn)行基準(zhǔn)測(cè)試)。
指令遵循與對(duì)齊
Mistral AI 大幅提升了 Mistral Large 2 的指令遵循和對(duì)話能力。新的 Mistral Large 2 尤其擅長(zhǎng)遵循精確指令和處理長(zhǎng)時(shí)間的多輪對(duì)話。
以下是其在 MT-Bench、Wild Bench 和 Arena Hard 基準(zhǔn)測(cè)試中的表現(xiàn):
模型在通用對(duì)齊基準(zhǔn)測(cè)試中的性能(所有模型均通過相同的評(píng)估 pipeline 進(jìn)行測(cè)試)
在某些基準(zhǔn)測(cè)試中,生成較長(zhǎng)的回答往往會(huì)提高評(píng)分。然而,在許多商業(yè)應(yīng)用中,簡(jiǎn)潔至關(guān)重要,這是因?yàn)楹?jiǎn)潔的模型生成能夠加快交互速度,并降低推理成本。
所以 Mistral AI 花費(fèi)了大量精力,確保生成的內(nèi)容盡可能簡(jiǎn)明扼要。
下圖展示了在 MT Bench 基準(zhǔn)測(cè)試的問題上,不同模型生成的回答的平均長(zhǎng)度:
語言多樣性
當(dāng)今大量的商業(yè)化應(yīng)用場(chǎng)景涉及處理多語言文檔。Mistral Large 2 在大量多語言數(shù)據(jù)吉印通行了訓(xùn)練,特別是在英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、俄語、中文、日語、韓語、阿拉伯語吉印通地語方面都表現(xiàn)優(yōu)異。
以下是 Mistral Large 2 在多語言 MMLU 基準(zhǔn)測(cè)試中的性能結(jié)果,主要是與之前的 Mistral Large、Llama 3.1 模型以及 Cohere 的 Command R+ 的對(duì)比:
多語言 MMLU 性能(以基礎(chǔ)預(yù)訓(xùn)練模型測(cè)量)
工具使用與函數(shù)調(diào)用
Mistral Large 2 配備了增強(qiáng)的函數(shù)調(diào)用和檢索技能,經(jīng)過訓(xùn)練能夠熟練地執(zhí)行并行和順序函數(shù)調(diào)用,使其能夠成為復(fù)雜業(yè)務(wù)應(yīng)用程序的強(qiáng)大引擎。
下圖為 Mistral Large 2 在函數(shù)調(diào)用上與其他主流模型的準(zhǔn)確性對(duì)比:
試用 Mistral Large 2
用戶可以通過 la Plateforme 上使用 Mistral Large 2,名稱為 mistral-large-2407 ,并在 le Chat 上測(cè)試。它的版本是 24.07(Mistral 對(duì)所有模型采用的都是 YY.MM 版本編號(hào)系統(tǒng)),API 名稱為 mistral-large-2407。
指令模型的權(quán)重已提供,托管在 HuggingFace 上。
權(quán)重鏈接:
Mistral AI 正在將 la Plateforme 上的產(chǎn)品整合為兩個(gè)通用模型:Mistral Nemo 和 Mistral Large,以及兩個(gè)專業(yè)模型:Codestral 和 Embed。隨著他們逐步淘汰 la Plateforme 上的舊模型,所有的 Apache 模型(包括 Mistral 7B、Mixtral 8x7B 和 8x22B、Codestral Mamba、Mathstral)仍然可以使用 Mistral AI 的 SDK——mistral-inference 和 mistral-finetune 進(jìn)行部署和微調(diào)。
從今天開始,他們擴(kuò)展了 la Plateforme 上的微調(diào)功能:現(xiàn)在,這些功能適用于 Mistral Large、Mistral Nemo 和 Codestral。
此外,Mistral AI 與云服務(wù)提供商都有合作,Mistral Large 2 將很快登陸這些平臺(tái)。Mistral AI 擴(kuò)大了與 Google Cloud Platform 的合作,通過 Managed API 將 Mistral AI 的模型引入 Vertex AI。與此同時(shí),還可以在 Amazon Bedrock、Azure AI Studio 和 IBM watsonx.ai 上找到。
參考鏈接:
/
021yin.com/ai/mistral-shocks-with-new-open-model-mistral-large-2-taking-on-llama-3-1/
021yin.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/