InfoQ 2024年趨勢報(bào)告:AI 智能體發(fā)展不及預(yù)期,RAG 或成最大贏家
在本期播客節(jié)目中,InfoQ 的編輯團(tuán)隊(duì)及其朋友們將深入探討人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)工程領(lǐng)域的最新趨勢。
作為 InfoQ 的一大特色,趨勢報(bào)告系列專注于軟件開發(fā)的各個(gè)關(guān)鍵領(lǐng)域。這些報(bào)告旨在為 InfoQ 的讀者和聽眾提供今年值得關(guān)注的技術(shù)發(fā)展趨勢概覽。
InfoQ 的人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)工程編輯團(tuán)隊(duì)邀請了業(yè)界專家,共同探討了人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的未來趨勢,以及接下來 12 個(gè)月中值得關(guān)注的動態(tài)。本期播客記錄了這次討論的內(nèi)容,小組成員們分享了他們對創(chuàng)新人工智能技術(shù)如何重塑行業(yè)格局的見解。
關(guān)鍵要點(diǎn)
人工智能的未來是開放的。我們正處于大語言模型和基礎(chǔ)模型的時(shí)代。盡管目前大部分模型是閉源的,但像 Meta 這樣的公司正試圖引領(lǐng)開源模型的趨勢。
檢索增強(qiáng)生成(RAG)的重要性將日益凸顯,特別是在大規(guī)模部署 LLM 的場景中。
隨著人工智能賦能的 GPU 基礎(chǔ)設(shè)施和人工智能驅(qū)動的個(gè)人電腦的出現(xiàn),AI 驅(qū)動的硬件將獲得更多關(guān)注。
由于受基礎(chǔ)設(shè)施設(shè)置和管理成本方面的限制,小語言模型(SLM)將得到更多的探索和采用。
小語言模型也是邊緣計(jì)算相關(guān)用例的一個(gè)很好的選擇,它們可以在小型設(shè)備上運(yùn)行。
AI 代理,?cè)缇幋a助手,將在企業(yè)應(yīng)用開發(fā)環(huán)境中得到更多的采用。
在語言模型的生命周期管理中,AI 的安全性和隱私保護(hù)將持續(xù)占據(jù)重要地位。自托管模型和開源 LLM 解決方案將有助于加強(qiáng) AI 的安全防護(hù)。
LangOps 或 LLMOps 將成為 LLM 生命周期的關(guān)鍵環(huán)節(jié),它們在大模型生產(chǎn)環(huán)境部署的持續(xù)支持中發(fā)揮著重要作用。
我們對未來 12 個(gè)月的 AI 發(fā)展做出了一些預(yù)測:機(jī)器人 AI,即具身 AI,將成為新的趨勢;從 AI 寒冬過渡到更多具體的應(yīng)用場景,涉及更多自動化工作流和智能體工作流,?cè)缓髷U(kuò)散到更多的邊緣設(shè)備,?cè)绻P記本電腦和手機(jī)。
簡 介
Srini Penchikala:大家好,歡迎收聽 2024 年人工智能與機(jī)器學(xué)習(xí)趨勢報(bào)告播客。這個(gè)播客是我們年度報(bào)告的一部分,目的是與聽眾分享人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的最新動態(tài)。我是 Srini Penchikala,InfoQ 人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)工程社區(qū)的主編。我們有幸邀請到了一群杰出的專家和實(shí)踐者,他們來自人工智能和機(jī)器學(xué)習(xí)的不同領(lǐng)域。
感謝大家來到這里。我非常期待與大家共同探討人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的最新動態(tài),包括我們目前的發(fā)展階段,更重要的是我們未來的發(fā)展方向。特別是自去年我們討論趨勢報(bào)告以來,?cè)斯ぶ悄芗夹g(shù)的創(chuàng)新速度之快令人目眩。在開始深入播客主題之前,我想先向聽眾朋友們提供一些必要的信息。我們的年度報(bào)告包含兩個(gè)主要部分。首先是這個(gè)播客,它提供了一個(gè)平臺,讓聽眾能夠聽到來自專家實(shí)踐者們對創(chuàng)新人工智能技術(shù)如何顛覆行業(yè)的見解。其次是一份書面文章,將在 InfoQ 網(wǎng)站上發(fā)布,其中將包含技術(shù)采用不同階段的趨勢圖,并詳細(xì)介紹自去年趨勢報(bào)告以來新增或更新的個(gè)別技術(shù)。
我強(qiáng)烈推薦大家在本月底文章發(fā)布時(shí)去閱讀它。現(xiàn)在,讓我們回到播客的討論上來。自 ChatGPT 發(fā)布以來,生成式人工智能和大型語言模型技術(shù)的發(fā)展速度似乎達(dá)到了頂峰,而且這種快速的創(chuàng)新勢頭似乎不會很快放緩。技術(shù)領(lǐng)域的主要參與者都一直在忙著發(fā)布他們的人工智能產(chǎn)品。今年早些時(shí)候,谷歌在 I/O 大會上發(fā)布了幾項(xiàng)新的更新,包括 Gemini 更新和生成式人工智能在搜索中的應(yīng)用。同時(shí),OpenAI 也發(fā)布了 GPT-4o,這是一個(gè)能夠?qū)崟r(shí)處理音頻、視覺和文本的全能模型,提供了一種多模態(tài)解決方案。
緊接著,Meta 也發(fā)布了 Llama 3,并很快推出了基于 4050 億參數(shù)的 Llama 3.1 版本。這些參數(shù)的數(shù)量級是億,而且它們還在不斷增加。像 Ollama 這樣的開源解決方案也受到了越來越多的關(guān)注。看來這個(gè)領(lǐng)域一直在加速發(fā)展。生成式人工智能技術(shù)的基礎(chǔ)是大語言模型,它們經(jīng)過大量數(shù)據(jù)的訓(xùn)練,能夠理解和生成自然語言及其他類型的內(nèi)容,還能執(zhí)行豐富多樣的任務(wù)。因此,LLM 可以作為我們今年趨勢報(bào)告討論內(nèi)容的切入點(diǎn)。
Anthony,你一直在密切關(guān)注 LLM 模型及其發(fā)展。你能談?wù)勆墒饺斯ぶ悄芎?LLM 模型的當(dāng)前發(fā)展?fàn)顟B(tài)、最近的一些主要進(jìn)展,以及我們的聽眾應(yīng)該關(guān)注哪些方面嗎?
AI 的未來是開放的
Anthony Alford:如果要用一個(gè)詞來概括 LLM,我會選擇“更多”,或者可能是“規(guī)?!?。我們正處在 LLM 和基礎(chǔ)模型的黃金時(shí)代。OpenAI 可能是最顯眼的領(lǐng)導(dǎo)者,當(dāng)然,還有其他大玩家,比如谷歌,還有 Anthropic 推出的 Claude。這些模型大多是封閉的,即便是 OpenAI,他們的旗艦產(chǎn)品也只能通過 API 訪問。然而,Meta 在這方面是一個(gè)異類。實(shí)際上,我認(rèn)為他們正試圖引領(lǐng)趨勢朝著更開放的方向發(fā)展。我記得扎克伯格最近說過,“人工智能的未來是開放的。”因此,他們開放了一些模型的權(quán)重。至于 OpenAI,盡管他們沒有公開模型權(quán)重,但也會發(fā)布一些模型的技術(shù)細(xì)節(jié)。例如,我們知道 GPT-3 的第一個(gè)版本有 1750 億個(gè)參數(shù),但對于 GPT-4,雖然他們沒有明確說明,但趨勢表明它肯定擁有更多的參數(shù),數(shù)據(jù)集更大,計(jì)算預(yù)算也更大。
我認(rèn)為我們還將繼續(xù)見證的另一個(gè)趨勢是模型的預(yù)訓(xùn)練,也就是 GPT 中的“P”。這些模型在龐大的數(shù)據(jù)集吉印通行預(yù)訓(xùn)練,基本上是整個(gè)互聯(lián)網(wǎng)的內(nèi)容。然后,他們會進(jìn)行微調(diào),這是 ChatGPT 的關(guān)鍵創(chuàng)新之一。因此,這種指令微調(diào)現(xiàn)在變得極其普遍,我相信我們將繼續(xù)看到這一趨勢。接下來,讓我們轉(zhuǎn)到上下文長度這個(gè)話題,因?yàn)樗砹?另一個(gè)發(fā)展趨勢。上下文長度,即你可以輸入模型的數(shù)據(jù)量,這個(gè)量正在增加。我們可以討論這與新的 SSM(State Space Model,狀態(tài)空間模型,?cè)?Mamba)之間的區(qū)別,因?yàn)?SSM 是沒有上下文長度限制的。Mandy,你對這個(gè)話題有什么看法?
Mandy Gu:我認(rèn)為這絕對是我們正在見證的一個(gè)明顯趨勢,那就是更長的上下文窗口。當(dāng)初 ChatGPT 等大語言模型開始普及時(shí),這是人們普遍指出的一個(gè)不足之處。今年早些時(shí)候,Gemini、Google 基金會以及 GCP 的基礎(chǔ)模型引入了高達(dá)一百萬個(gè) Token 的上下文窗口長度,這無疑是一個(gè)改變游戲規(guī)則之舉,因?yàn)橹拔爷浏鋫儚奈从羞^如此長的上下文處理能力。我認(rèn)為這引領(lǐng)了一種趨勢,其他供應(yīng)商也在嘗試提供同樣長甚至更長的上下文窗口。由此產(chǎn)生的一個(gè)二級效應(yīng)是提升了可訪問性,它使得像信息檢索這樣的復(fù)雜任務(wù)變得更加簡單。在過去,我們可能需要進(jìn)行多階段的檢索,例如 RAG,但現(xiàn)在,我們可以將所有上下文信息直接輸入到這一百萬 Token 的上下文窗口中,雖然不一定意味著更好,但無疑簡化了過程。這是過去幾個(gè)月的一個(gè)非常有趣的進(jìn)展。
Anthony Alford:Namee,你還有什么要補(bǔ)充的嗎?
Namee Oberst:我們專注于小語言模型的應(yīng)用。較長的上下文長度窗口有它的價(jià)值,但根據(jù)我們內(nèi)部的研究以及 YouTube 上一些知名人士的實(shí)驗(yàn),即便你只傳了 2000 個(gè) Token 的段落給大模型,它們在處理段落中間信息丟失的問題上表現(xiàn)并不出色。因此,?cè)绻悝傁胍M(jìn)行精確的信息檢索,有時(shí)候較長的上下文窗口反而會誤導(dǎo)用戶,讓用戶誤以為可以隨意輸入大量信息并精確地找到所需內(nèi)容。我認(rèn)為目前情況并非如此。我認(rèn)為精心設(shè)計(jì)的信息檢索工作流,?cè)?RAG,?cè)匀皇墙鉀Q問題的關(guān)鍵。
基本上,無論上下文 Token 數(shù)量達(dá)到百萬級別,甚至更長,?cè)绻紤]到企業(yè)在實(shí)際使用場景中所處理的文檔數(shù)量,這樣的上下文長度可能仍然不足以帶來實(shí)質(zhì)性的改變。但在消費(fèi)者使用場景中,更長的上下文窗口確實(shí)能夠顯著提升信息檢索的效率。
Anthony Alford:所以說回報(bào)是遞減的,對嗎?
Namee Oberst:確實(shí)存在回報(bào)遞減的效應(yīng)。這在很大程度上取決于具體的應(yīng)用場景。設(shè)想一下,?cè)绻腥诵枰獮g覽上萬份文檔,那么增加上下文窗口的大小實(shí)際上幫助有限。大量研究表明,大語言模型并不適合作為搜索引擎使用,它們在精確檢索信息方面表現(xiàn)并不好。因此,我個(gè)人不太推薦依賴長上下文的 LLM,而更傾向于使用 RAG。話雖如此,我認(rèn)為在某些情況下,長上下文窗口確實(shí)非常有用。例如,當(dāng)你需要傳一篇很長的論文給大模型,?cè)缓笠竽P蛯ζ溥M(jìn)行重寫,但這篇論文的長度超出了傳統(tǒng)上下文窗口的處理能力……我特別喜歡用 LLM 來轉(zhuǎn)換文檔,比如將一篇 Medium 長文章轉(zhuǎn)換成白皮書,這在以前是超出了常規(guī)上下文窗口的處理能力的。我認(rèn)為這是一個(gè)非常好的應(yīng)用場景。
Anthony Alford:你提到了 RAG,也就是檢索增強(qiáng)型生成技術(shù)。我們不如就來深入討論一下這個(gè)主題。它似乎首先能夠解決上下文長度的問題。此外,這看起來是一個(gè)相當(dāng)普遍的應(yīng)用場景。或許你可以就此發(fā)表一些看法,特別是對于小型的開放模型。現(xiàn)在,?cè)藗兛梢栽诒镜鼗蛘咦约旱挠布?、云平臺上運(yùn)行這些模型,利用 RAG 來解決問題,這樣他們就不需要依賴那些大型的封閉模型了。Namee,你對這個(gè)問題有什么見解嗎?
Namee Oberst:我非常支持這一理念。如果你看一下 Hugging Face 上可用的模型類型以及它們的性能基準(zhǔn)測試,我認(rèn)為這非常令人印象深刻。此外,這些開源模型的創(chuàng)新速度和節(jié)奏也同樣令人贊嘆。盡管如此,當(dāng)你看著 GPT-4o 的推理速度和能力,以及它能夠?yàn)閮|萬用戶提供數(shù)百萬種服務(wù),你?cè)匀粫械饺f分驚奇。
然而,?cè)绻悝傉诿鎸σ粋€(gè)企業(yè)級的應(yīng)用場景,你擁有明確的工作流,并且希望解決一個(gè)非常具體的問題,例如自動化特定的工作流,以自動化生成報(bào)告為例,或者是在這些預(yù)定義的 10000 份文檔中進(jìn)行 RAG 來實(shí)現(xiàn)深入的信息檢索。我相信,你可以利用開源模型來解決這些問題,或者選擇一個(gè)現(xiàn)有的較小規(guī)模的語言模型,對其進(jìn)行微調(diào),投入資源,?cè)缓蠡旧峡梢栽谄髽I(yè)私有云環(huán)境中運(yùn)行這些模型,并且還可以逐漸將它們部署到邊緣設(shè)備上。因此,我非常看好使用較小的模型來執(zhí)行針對性任務(wù)。
Srini Penchikala:確實(shí),幾個(gè)月前我嘗試用 Ollama 來處理一個(gè)特定的用例,我非??春孟?Ollama 這樣的開源解決方案。你可以自行托管服務(wù),這樣你就無需將所有數(shù)據(jù)上傳到云端,也不必?fù)?dān)心數(shù)據(jù)的去向。利用這些自行托管的模型,并結(jié)合 RAG 技術(shù),可以構(gòu)建專有的信息知識庫。我認(rèn)為這種方式在企業(yè)界正獲得越來越多的關(guān)注。企業(yè)希望保留數(shù)據(jù)的控制權(quán),同時(shí)又能充分利用這項(xiàng)強(qiáng)大技術(shù)。
Roland Meertens:目前大多數(shù)企業(yè)都是以 OpenAI 作為起點(diǎn)來驗(yàn)證自身的商業(yè)價(jià)值,在證明存在商業(yè)價(jià)值以后,他們才可以開始思考,“我們?nèi)绾螌⑦@項(xiàng)技術(shù)真正融入我們的應(yīng)用程序?”我認(rèn)為這非常棒,因?yàn)槟悝偪梢院苋菀椎亻_始使用這項(xiàng)技術(shù),隨后再構(gòu)建自己的基礎(chǔ)設(shè)施來支持應(yīng)用程序的后續(xù)發(fā)展。
Srini Penchikala:是為了擴(kuò)大規(guī)模,對吧,Roland?你可以評估出哪種模型最適合你的需求,對吧?
Roland Meertens:是的。
Srini Penchikala:讓我們繼續(xù)回到大語言模型的討論上來。另一個(gè)值得關(guān)注的領(lǐng)域是多模態(tài)模型,例如 GPT-4o,也就是所謂的全能模型。我認(rèn)為這確實(shí)將 LLM 推向了一個(gè)新的高度。它不再局限于文本,我們還可以利用音頻、視頻或其他各種格式。那么,大家對 GPT-4o 或者多模態(tài)模型有什么見解嗎?
Namee Oberst:為了參與這期播客,我實(shí)際上做了一項(xiàng)實(shí)驗(yàn)。我訂閱了 GPT-4o 的服務(wù),今天早上我出于好奇輸入了幾個(gè)提示詞。由于我們的主要工作是基于文本的,所以并不經(jīng)常使用這個(gè)功能。我要求它為 LLMware 生成一個(gè)新的標(biāo)志,但它失敗了三次,每次都無法正確處理“LLMware”這個(gè)詞。盡管如此,我知道它非常令人印象深刻,并且我認(rèn)為他們正在迅速取得進(jìn)展。但我想看看它們目前的水平如何,今天早上對我來說體驗(yàn)并不佳。當(dāng)然,我也知道它們可能仍然比市場上其他任何產(chǎn)品都要好。我先聲明這一點(diǎn),以免有人來找我麻煩。
Roland Meertens:在圖像生成領(lǐng)域,我不得不說,?cè)ツ晡爷浏鋵?Midjourney 的表現(xiàn)感到非常驚訝。他們的進(jìn)步速度令人驚嘆,尤其是考慮到它還是一家小型公司。一家小型企業(yè)能夠憑借更優(yōu)秀的模型超越大型競爭者,這一現(xiàn)象確實(shí)令人感到驚嘆。
Mandy Gu:大型公司,?cè)?OpenAI,有出色的泛化能力,并且非常擅長吸引新人才進(jìn)入這一領(lǐng)域。然而,隨著你更深入地探索,你會意識到,正如我們在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域常說的,天下沒有免費(fèi)的午餐。你探索、測試、學(xué)習(xí),?cè)缓笳业竭m合你的方法,但并不總是那些大玩家才能做到。對我們來說,我們從多模態(tài)模型中受益最多的不是圖像生成,而是 OCR 能力。一個(gè)非常典型的應(yīng)用場景是,我們上傳圖像或文件,?cè)缓笈c大語言模型對話,尤其是針對圖像內(nèi)容。這已經(jīng)成為我們最大的價(jià)值主張,并且深受我們開發(fā)者的喜愛。因?yàn)樵诤芏鄷r(shí)候,當(dāng)我們在幫助最終用戶或內(nèi)部團(tuán)隊(duì)進(jìn)行故障排查時(shí),他們會發(fā)給我們堆棧信息跟蹤或問題截圖。能夠直接將這些截圖輸入給模型中,而不是去解讀它們,極大地節(jié)省了我們的時(shí)間。
因此,我們的價(jià)值并不僅僅來自圖像生成,而是更多地來自于 OCR 技術(shù)的應(yīng)用,它為我們帶來了巨大的價(jià)值。
Srini Penchikala:這很有道理。當(dāng)你采用這些技術(shù),無論是 OpenAI 還是其他公司,你就會發(fā)現(xiàn),在將這些技術(shù)應(yīng)用到公司的具體用例時(shí),并沒有通用的解決方案。因此,每個(gè)公司都有其獨(dú)特的應(yīng)用場景和需求。
Daniel Dominguez:我覺得很有意思的是,現(xiàn)在我們看到 Hugging Face 上有超過 80 萬個(gè)模型,那么明年會有多少新模型問世,這絕對是一個(gè)很有意思的話題。目前流行的趨勢包括 Llama、Gemma、Mistral 和 Stability。一年之內(nèi),不僅在文本領(lǐng)域,圖像和視頻領(lǐng)域也將涌現(xiàn)出多少新模型,這無疑是一個(gè)值得關(guān)注的點(diǎn)。回看過去一年的模型數(shù)量是件有趣的事情,但更令人興奮的是,預(yù)測明年這個(gè)領(lǐng)域?qū)⒊霈F(xiàn)的新模型數(shù)量,可能會是一個(gè)更加令人矚目的數(shù)字。
RAG 在大規(guī)模 LLM 中的應(yīng)用
Srini Penchikala:沒錯,Daniel,你提出了一個(gè)好觀點(diǎn)。我認(rèn)為這就像 20 年前的應(yīng)用服務(wù)器市場一樣,幾乎每周都有新產(chǎn)品問世。我認(rèn)為這些產(chǎn)品有許多將逐漸融合,只有少數(shù)幾個(gè)能夠脫穎而出,并持續(xù)較長時(shí)間。說到 RAG,我認(rèn)為這是企業(yè)真正能夠獲得價(jià)值的地方,輸入信息——無論是在本地還是云端——并通過大語言模型進(jìn)行分析,從而獲得深刻洞見。你認(rèn)為有哪些 RAG 的實(shí)際應(yīng)用案例可能會引起我們聽眾的興趣?
Mandy Gu:我認(rèn)為 RAG 是大語言模型規(guī)?;瘧?yīng)用中最具有潛力的方向之一,其應(yīng)用形態(tài)可以根據(jù)檢索系統(tǒng)的設(shè)計(jì)而靈活變化,可以適應(yīng)多樣化的用例需求。在我們公司,RAG 已被廣泛應(yīng)用于內(nèi)部流程。我們開發(fā)了一個(gè)工具,它將我們的自托管大語言模型與公司所有知識庫相連接。我們的文檔存儲在 Notion 中,代碼托管在 GitHub 上,同時(shí),我們還整合了來自幫助中心網(wǎng)站以及其他平臺的公開資料。
我們實(shí)質(zhì)上是在這些知識庫之上構(gòu)建了一個(gè)檢索增強(qiáng)型生成系統(tǒng)。我們的設(shè)計(jì)思路是:每晚運(yùn)行后臺作業(yè),從我們的知識源中抽取信息,并將它們存入我們的向量數(shù)據(jù)庫。我們?yōu)閱T工提供了一個(gè) Web 應(yīng)用程序,他們可以針對這些信息提出問題或給出指令。在內(nèi)部進(jìn)行基準(zhǔn)測試時(shí),我們也發(fā)現(xiàn),這種方法在相關(guān)性和準(zhǔn)確性方面,明顯優(yōu)于將所有上下文信息直接輸入給像 Gemini 1.5 這樣的模型。但回到問題的核心,作為提升員工生產(chǎn)力的手段,RAG 已經(jīng)為我們帶來了許多真正優(yōu)秀的應(yīng)用案例。
Namee Oberst:Mandy,你所分享的案例堪稱經(jīng)典,而且執(zhí)行得非常到位,完美契合了你們的需求。這正是大語言模型強(qiáng)大能力的最佳體現(xiàn)。你還提到了一些非常有趣的內(nèi)容。你說你們自托管了 LLM,我想知道,你們是否采用了某個(gè)開源的 LLM,或者你是否愿意分享一些這方面的信息?當(dāng)然,你無需透露太多細(xì)節(jié)。不管怎樣,這無疑是通用人工智能應(yīng)用的一個(gè)杰出范例。
Mandy Gu:實(shí)際上,我們使用的都是開源模型,很多都是從 Hugging Face 獲取的。我們在構(gòu)建 LLM 平臺之初,就旨在為員工提供一種安全且易于訪問的方式來探索這項(xiàng)前沿技術(shù)。和其他許多公司一樣,我們最初選擇了 OpenAI 的服務(wù),但為了保護(hù)敏感數(shù)據(jù),我們在它前面加了一個(gè)個(gè)人信息保護(hù)層。然而,我們從內(nèi)部用戶那里得到的反饋是,這個(gè)個(gè)人信息保護(hù)層實(shí)際上限制了生成式 AI 最高效的用例,因?yàn)樵谌粘9ぷ髦?,員工需要處理的不僅僅是個(gè)人信息,還有大量其他類型的敏感信息。這個(gè)反饋促使我們轉(zhuǎn)變了思路:從防止員工與外部供應(yīng)商共享敏感信息到如何確保員工可以安全地與 LLM 共享這些信息。因此我們從依賴 OpenAI 的服務(wù)轉(zhuǎn)向了自托管大語言模型。
Namee Oberst:我簡直被你所做的事情震撼到了。我認(rèn)為這正是我們在 LLMware 所追求的。實(shí)際上,這正是我們希望借助在后端串聯(lián)小型語言模型進(jìn)行推理所能提供的那種解決方案。你多次提到了 Ollama,但我們基本上已經(jīng)將 Llama.cpp 集成到我們的平臺中,這樣你就可以基于量化模型輕松、安全地進(jìn)行推理。我堅(jiān)信,你為你們企業(yè)設(shè)計(jì)的工作流非常出色。但同時(shí),我也預(yù)見到其他工作流自動化的用例將會被簡化,以便在筆記本電腦上運(yùn)行。我幾乎可以預(yù)見在非常近的未來,所有東西都將被微型化,這些大語言模型將變得更小巧,幾乎成為軟件的一部分,我們所有人都將能夠輕松、精確且安全地在筆記本電腦上部署它們,當(dāng)然,還有私有云。
Mandy Gu:你提到了 Llama.cpp,我覺得這非常有趣,因?yàn)榭赡懿⒉皇敲總€(gè)人都能意識到量化模型和小模型能帶來如此多的邊際優(yōu)勢。目前,我們?nèi)蕴幱诳焖賹?shí)驗(yàn)階段,速度是關(guān)鍵。采用量化模型可能會在精度上略有損失,但我們從降低延遲和提高行動速度方面獲得了回報(bào),這對我們來說是非常值得的。我認(rèn)為 Llama.cpp 本身就是一個(gè)巨大的成功案例,這個(gè)由個(gè)人或小團(tuán)隊(duì)所創(chuàng)造的框架,能夠得到如此大規(guī)模的執(zhí)行。
AI 驅(qū)動的硬件
Namee Oberst:Llama.cpp 是 Georgi Gerganov 開發(fā)的,他在開源領(lǐng)域做出了令人驚嘆的貢獻(xiàn)。Llama.cpp 為 Mac Metal 進(jìn)行了優(yōu)化,但在 NVIDIA CUDA 上也表現(xiàn)出色。我們正在做的工作是,讓數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)團(tuán)隊(duì)不僅能在 Mac Metal 上實(shí)現(xiàn)解決方案,還能跨越所有 AI PC 平臺。我們利用了 Intel OpenVINO 和 Microsoft ONNX 技術(shù),這樣數(shù)據(jù)科學(xué)家們就可以在他們喜歡的 Mac 上工作,?cè)缓笠材茌p松無縫地在其他 AI PC 上部署他們的模型,因?yàn)?MacOS 只占操作系統(tǒng)份額的大約 15%,剩下的 85% 實(shí)際上是非 MacOS 系統(tǒng)。想象一下,當(dāng)我們能夠跨多個(gè)操作系統(tǒng)部署,并充分利用所有這些 AI PC 的 GPU 能力時(shí),未來的發(fā)展將會多么激動人心。我認(rèn)為,這將是未來趨勢中一個(gè)非常令人期待的方向。
小模型和邊緣計(jì)算
Srini Penchikala:你們都提到了小語言模型和邊緣計(jì)算,我們或許可以就此話題展開討論。我知道關(guān)于大語言模型,我們可以討論很長時(shí)間,但我更想聽聽你們對其他主題的看法。關(guān)于小模型,Namee,你在 LLMWare 對 SLM 做了一些研究,還特別提到了一個(gè)為 SLM 量身定制的 RAG 框架。你能否更深入地談?wù)勥@個(gè)領(lǐng)域?微軟也在研究他們所謂的 Phi-3 模型。能否分享一些這方面的信息?這些模型之間有何不同?我們的聽眾如何能夠快速了解并跟上 SLM 的最新發(fā)展?
Namee Oberst:實(shí)際上,我們是小模型領(lǐng)域的探索先鋒。我們專注于小模型的研究已經(jīng)有一年多,可以說相當(dāng)早就開始了。實(shí)際上,RAG 在過去三四年已經(jīng)在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域得到了應(yīng)用。我們在公司成立初期就對 RAG 進(jìn)行實(shí)驗(yàn),并對我們的小型參數(shù)模型進(jìn)行了一些非常早期的調(diào)整,我們發(fā)現(xiàn)可以讓這些模型執(zhí)行非常強(qiáng)大的任務(wù),并且從中獲得了性能上的顯著提升。同時(shí),我們也確保了數(shù)據(jù)的安全性和保障。這些因素始終是我考慮的重點(diǎn),因?yàn)槲爷浏溆蟹蓪I(yè)的背景,我最初是在一家大型律師事務(wù)所擔(dān)任公司律師,后來還擔(dān)任了一家公共保險(xiǎn)經(jīng)紀(jì)公司的總法律顧問。
數(shù)據(jù)安全和隱私保護(hù)一直是我們最為關(guān)注的重點(diǎn)。對于那些受到嚴(yán)格監(jiān)管的行業(yè)來說,選擇使用小模型或其他較小規(guī)模的模型,是一個(gè)顯而易見的決定。Mandy 已經(jīng)詳細(xì)闡述了許多原因,但成本效益同樣不容忽視。實(shí)際上,成本是一個(gè)巨大的考量因素。因此,當(dāng)你能夠顯著減少模型的資源占用并大幅降低成本時(shí),就沒有理由去部署那些龐大的模型。更令人振奮的是,越來越多的人開始認(rèn)識到這一點(diǎn),與此同時(shí),小模型性能取得了顯著進(jìn)步。微軟推出的 Phi-3 模型,以及我們針對 RAG 進(jìn)行微調(diào)的模型,還有 Hugging Face 專為 RAG 設(shè)計(jì)的模型,都顯示出了卓越的性能。我們使用專有數(shù)據(jù)集對這些模型進(jìn)行微調(diào),以相同的方式和數(shù)據(jù)集微調(diào)了 20 個(gè)模型,確保了我們可以進(jìn)行公平的比較。Phi-3 模型在我們的測試中表現(xiàn)卓越,超越了我們測試過的其他模型,包括那些擁有 80 億參數(shù)的模型,成為了表現(xiàn)最佳的模型。
我們的模型涵蓋了從 10 億參數(shù)到高達(dá) 80 億參數(shù)的范圍,并且在精確度方面達(dá)到了前所未有的高度,這真的讓我感到非常驚訝。Hugging Face 上那些向全世界免費(fèi)開發(fā)的小模型,正在變得越來越好,而且進(jìn)步速度非???。我認(rèn)為這是一個(gè)非常激動人心的世界。正如我之前所斷言的,按照這樣的創(chuàng)新速度,這些模型將會變得越來越小,小到它們所占用的資源跟軟件相當(dāng)。在不久的將來,我們將會在邊緣設(shè)備上部署大量這樣的模型。
Srini Penchikala:確實(shí),許多應(yīng)用場景涉及線下大模型處理和線上邊緣設(shè)備實(shí)時(shí)分析的組合。這正是小型語言模型能夠發(fā)揮其優(yōu)勢的地方。Roland、Daniel 或者 Anthony,你們對小型語言模型有何看法?在這個(gè)領(lǐng)域,你們觀察到了哪些趨勢或發(fā)展?
Anthony Alford:確實(shí)如此。微軟的 Phi 系列模型無疑已經(jīng)成為了焦點(diǎn)。此外,我們也有這個(gè)議題,Namee,你提到這些模型正在變得更好。問題是,我們怎么知道它們有多好?什么樣的表現(xiàn)才算足夠好?目前有許多基準(zhǔn)測試,比如 MMLU、HELM、Chatbot Arena 等,還有很多排行榜和指標(biāo)。我不想說人們在操縱這些指標(biāo),但這有點(diǎn)像是 p-hacking,不是嗎?你發(fā)了一篇論文,宣稱在某個(gè)特定指標(biāo)上超越了其他基線,但這并不總能直接轉(zhuǎn)化為實(shí)際的商業(yè)價(jià)值。因此,我認(rèn)為這仍然是一個(gè)需要解決的問題。
Namee Oberst:實(shí)際上,我們做了一套內(nèi)部基準(zhǔn)測試,專注于評估模型回答一些基于常識的商業(yè)和法律問題的能力,這些問題都是基于事實(shí)的。我們的平臺主要是面向企業(yè)用戶,因此在這個(gè)場景下,我們更關(guān)注模型對事實(shí)性問題、基本邏輯和數(shù)學(xué)問題的回答能力,而不是創(chuàng)造力。我們甚至創(chuàng)建了自己的基準(zhǔn)測試方法,Phi-3 模型的結(jié)果就是基于這些測試得出的。我對一些公布的結(jié)果持懷疑態(tài)度,你真的看過 HellaSwag 上的一些問題嗎?有時(shí)候我甚至不知道正確或錯誤的答案是什么。因此,我們決定開發(fā)自己的測試標(biāo)準(zhǔn),而我們討論的 Phi-3 模型的表現(xiàn)正是基于這些我們自己制定的標(biāo)準(zhǔn)。順便說一句,微軟并沒有贊助我們,盡管我希望他們能。
Srini Penchikala:我們很快會開始討論大模型的評估,在這之前,你們對語言模型還有什么看法嗎?
Roland Meertens:Phi 讓我印象深刻的一個(gè)點(diǎn)是,它在訓(xùn)練過程中不僅使用了高質(zhì)量的數(shù)據(jù),還通過自主生成數(shù)據(jù)來提升學(xué)習(xí)效果。例如,在編程方面,他們讓 Phi 為學(xué)生編寫指導(dǎo)手冊,?cè)缓罄眠@些手冊作為訓(xùn)練數(shù)據(jù)。這讓我深刻體會到,?cè)绻悝倱碛懈鼉?yōu)質(zhì)的數(shù)據(jù),并且能夠精心挑選這些數(shù)據(jù),將能夠訓(xùn)練出更為出色的模型。
Anthony Alford:你是說”Textbooks Are All You Need“嗎?
Roland Meertens:除此之外,Hugging Face 的團(tuán)隊(duì)成員也發(fā)表了多篇相關(guān)論文。目前,對于如何選擇合適的數(shù)據(jù)來訓(xùn)練這些模型,?cè)藗儽憩F(xiàn)出了極大的興趣。在我看來,數(shù)據(jù)選擇在機(jī)器學(xué)習(xí)領(lǐng)域仍然是一項(xiàng)被低估且值得深入探討的課題。
Srini Penchikala:除了 Phi,Daniel,你之前提到了 TinyLlama。關(guān)于這些小模型,你有何見解或要評價(jià)的?
Daniel Dominguez:確實(shí),正如 Namee 所言,目前在 Hugging Face 平臺上的很多語言模型還有許多未知領(lǐng)域值得我們?nèi)ヌ剿?。此外,Hugging Face 的一個(gè)吸引人之處在于他們對不同性能級別的 GPU 進(jìn)行了分類,你可能已經(jīng)注意到了他們在排行榜上的目標(biāo)設(shè)定。根據(jù)你的硬件配置,可能會被歸類為”富 GPU“用戶或”窮 GPU“用戶,但不論哪種情況,你都能夠運(yùn)行這些語言模型。同時(shí),我們也要感謝目前行業(yè)所提供的芯片技術(shù),例如 NVIDIA 的芯片,它們不僅能夠在云端運(yùn)行這些小模型,也能夠在低端個(gè)人計(jì)算機(jī) GPU 和系統(tǒng)上運(yùn)行。
得益于 NVIDIA 等公司提供的高性能 GPU,這些小模型得以順利運(yùn)行。在 Hugging Face 平臺上,當(dāng)你看著這些模擬演示時(shí),你會發(fā)現(xiàn)無需依賴龐大的計(jì)算資源即可在自己的設(shè)備上運(yùn)行這些模型,這無疑是一個(gè)令人興奮的發(fā)現(xiàn)。
Srini Penchikala:還有很多其他的 AI 創(chuàng)新正在發(fā)生,在結(jié)束語言模型討論之前,我們快速再聊一下評估問題。除了基準(zhǔn)測試指標(biāo),這些我們可能需要謹(jǐn)慎對待的東西,我想知道在現(xiàn)實(shí)世界中的最佳實(shí)踐是怎樣的?正如你提到的,Daniel,面對眾多的模型,一個(gè)新入行者如何評估并比較這些模型,排除那些可能不適合他們的,并選擇適合他們的?你有沒有注意到在這個(gè)領(lǐng)域有哪些行業(yè)實(shí)踐或標(biāo)準(zhǔn)?
Mandy Gu:我認(rèn)為 Anthony 提到的商業(yè)價(jià)值是一個(gè)值得我們在評估過程中考慮的要點(diǎn)。盡管我對那些通用的基準(zhǔn)測試持保留態(tài)度,但我認(rèn)為我們真正需要做的是全面評估大型語言模型,不僅包括基礎(chǔ)模型本身,還涉及到使用的技術(shù)以及我們?nèi)绾吾槍μ囟ㄈ蝿?wù)來協(xié)調(diào)整個(gè)系統(tǒng)。例如,?cè)绻爷浏涞哪繕?biāo)是總結(jié)一篇研究論文并提煉其語言,我就應(yīng)該針對這一特定任務(wù)來評估 LLM 的能力。畢竟,沒有一套模型或技術(shù)能夠適用于所有任務(wù)。通過這個(gè)實(shí)驗(yàn)過程,我可以更有信心地找到最適合的模型組合。歸根結(jié)底,?cè)绾胃鼫?zhǔn)確地量化評估結(jié)果,應(yīng)該基于對當(dāng)前任務(wù)的評估和我們期望看到的成果。
AI 智能體
Srini Penchikala:接下來我們聊聊 AI 智能體。據(jù)我所知,這一領(lǐng)域已經(jīng)取得了顯著進(jìn)展,特別是在 AI 驅(qū)動的編程助手方面。Roland,你對此有何見解?我知道你已經(jīng)對 Copilot 等工具進(jìn)行了深入研究。
Roland Meertens:去年你問我對未來一年的趨勢有何看法,我預(yù)測是 AI 智能體。但現(xiàn)在看來,我說的可能并不完全準(zhǔn)確。我們看到智能體技術(shù)確實(shí)有所發(fā)展。OpenAI 之前推出了 GPT Store,允許用戶自行創(chuàng)建個(gè)性化的智能體。然而,坦白地說,我還沒有聽到有人向我強(qiáng)烈推薦某個(gè)智能體,說它非常出色。所以,從這個(gè)角度來看,我認(rèn)為目前的進(jìn)步還是有限的。不過,我們確實(shí)看到了一些有趣的應(yīng)用,例如 Devin,一個(gè) AI 軟件工程師智能體,它有一個(gè)終端、代碼編輯器和瀏覽器,你可以給它分配任務(wù),比如:“嘿,試著解決這個(gè)問題。”它會嘗試獨(dú)立完成所有工作。目前,Devin 的成功率大約是 20%,但考慮到它是免費(fèi)的,這個(gè)成功率對于一個(gè)免費(fèi)的”軟件工程師“來說已經(jīng)相當(dāng)令人滿意了。
此外,還有一些像 AgentGPT 這樣的平臺,我讓它為 AI 趨勢博客創(chuàng)建一個(gè)大綱,它提出了一些話題,比如:“我們可以討論 CNN 和 RNN 等趨勢。”我不認(rèn)為這些還是趨勢,但它對這些話題仍然充滿熱情,這是件好事。但總的來說,我認(rèn)為智能體仍然有巨大的潛力。如果你想完成某項(xiàng)任務(wù),完全可以進(jìn)行自動化,而不是我自己去決定使用 ChatGPT 發(fā)送哪封電子郵件,?cè)缓蟀l(fā)送它,接著等待對方回復(fù)并用 ChatGPT 總結(jié),再寫回復(fù)。
Anthony Alford:我的疑問在于,究竟是什么定義了“智能體”?
Roland Meertens:這是個(gè)好問題。所以我認(rèn)為,就我目前所看到的,智能體是一種能夠整合并執(zhí)行多種任務(wù)的東西。
Anthony Alford:在念研究生時(shí),我的研究領(lǐng)域是智能代理。我們所談?wù)摰闹悄荏w主要是關(guān)于自主性。所以我認(rèn)為,AI 安全領(lǐng)域的專家們所擔(dān)憂的,可能就是賦予這些系統(tǒng)自主性。不管你對 AI 的未來發(fā)展持何種看法,關(guān)注自主性問題都是非常合理的。目前來看,ChatGPT 可能還沒有達(dá)到實(shí)現(xiàn)完全自主性的水平。
Roland Meertens:這取決于你想做什么,以及你愿意在多大程度上讓渡自己的控制權(quán)。就我個(gè)人而言,我還不太愿意在工作中部署一個(gè)完全自主的“Roland 智能體”。我覺得它可能不會表現(xiàn)得特別智能。但我看到有人在約會應(yīng)用上這么做了,顯然,他們愿意冒這個(gè)險(xiǎn)。
Daniel Dominguez:正如 Roland 所說的,智能體還沒有真正掀起大浪,但可以肯定的是,它們在未來一定會發(fā)生些什么。比如,扎克伯格最近提到,他們正在為小型企業(yè)開發(fā)新的 Meta AI 智能體,這些智能體將幫助小企業(yè)主在自己的業(yè)務(wù)領(lǐng)域?qū)崿F(xiàn)自動化。Hugging Face 也有許多 AI 智能體,用于日常的工作流。Slack 也集成了許多 AI 智能體,用于幫助用戶總結(jié)對話內(nèi)容、任務(wù)以及日常的工作流等。
我認(rèn)為,隨著我們在這一領(lǐng)域不斷進(jìn)步,AI 智能體在日常工作和小型企業(yè)中的應(yīng)用將變得更加自然。因?yàn)樗鼈儗O大地幫助我們完成許多日常任務(wù),越來越多的公司也將開始在自己的平臺上推出各式各樣的智能體服務(wù)。例如,據(jù)我所知,谷歌即將推出用于 Gmail 等任務(wù)的 AI 智能體服務(wù)。因此,這可能是在接下里的一年加速發(fā)展的一個(gè)趨勢。
Roland Meertens:確實(shí),特別是你可以借助 Langchain,讓事情變得相當(dāng)容易:”我有這些 API 可以調(diào)用,我想要實(shí)現(xiàn)這樣的工作流程。如果你能夠?qū)崿F(xiàn),就執(zhí)行相應(yīng)的操作。如果無法實(shí)現(xiàn),就使用另一個(gè) API。“將工具箱中的所有工具進(jìn)行組合并實(shí)現(xiàn)自動化,這種能力是非常強(qiáng)大的。
Mandy Gu:你說到點(diǎn)上了。以 Gmail 為例,有一個(gè)嵌入式助手可以幫你管理電子郵件,你就不需要去 ChatGPT 那里問如何增強(qiáng)郵件,或者做你想做的任何其他事情。從行為學(xué)角度來看,讓信息在不同平臺之間流轉(zhuǎn)是一個(gè)巨大的工作負(fù)擔(dān),?cè)绻爷浏鋫兡軌驕p少用戶完成他們的工作所需要打開的標(biāo)簽頁或需要訪問的系統(tǒng),這將是一個(gè)巨大的進(jìn)步。而真正推動智能體采用的,就是這些因素。
Srini Penchikala:如果這些智能體能幫助我們決定何時(shí)發(fā)送電子郵件,何時(shí)不發(fā)送而是改為打電話,那就很厲害了。我的意思是,那樣可能會更有效率,對吧?
Roland Meertens:我在思考趨勢的問題。在去年,每一家公司都宣稱:“我們現(xiàn)在是一家 AI 公司。我們將擁有自己的聊天機(jī)器人。”我甚至看到一些同事說:“我想證明這個(gè)論點(diǎn),我讓 ChatGPT 為我生成了三頁的論點(diǎn),看起來不錯。”但我現(xiàn)在不想關(guān)心你的論點(diǎn)是什么,我不想和聊天機(jī)器人聊天,我只想瀏覽網(wǎng)站。所以我也好奇,最終會出現(xiàn)什么樣的結(jié)果?每一家公司、每一個(gè)網(wǎng)站都會變成一個(gè)聊天機(jī)器人嗎?或者我們是否也可以直接查找一本書的價(jià)格,而不是必須要求智能體為我們訂購它?
Srini Penchikala:我們不應(yīng)該過度智能體化我們的應(yīng)用程序,對吧?
Roland Meertens:我的建議是,不要讓你的生活變得過度智能體化。
AI安全
Srini Penchikala:Anthony,你之前提到了人工智能的安全性問題,接下來就讓我們深入探討一下安全性。Namee 和 Mandy,你們都在多個(gè)實(shí)際項(xiàng)目中有所涉獵。你們?nèi)绾慰创踩c創(chuàng)新之間的關(guān)系?我們怎樣才能確保這些開創(chuàng)性的技術(shù)在保持隱私和消費(fèi)者數(shù)據(jù)安全的同時(shí)給我們帶來價(jià)值?
Mandy Gu:生成式人工智能確實(shí)在安全領(lǐng)域引發(fā)了一系列連鎖反應(yīng),例如第四方數(shù)據(jù)共享和數(shù)據(jù)隱私問題,這些問題日益嚴(yán)重。我們與許多 SaaS 供應(yīng)商合作,這些供應(yīng)商也是許多公司的選擇。他們通常會集成人工智能技術(shù),但并不總是會明確告知,實(shí)際上很多時(shí)候,他們會將用戶數(shù)據(jù)發(fā)給 OpenAI。根據(jù)數(shù)據(jù)的敏感程度,這可能是用戶希望避免的。因此,我認(rèn)為我們需要關(guān)注兩點(diǎn)。首先,我們需要全面了解和追蹤我們的數(shù)據(jù)流向。隨著人工智能集成的普及,這項(xiàng)工作變得更加復(fù)雜,我們必須牢記這一點(diǎn)。其次,?cè)绻爷浏鋫兿M麊T工遵循正確的數(shù)據(jù)隱私安全實(shí)踐,就必須讓他們選擇最簡單、最安全的路徑。
回到我之前提到的例子,?cè)绻爷浏鋫冊谂c OpenAI 和其他供應(yīng)商的所有對話中都疊加一個(gè)極其嚴(yán)格的個(gè)人身份信息(PII)審查機(jī)制,這可能會讓使用者感到挫敗,他們可能會直接去使用 ChatGPT。但如果我們能夠?yàn)樗鋫兲峁┨娲桨?,并通過激勵措施使這些替代方案更加易于使用,或者增加他們需要的其他功能,同時(shí)確保安全選項(xiàng)是最容易實(shí)施的路徑,這樣就能吸引他們,并逐步建立起一種積極、注重?cái)?shù)據(jù)隱私的良好文化。
Namee Oberst:是的,Mandy,你描述的工作流實(shí)際上凸顯了我在討論數(shù)據(jù)安全時(shí)經(jīng)常強(qiáng)調(diào)的一個(gè)觀點(diǎn):在企業(yè)當(dāng)中,生成式人工智能工作流的設(shè)計(jì)對所有的敏感數(shù)據(jù)安全性都有重大影響。是否有供應(yīng)商可能會無意中將我們的敏感數(shù)據(jù)發(fā)送給一個(gè)我們不信任的供應(yīng)商,例如 OpenAI,這只是一個(gè)例子。我們需要審視這些問題,需要審視數(shù)據(jù)的來源,需要確保工作流具備可審計(jì)性,這樣就可以追溯所有推理之間發(fā)生的交互。人工智能的可解釋性如何發(fā)揮作用?我設(shè)計(jì)的工作流是否存在潛在的攻擊面?如何處理提示詞注入問題?
順便提一個(gè)有趣的事實(shí),由于經(jīng)常處理小規(guī)模任務(wù),小模型能夠很好地泛化,因此不太容易受提示詞注入的影響。但我們?nèi)匀恍枰P(guān)注提示詞注入、數(shù)據(jù)投毒等問題。所以我認(rèn)為,企業(yè)在部署人工智能時(shí)需要考慮諸多因素。Mandy,你剛才提出的觀點(diǎn)非常中肯。
Mandy Gu:你提到的攻擊面問題,我非常認(rèn)同,因?yàn)檫@確實(shí)是一個(gè)可能迅速失控的方面。有人將生成式人工智能及其集成比作有線電視與流媒體服務(wù),因?yàn)楸姸喙径荚谕瞥鲎约旱娜斯ぶ悄芗煞?wù),購買所有這些服務(wù)就像同時(shí)訂閱 Netflix、Hulu 以及其他所有流媒體服務(wù),不僅成本不劃算,而且確實(shí)增加了潛在的攻擊面。我認(rèn)為,這正是我們在權(quán)衡自行構(gòu)建與購買時(shí)需要考慮的,并且對我們所支付的費(fèi)用以及數(shù)據(jù)的去向要有清晰的認(rèn)識和審慎的決策。
我注意到人們對于這些問題的普遍認(rèn)識正在逐步提高。供應(yīng)商,尤其是 SaaS 提供商,正在積極回應(yīng)這些關(guān)切。越來越多的服務(wù)提供商開始提供這樣的選項(xiàng):“我們可以將服務(wù)托管在你的虛擬私有云(VPC)中。無論是在 AWS 還是 GCP 上,都可以運(yùn)行 Gemini,確保你的數(shù)據(jù)仍然保留在你的云租戶內(nèi)。”我認(rèn)為這正是在安全意識方面所展現(xiàn)的一個(gè)積極趨勢。
LangOps 或 LLMOps
Srini Penchikala:除了安全性之外,我們需要關(guān)注的另一個(gè)重要問題是如何在生產(chǎn)環(huán)境中管理這些大語言模型和人工智能技術(shù)?所有,讓我們迅速進(jìn)入 LangOps 或 LLMOps 這個(gè)話題。這一領(lǐng)域有幾種不同的術(shù)語并存。Mandy,或許你可以先分享一下你的觀點(diǎn)。你?cè)绾慰创?dāng)前 LLM 在生產(chǎn)環(huán)境中的支持情況,以及有哪些寶貴的經(jīng)驗(yàn)?
Mandy Gu:在 WealthSimple,我們把 LLM 的工作分為三個(gè)明顯不同的領(lǐng)域。首先是提升員工的工作效率,其次是優(yōu)化客戶業(yè)務(wù)流程,第三是基礎(chǔ)的 LLMOps,我們更愿意稱之為 LLM 平臺工作,它為前兩個(gè)領(lǐng)域提供支持。我們在這方面積累了許多經(jīng)驗(yàn),對我們來說行之有效的是我們的賦能理念。我們的工作以安全性、可訪問性和選擇性為中心。我們的目標(biāo)是為用戶提供可選擇性,讓每個(gè)人都能為手頭的任務(wù)選擇最合適的技術(shù)和基礎(chǔ)模型,幫助我們避免了這個(gè)領(lǐng)域常見的一個(gè)問題,即人們將 LLM 視為尋找問題的解決方案(拿著錘子找釘子)。通過提供這些可復(fù)用的平臺組件,生成式 AI 的采納變得更加普遍。
這是一個(gè)我們逐漸才領(lǐng)悟到的教訓(xùn)。在我們剛開始踏上 LLM 之旅時(shí),我們構(gòu)建了一個(gè) LLM 網(wǎng)關(guān),它有審計(jì)跟蹤功能,讓人們能夠安全地使用 OpenAI 和其他供應(yīng)商的服務(wù)。我們收到的反饋是,審計(jì)跟蹤功能在很多實(shí)際應(yīng)用場景中對他們造成了限制。因此,我們開始自托管模型,這樣我們就可以輕松地加入開源模型,進(jìn)行微調(diào),?cè)缓髮⑵浼傻轿爷浏鋫兊钠脚_中,并通過 LLM 網(wǎng)關(guān)為我們的系統(tǒng)和最終用戶提供推理服務(wù)。然后我們開始構(gòu)建檢索功能作為可復(fù)用的 API,并圍繞向量數(shù)據(jù)庫構(gòu)建框架,增強(qiáng)可訪問性。隨著我們逐漸將這些組件平臺化,我們的最終用戶——包括科學(xué)家、開發(fā)者以及業(yè)務(wù)人員——開始嘗試并發(fā)現(xiàn):“這個(gè)工作流實(shí)際上可以通過 LLM 得到顯著改進(jìn)。”這時(shí),我們就會介入,幫助他們將這些想法產(chǎn)品化,并實(shí)現(xiàn)大規(guī)模的產(chǎn)品部署。
AI 發(fā)展趨勢預(yù)測
Srini Penchikala:我們即將結(jié)束這次討論,這是一次非常精彩的討論。在結(jié)束之前,我想向在座的各位提出一個(gè)問題:你們對人工智能領(lǐng)域在未來 12 個(gè)月內(nèi)可能發(fā)生的事情有怎樣的預(yù)測?當(dāng)我們明年再次聚在一起討論時(shí),可以回顧并討論這些預(yù)測的實(shí)現(xiàn)情況。
Mandy Gu:我認(rèn)為,圍繞大模型的許多炒作將會逐漸平息。我們在過去一年半的時(shí)間里目睹了它們驚人的增長。對于許多企業(yè)和行業(yè)來說,LLM 仍然是一個(gè)他們愿意持續(xù)投入的賭注。
然而,我認(rèn)為在未來的 12 個(gè)月里,這種情況將會有所改變,我們將開始對這項(xiàng)技術(shù)設(shè)定更為現(xiàn)實(shí)的預(yù)期,并在期望獲得具體成果之前,更加審慎地評估我們的探索深度。因此,我預(yù)測從現(xiàn)在開始的 12 個(gè)月內(nèi),LLM 炒作將會減少,那些繼續(xù)采用這項(xiàng)技術(shù)的公司將會找到切實(shí)可行的方法,將其無縫集成到他們的工作流或產(chǎn)品中。
Daniel Dominguez:我預(yù)測,隨著人工智能不斷產(chǎn)生海量數(shù)據(jù),它將與區(qū)塊鏈等技術(shù)有某種形式的融合。我已經(jīng)注意到許多區(qū)塊鏈項(xiàng)目已經(jīng)開始探索與人工智能的數(shù)據(jù)整合。雖然區(qū)塊鏈和人工智能的融合目前還處于早期階段,但在未來將會取得顯著進(jìn)展,尤其是在數(shù)據(jù)管理方面。因此,我認(rèn)為人工智能與區(qū)塊鏈的結(jié)合將是未來技術(shù)發(fā)展的一個(gè)重要趨勢。
Roland Meertens:我仍然對機(jī)器人技術(shù)抱有期待,不過現(xiàn)在我們更傾向于稱之為具身人工智能。這是去年逐漸流行起來的一個(gè)新術(shù)語。我不確定什么時(shí)候會發(fā)生,智能體已經(jīng)能為我們執(zhí)行計(jì)算機(jī)任務(wù),?cè)绻爷浏鋫儼阉鼈兎诺綑C(jī)器人的身體里,它們還會幫我們干活。具身人工智能無疑將成為下一個(gè)重要的大事。
Srini Penchikala:看來這些機(jī)器人將成為你的付費(fèi)程序員,對嗎?
Roland Meertens:不是這樣。智能體將成為你的編程伙伴,而機(jī)器人則會在日常生活中為你提供幫助。我好奇的是,現(xiàn)在的公司擁有大量的數(shù)據(jù),他們是否會利用這些數(shù)據(jù)來微調(diào)自己的模型并將其商業(yè)化?或者繼續(xù)使用 RAG?設(shè)想一下,?cè)绻悝偸且粋€(gè)園藝師,多年來一直在拍攝花園的照片,并提供如何改善花園的建議。肯定有很多小型企業(yè)擁有這樣的數(shù)據(jù),他們將如何從這些數(shù)據(jù)中獲取價(jià)值?我非常好奇這些小型企業(yè)將如何利用他們的數(shù)據(jù),以及如何構(gòu)建自己的智能體、聊天機(jī)器人或 AI 自動化解決方案。
Anthony Alford:人工智能寒冬,Mandy 已經(jīng)提到了,不是嗎?她說“我們可能會看到炒作的熱度逐漸降低”,這是“溫和”版本的寒冬。而“強(qiáng)烈”版本的寒冬,或許你已經(jīng)看到過這樣的標(biāo)題,我記得是《自然》雜志上的一篇論文,它指出:“如果你用生成式 AI 生成的內(nèi)容來訓(xùn)練生成式 AI,結(jié)果可能會變得更糟。”我認(rèn)為人們已經(jīng)開始思考互聯(lián)網(wǎng)是否正在被這些生成式內(nèi)容污染。讓我們拭目以待。我真心希望我的擔(dān)憂是多余的,我真心不希望這個(gè)預(yù)測會成為現(xiàn)實(shí)。
Srini Penchikala:這是非??赡艿?,對吧?Namee,你對接下來的 12 個(gè)月有怎樣的預(yù)測?
Namee Oberst:我預(yù)測我們將會經(jīng)歷一些 Anthony 和 Mandy 所描述的情況,但很快會過渡到更有價(jià)值、更加現(xiàn)實(shí)和具體的應(yīng)用場景上,包括更自動化的工作流、智能體工作流,以及進(jìn)一步擴(kuò)展到邊緣設(shè)備,比如筆記本電腦和智能手機(jī)。這就是我的預(yù)測,這將會很有趣。
Srini Penchikala:是的,這將會很有趣,這也是我所預(yù)測的。我相信我們將看到更多融合、端到端、全面的人工智能解決方案,它們結(jié)合了小模型、RAG 技術(shù)和人工智能硬件。我認(rèn)為許多積極的變化正在發(fā)生。我希望所謂的人工智能寒冬不會持續(xù)太久。
相關(guān)資源
論文“Textbooks Are All You Need”
SantaCoder: don't reach for the stars!
嘉賓簡介
Mandy Gu是 Wealthsimple 的高級軟件開發(fā)經(jīng)理,負(fù)責(zé)領(lǐng)導(dǎo)機(jī)器學(xué)習(xí)和數(shù)據(jù)工程團(tuán)隊(duì)。此前,她擁有豐富的自然語言處理(NLP)和數(shù)據(jù)科學(xué)方面的工作經(jīng)驗(yàn)。
Namee Oberst是一家專注于生成式和開源人工智能解決方案的初創(chuàng)公司的創(chuàng)始人。
Srini Penchikala是一位資深的軟件架構(gòu)師,并擔(dān)任 InfoQ 人工智能、機(jī)器學(xué)習(xí)與數(shù)據(jù)工程板塊的主編。著有《Apache Spark 大數(shù)據(jù)處理》和《Spring Roo 實(shí)戰(zhàn)》(合著者)。
Roland Meertens是一位機(jī)器學(xué)習(xí)工程師,在自動駕駛汽車領(lǐng)域深耕計(jì)算機(jī)視覺技術(shù)。此前,他曾在社交媒體平臺、深度學(xué)習(xí)自然語言處理、社交機(jī)器人以及無人機(jī)領(lǐng)域從事計(jì)算機(jī)視覺方面的工作。
Anthony Alford是 Genesys 高級開發(fā)總監(jiān),在設(shè)計(jì)和構(gòu)建大規(guī)模軟件方面擁有超過 20 年的經(jīng)驗(yàn)。
Daniel Dominguez是華盛頓大學(xué)機(jī)器學(xué)習(xí)專業(yè)的工程師,擁有超過 12 年的軟件產(chǎn)品開發(fā)經(jīng)驗(yàn)。
查看英文原文:
021yin.com/podcasts/ai-ml-data-engineering-trends-2024/
剝離幾百萬行代碼,復(fù)制核心算法去美國?TikTok 最新回應(yīng)來了
《黑神話:悟空》的第二個(gè)受害者出現(xiàn)了,竟是AI搜索惹的禍!
拖欠半年工資沒發(fā),員工拿飲水機(jī)抵錢!又一家明星智駕獨(dú)角獸燒光 10 多億后黯然離場
跟著小扎不白干,9 個(gè)月“出師”:用學(xué)到的 10 條經(jīng)驗(yàn)搞出 AI 界“帶貨王”,年入 1 億美元