国产av激情无码久久,日韩精品极品视频在线观看免费,永久免费观看的毛片手机视频,超碰曰口干天天种夜夜爽

當(dāng)前位置:首頁(yè) > 百科 > 正文內(nèi)容

Nature封面:AI訓(xùn)練AI,越訓(xùn)越離譜

烏蘭察布門(mén)招聘11個(gè)月前 (07-25)百科48
印刷廠直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報(bào)價(jià)?聯(lián)系電話:138-1621-1622(微信同號(hào))

機(jī)器之心報(bào)道

機(jī)器之心編輯部

訓(xùn)練數(shù)據(jù)是用 GPT-4o 生成的?那質(zhì)量不好說(shuō)了。

我們知道,大模型面臨的三大挑戰(zhàn)是算法、算力和數(shù)據(jù)。前兩者靠?jī)?yōu)化升級(jí),后者靠積累。隨著技術(shù)的不斷發(fā)展,高質(zhì)量數(shù)據(jù)已經(jīng)逐漸成為最大的瓶頸。

在很多新模型上,?cè)藗優(yōu)榱睡涮嵘P湍芰?,都采用了使?AI 生成數(shù)據(jù)來(lái)訓(xùn)練的方式。?cè)藗兤毡檎J(rèn)為,使用合成數(shù)據(jù)可以顯著提升模型質(zhì)量。

不過(guò),最新的研究認(rèn)為,使用 AI 生成的數(shù)據(jù)并不是什么好辦法,反而可能會(huì)讓模型陷入崩潰。

今天發(fā)表在學(xué)術(shù)頂刊《自然》雜志的封面研究認(rèn)為,?cè)绻湃未竽P陀米詣?dòng)生成的數(shù)據(jù)訓(xùn)練自己,AI 可能會(huì)自我退化,在短短幾代內(nèi)將原始內(nèi)容迭代成無(wú)法挽回的胡言亂語(yǔ)。

這篇由牛津大學(xué)等機(jī)構(gòu)提交的研究,強(qiáng)調(diào)了由于自我訓(xùn)練導(dǎo)致人工智能模型崩潰(Model Collapse)的風(fēng)險(xiǎn),論證了原始數(shù)據(jù)源和仔細(xì)數(shù)據(jù)過(guò)濾的必要性。

021yin.com/articles/s41586-024-07566-y

哪種模型容易崩潰?

研究認(rèn)為,當(dāng)人工智能模型在生成的數(shù)據(jù)吉印通行過(guò)度訓(xùn)練時(shí),就會(huì)發(fā)生不可逆轉(zhuǎn)的模型崩潰。

「模型崩潰是指由于對(duì)合成數(shù)據(jù)進(jìn)行不加區(qū)分的訓(xùn)練而導(dǎo)致模型崩潰的現(xiàn)象」,牛津大學(xué)研究員、該論文的主要作者 Ilia Shumailov 表示。

根據(jù)論文所述,大型語(yǔ)言模型等生成式 AI 工具可能會(huì)忽略訓(xùn)練數(shù)據(jù)集的某些部分,導(dǎo)致模型只對(duì)部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。

眾所周知,大語(yǔ)言模型(LLM)需要巨量數(shù)據(jù)進(jìn)行訓(xùn)練,從而使自身獲得解釋其中信息并應(yīng)用于各種用例的能力。LLM 通常是為了理解和生成文本而構(gòu)建的,但研究小組發(fā)現(xiàn),?cè)绻雎运鼡?jù)稱(chēng)正在閱讀并納入其知識(shí)庫(kù)的大量文本,可能會(huì)很快地使 LLM 淪為空殼。

「在模型崩潰的早期階段,模型首先會(huì)失去方差,在少數(shù)數(shù)據(jù)上的表現(xiàn)下降,在模型崩潰的后期階段,模型則會(huì)完全崩潰」,Shumailov 說(shuō)道。因此,隨著模型繼續(xù)在模型本身生成的越來(lái)越不準(zhǔn)確和相關(guān)的文本吉印通行訓(xùn)練,這種遞歸循環(huán)會(huì)導(dǎo)致模型退化。

模型崩潰,到底是什么

在該論文中,作者發(fā)現(xiàn)的模型崩潰效應(yīng)是一種退化過(guò)程,模型生成的數(shù)據(jù)會(huì)污染下一代模型的訓(xùn)練集。模型接受受污染數(shù)據(jù)的訓(xùn)練,會(huì)錯(cuò)誤地感知現(xiàn)實(shí),?cè)缦聢D (a) 所示。

模型崩潰可以分為早期和后期階段,早期模型會(huì)在少數(shù)數(shù)據(jù)上表現(xiàn)下降,后期模型會(huì)收斂到一種與原始分布幾乎沒(méi)有相似之處的分布,并且方差通常大大減少。

模型崩潰發(fā)生主要是因?yàn)橄率鋈齻€(gè)特定誤差源在幾代模型中復(fù)合,并導(dǎo)致與原始模型出現(xiàn)較大偏差:

統(tǒng)計(jì)近似誤差。這是由于樣本數(shù)量有限而產(chǎn)生的主要誤差,并且隨著樣本數(shù)量趨于無(wú)窮大而消失。發(fā)生這種情況是因?yàn)橹夭蓸拥拿恳徊蕉伎赡軄G失信息。

函數(shù)表達(dá)誤差。這是第二種類(lèi)型的誤差,是由于函數(shù)逼近器表達(dá)能力有限而產(chǎn)生的。特別是,神經(jīng)網(wǎng)絡(luò)只是通用逼近器,無(wú)法完美地逼近任何分布。神經(jīng)網(wǎng)絡(luò)可以在原始分布之外引入非零似然,或者在原始分布內(nèi)引入零似然。函數(shù)表達(dá)誤差的一個(gè)簡(jiǎn)單例子是,?cè)绻姚偊倐儑L試用單個(gè)高斯擬合兩個(gè)高斯的混合。即使我們有關(guān)于數(shù)據(jù)分布的完美信息(即無(wú)限數(shù)量的樣本),模型誤差也將是不可避免的。?cè)欢?,在沒(méi)有其他兩種類(lèi)型的誤差的情況下,這種情況只能發(fā)生在第一代模型。

函數(shù)逼近誤差。這是次要類(lèi)型的誤差,主要源于學(xué)習(xí)過(guò)程的局限性,例如隨機(jī)梯度下降的結(jié)構(gòu)偏差。

上述每一項(xiàng)都可能導(dǎo)致模型崩潰變得更糟或更好。更高的逼近能力甚至可以是一把雙刃劍,更好的表達(dá)能力可以抵消統(tǒng)計(jì)噪聲,從而很好地逼近真實(shí)分布,但它同樣會(huì)加劇噪聲。這通常會(huì)產(chǎn)生級(jí)聯(lián)效應(yīng),其中個(gè)體的不準(zhǔn)確性結(jié)合起來(lái)會(huì)導(dǎo)致整體誤差增加。

例如,過(guò)度擬合密度模型會(huì)導(dǎo)致模型錯(cuò)誤推斷,將高密度區(qū)域分配給訓(xùn)練集未覆蓋的低密度區(qū)域。

值得注意的是,還存在其他類(lèi)型的誤差。例如,計(jì)算機(jī)在實(shí)踐中的精度有限。

語(yǔ)言模型中的模型崩潰

作者在文中還評(píng)估了模型崩潰對(duì)語(yǔ)言模型的影響。模型崩潰在各種機(jī)器學(xué)習(xí)模型中普遍存在。?cè)欢偱c通常從零開(kāi)始訓(xùn)練的小模型(如 GMMs 和 VAEs)不同,LLM 需要巨大的成本從頭開(kāi)始訓(xùn)練,因此通常使用預(yù)訓(xùn)練模型(如 BERT、RoBERTa 或 GPT-2)初始化,這些模型是在大型文本語(yǔ)料庫(kù)上訓(xùn)練的。隨后,這些模型被微調(diào)以適應(yīng)各種下游任務(wù)。

在這篇論文中,作者探討了當(dāng)語(yǔ)言模型使用由其他模型生成的數(shù)據(jù)進(jìn)行連續(xù)微調(diào)時(shí)會(huì)發(fā)生什么。本文中涉及的所有實(shí)驗(yàn)可以在非微調(diào)設(shè)置下用更大的語(yǔ)言模型輕松復(fù)制。鑒于訓(xùn)練一個(gè)中等規(guī)模的模型需要的算力也非??捎^,作者選擇不進(jìn)行這樣的實(shí)驗(yàn),而是專(zhuān)注于更現(xiàn)實(shí)的概念驗(yàn)證設(shè)置。

需要注意的是,本文描述的語(yǔ)言實(shí)驗(yàn)即使在這種情況下也需要幾周時(shí)間才能完成。作者評(píng)估了訓(xùn)練語(yǔ)言模型的最常見(jiàn)設(shè)置 —— 微調(diào)設(shè)置,其中每個(gè)訓(xùn)練周期都從一個(gè)具有最新數(shù)據(jù)的預(yù)訓(xùn)練模型開(kāi)始。這里的數(shù)據(jù)來(lái)自另一個(gè)經(jīng)過(guò)微調(diào)的預(yù)訓(xùn)練模型。由于訓(xùn)練被限制在生成與原始預(yù)訓(xùn)練模型非常相似的模型,并且這些模型生成的數(shù)據(jù)點(diǎn)通常只會(huì)產(chǎn)生非常小的梯度,因此預(yù)期在微調(diào)后,模型只會(huì)發(fā)生適度的變化。作者使用 Meta 通過(guò) Hugging Face 提供的 OPT-125m 因果語(yǔ)言模型進(jìn)行了微調(diào)。

案例研究:教堂和長(zhǎng)耳大野兔

研究人員在論文中提供了一個(gè)使用文本生成模型 OPT-125m 的示例(使用 wikitext2 數(shù)據(jù)集微調(diào)),該模型的性能與 ChatGPT 的 GPT-3 類(lèi)似,但需要的算力較少。

研究人員將有關(guān)設(shè)計(jì) 14 世紀(jì)教堂塔樓的文本輸入到模型中。在第一代文本輸出中,該模型主要討論了在不同教皇統(tǒng)治下建造的建筑物。但到了第九代文本輸出,該模型主要討論了大量的黑尾、白尾、藍(lán)尾、紅尾和黃尾長(zhǎng)耳大野兔。我們應(yīng)該注意到的是,其中大多數(shù)并不是真正存在的長(zhǎng)耳大野兔物種。

大模型輸出的內(nèi)容:從教堂到 100 多種語(yǔ)言,再到野兔。

實(shí)驗(yàn)結(jié)果表明,即使原數(shù)據(jù)一直保留,但模型崩潰的現(xiàn)象仍然會(huì)發(fā)生。隨著不斷迭代,模型開(kāi)始忘記真實(shí)數(shù)據(jù)中的信息,并且生成的內(nèi)容中包含越來(lái)越多重復(fù)的短語(yǔ)。

網(wǎng)絡(luò)充斥 AI 內(nèi)容,「數(shù)據(jù)源」早已被污染

看到這里你可能會(huì)問(wèn)了:那還不簡(jiǎn)單,不使用合成數(shù)據(jù)訓(xùn)練 AI 不就完事了?但實(shí)際上,現(xiàn)在能從互聯(lián)網(wǎng)上獲取的「數(shù)據(jù)」,里面已經(jīng)不知道有多少是 AI 生成的了,而且我們經(jīng)常無(wú)法把它們和正常內(nèi)容區(qū)分開(kāi)來(lái)。

互聯(lián)網(wǎng)上充斥著各種內(nèi)容,這并不是新鮮事。正如研究人員在論文中指出的那樣,早在大規(guī)模語(yǔ)言模型(LLM)成為公眾熟知的話題之前,惡意網(wǎng)站就已經(jīng)在制造內(nèi)容,以欺騙搜索算法優(yōu)先顯示他們的網(wǎng)站以獲取點(diǎn)擊量。隨著 OpenAI 的 GPT 系列大模型問(wèn)世,生成式 AI 已經(jīng)并將會(huì)極大地改變文本和圖像內(nèi)容的生態(tài)。

AI 生成文本可比人類(lèi)說(shuō)廢話快得多,這引發(fā)了更大規(guī)模的擔(dān)憂。杜克大學(xué)專(zhuān)門(mén)研究隱私與安全的計(jì)算機(jī)科學(xué)家艾米麗 - 溫格 Emily Wenger 曾在文章中寫(xiě)到相關(guān)內(nèi)容:「盡管 AI 生成的互聯(lián)網(wǎng)對(duì)人類(lèi)的影響還有待觀察,但 Shumailov 等人報(bào)告稱(chēng),在線上大量涌現(xiàn)的 AI 生成內(nèi)容可能對(duì)這些模型本身造成毀滅性的影響。」

「模型崩潰帶來(lái)的問(wèn)題之一是對(duì)生成式 AI 的公平性構(gòu)成挑戰(zhàn)。崩潰的模型會(huì)忽略訓(xùn)練數(shù)據(jù)中的一些不常見(jiàn)元素,從而無(wú)法反映世界的復(fù)雜性和細(xì)微差別,」Wenger 補(bǔ)充道,「這可能導(dǎo)致少數(shù)群體或觀點(diǎn)的代表性減少,甚至可能被抹去。」

大型科技公司正在采取一些措施,以減少普通網(wǎng)絡(luò)用戶看到的 AI 生成內(nèi)容的數(shù)量。3 月份,谷歌宣布將調(diào)整其算法,把那些看起來(lái)是為搜索引擎而非人類(lèi)搜索者設(shè)計(jì)的頁(yè)面的優(yōu)先級(jí)進(jìn)行降低。?cè)欢?,這一聲明是在 404 Media 關(guān)于谷歌新聞推廣 AI 生成文章的報(bào)道之后發(fā)布的。

《自然》雜志封面的這項(xiàng)研究強(qiáng)調(diào),訪問(wèn)原始數(shù)據(jù)源并在遞歸訓(xùn)練的模型中仔細(xì)過(guò)濾數(shù)據(jù),有助于保持模型的準(zhǔn)確性。

該研究還建議,創(chuàng)建大型語(yǔ)言模型(LLM)的 AI 社區(qū)可以協(xié)調(diào)合作,追蹤輸入到模型中的信息來(lái)源。「否則,隨著這種技術(shù)的廣泛應(yīng)用,?cè)绻麩o(wú)法獲得在技術(shù)普及之前從互聯(lián)網(wǎng)上爬取的數(shù)據(jù)或大量人類(lèi)生成的數(shù)據(jù),訓(xùn)練新的 LLM 版本可能會(huì)變得越來(lái)越困難」,研究團(tuán)隊(duì)總結(jié)道。

參考內(nèi)容:

021yin.com/articles/d41586-024-02355-z

021yin.com/ai-learning-from-its-own-nonsense-might-just-self-destruct-experts-warn-2000478095

收藏0

發(fā)表評(píng)論

訪客

看不清,換一張

◎歡迎參與討論,請(qǐng)?jiān)谶@里發(fā)表您的看法和觀點(diǎn)。
久久亚洲道色综合久久| 99精品国产福久久久久久| 美女张开腿给男人桶爽久久| 一本色道久久hezyo无码| 欧美亚洲国产日韩一区二区| 无码国产69精品久久久久app| 国产人妻精品一区二区三区| 78午夜福利视频| 国产精品永久免费视频| 中文字幕理伦午夜福利片| 日韩人妻无码精品二专区| 久久国产色av免费看| 日本久久夜夜一本婷婷| 丰满熟妇人妻av无码区| 人妻无码人妻有码中文字幕在线| 97国产精品视频在线观看| 性色av一区二区三区人妻| 内射白浆一区二区在线观看| 女性女同性aⅴ免费观女性恋| 综合精品欧美日韩国产在线| 日韩精品一区二区午夜成人版 | 国产乱人伦偷精品视频免下载| 国精品午夜福利视频不卡| 国产精品丝袜黑色高跟鞋| 国产精品久久久久久久久鸭无码| 国产欧美久久久精品影院| 综合三区后入内射国产馆| 青青热在线精品视频免费观看| 少妇久久久久久被弄高潮| 精品国产免费一区二区三区香蕉| 日本一二三区视频在线| 亚洲免费鲁丝片| 呦系列视频一区二区三区| 国产无套粉嫩白浆在线观看| 日韩国产网曝欧美第一页| 国产女人高潮抽搐叫床视频| 国产亚洲中文字幕在线制服| 久久综合久久久久88| 久久精品成人无码观看免费| 人妻少妇边接电话边娇喘| 丰满岳跪趴高撅肥臀尤物在线观看 |