設(shè)計(jì)軟件問答為您提供設(shè)計(jì)軟件的相關(guān)問題咨詢與解答,印刷案例規(guī)格及印刷報(bào)價(jià),讓您實(shí)時(shí)了解設(shè)計(jì)軟件的各類相關(guān)問題及印刷相關(guān)問題,并提供設(shè)計(jì)時(shí)的注意事項(xiàng),為您提供各設(shè)計(jì)軟件的相關(guān)問題解決方案
印刷廠 2023-05-21 14:36 98 0
豐色 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
這兩天,一段AI修圖視頻在國(guó)內(nèi)外社交媒體上傳瘋了。
不僅直接躥升B站關(guān)鍵詞聯(lián)想搜索第一,視頻播放上百萬,微博推特也是火得一塌糊涂,轉(zhuǎn)發(fā)者紛紛直呼“PS已死”。
怎么回事?
原來,現(xiàn)在P圖真的只需要“輕輕點(diǎn)兩下”,AI就能徹底理解你的想法!
小到豎起狗子的耳朵:
大到讓整只狗子蹲下來,甚至讓馬岔開腿“跑跑步”,都只需要 設(shè)置一個(gè)起始點(diǎn)和結(jié)束點(diǎn),外加拽一拽就能搞定:
不止是動(dòng)物的調(diào)整,連像汽車這樣的“非生物”,也能一鍵拉升底座,甚至升級(jí)成“加長(zhǎng)豪華車”:
這還只是AI修圖的“基操”。
要是想對(duì)圖像實(shí)現(xiàn)更精準(zhǔn)的控制,只需畫個(gè)圈給指定區(qū)域“涂白”,就能讓狗子轉(zhuǎn)個(gè)頭看向你:
或是讓照片中的小姐姐“眨眨眼”:
甚至是讓獅子張大嘴,連牙齒都不需要作為素材放入,AI自動(dòng)就能給它“安上”:
如此“有手就能做”的修圖神器,來自一個(gè)MIT、谷歌、馬普所等機(jī)構(gòu)聯(lián)手打造的 DragGAN新模型,論文已入選SIGGRAPH 2023。
沒錯(cuò),在擴(kuò)散模型獨(dú)領(lǐng)風(fēng)騷的時(shí)代,竟然還能有人把 GAN玩出新花樣 !
目前這個(gè)項(xiàng)目在GitHub上已經(jīng)有 *k+ Star,熱度還在不斷上漲中(盡管一行代碼還沒發(fā))。
所以,DragGAN模型究竟長(zhǎng)啥樣?它又如何實(shí)現(xiàn)上述“神一般的操作”?
拽一拽關(guān)鍵點(diǎn),就能修改圖像細(xì)節(jié)
這個(gè)名叫DragGAN的模型,本質(zhì)上是為各種GAN開發(fā)的一種交互式圖像操作方法。
論文以 StyleGAN2架構(gòu)為基礎(chǔ),實(shí)現(xiàn)了點(diǎn)點(diǎn)鼠標(biāo)、拽一拽關(guān)鍵點(diǎn)就能P圖的效果。
具體而言,給定StyleGAN2生成的一張圖像,用戶只需要設(shè)置幾個(gè) 控制點(diǎn)(紅點(diǎn))和 目標(biāo)點(diǎn)(藍(lán)點(diǎn)),以及圈出將要移動(dòng)的區(qū)域(比如狗轉(zhuǎn)頭,就圈狗頭)。
然后模型就將迭代執(zhí)行 運(yùn)動(dòng)監(jiān)督和點(diǎn)跟蹤這兩個(gè)步驟,其中運(yùn)動(dòng)監(jiān)督會(huì)驅(qū)動(dòng)紅色的控制點(diǎn)向藍(lán)色的目標(biāo)點(diǎn)移動(dòng),點(diǎn)跟蹤則用于更新控制點(diǎn)來跟蹤圖像中的被修改對(duì)象。
這個(gè)過程一直持續(xù)到控制點(diǎn)到達(dá)它們對(duì)應(yīng)的目標(biāo)點(diǎn)。
不錯(cuò),運(yùn)動(dòng)監(jiān)督和點(diǎn)跟蹤就是我們今天要講的重點(diǎn),它是DragGAN模型中最主要的兩個(gè)組件。
先說 運(yùn)動(dòng)監(jiān)督。在此之前,業(yè)界還沒有太多關(guān)于如何監(jiān)督GAN生成圖像的點(diǎn)運(yùn)動(dòng)的研究。
在這項(xiàng)研究中,作者提出了一種不依賴于任何額外神經(jīng)網(wǎng)絡(luò)的運(yùn)動(dòng)監(jiān)督損失(loss)。
其關(guān)鍵思想是,生成器的中間特征具有很強(qiáng)的鑒別能力,因此一個(gè)簡(jiǎn)單的損失就足以監(jiān)督運(yùn)動(dòng)。
所以,DragGAN的運(yùn)動(dòng)監(jiān)督是通過 生成器特征圖上的偏移補(bǔ)丁損失(shifted patch loss)來實(shí)現(xiàn)的。
如下圖所示,要移動(dòng)控制點(diǎn)p到目標(biāo)點(diǎn)t,就要監(jiān)督p點(diǎn)周圍的一小塊patch(紅圈)向前移動(dòng)的一小步(藍(lán)圈)。
再看 點(diǎn)跟蹤。
先前的運(yùn)動(dòng)監(jiān)督會(huì)產(chǎn)生一個(gè)新的latent code、一個(gè)新特征圖和吉印通像。
由于運(yùn)動(dòng)監(jiān)督步驟不容易提供控制點(diǎn)的精確新位置,因此我們的目標(biāo)是更新每個(gè)手柄點(diǎn)p使其跟蹤上對(duì)象上的對(duì)應(yīng)點(diǎn)。
此前,點(diǎn)跟蹤通常通過光流估計(jì)模型或粒子視頻方法實(shí)現(xiàn)。
但同樣,這些額外的模型可能會(huì)嚴(yán)重影響效率,并且在GAN模型中存在偽影的情況下可能使模型遭受累積誤差。
因此,作者提供了一種新方法,該方法通過 最近鄰檢索在相同的特征空間吉印通行點(diǎn)跟蹤。
而這主要是因?yàn)镚AN模型的判別特征可以很好地捕捉到密集對(duì)應(yīng)關(guān)系。
基于這以上兩大組件,DragGAN就能通過精確控制像素的位置,來操縱不同類別的對(duì)象完成姿勢(shì)、形狀、布局等方面的變形。
作者表示,由于這些變形都是在GAN學(xué)習(xí)的圖像流形吉印通行的,它遵從底層的目標(biāo)結(jié)構(gòu),因此面對(duì)一些復(fù)雜的任務(wù)(比如有遮擋),DragGAN也能產(chǎn)生逼真的輸出。
單張30*0幾秒鐘出圖
所以,要實(shí)現(xiàn)幾秒鐘“精準(zhǔn)控圖”的效果,是否需要巨大的算力?
nonono。大部分情況下,每一步拖拽修圖, 單張RTX 30*0 GPU在數(shù)秒鐘內(nèi)就能搞定。
具體到生成圖像的效果上,實(shí)際評(píng)估(均方誤差MSE、感知損失LPIPS)也超越了一系列類似的“AI修圖”模型,包括RAFT和PIPs等等:
如果說文字的還不太直觀,具體到視覺效果上就能感受到差異了:
值得一提的是,DragGAN的“潛力”還不止于此。
一方面,如果 增加關(guān)鍵點(diǎn)的數(shù)量,還能實(shí)現(xiàn)更加精細(xì)的AI修圖效果,用在人臉這類對(duì)修圖要求比較嚴(yán)格的照片上,也是完全沒問題:
另一方面,不止開頭展示的人物和動(dòng)物,放在 汽車、細(xì)胞、風(fēng)景和天氣等不同類型的圖像上,DragGAN也都能精修搞定。
除了不同的照片類型,從站到坐、從直立到跑步、從跨站到并腿站立這種 姿勢(shì)變動(dòng)較大的圖像,也能通過DragGAN實(shí)現(xiàn):
也難怪網(wǎng)友會(huì)調(diào)侃“遠(yuǎn)古的PS段子成真”,把大象轉(zhuǎn)個(gè)身這種甲方需求也能實(shí)現(xiàn)了。
不過,也有網(wǎng)友指出了DragGAN目前面臨的一些問題。
例如,由于它是基于StyleGAN2生成的圖像進(jìn)行P圖的,而后者訓(xùn)練成本很高,因此距離真正商業(yè)落地可能還有一段距離。
除此之外,在論文中提到的“單卡幾秒鐘修圖”的效果,主要還是基于 2*6×2*6分辨率圖像:
至于模型是否能擴(kuò)展到2*6×2*6以外圖像,生成的效果又是如何,都還是未知數(shù)。
有網(wǎng)友表示“至少高分辨率圖像從生成時(shí)間來看,肯定還要更長(zhǎng)”。
實(shí)際上手的效果究竟如何,我們可以等6月論文代碼開源后,一測(cè)見真章。
團(tuán)隊(duì)介紹
DragGAN的作者一共6位,分別來自馬克斯?普朗克計(jì)算機(jī)科學(xué)研究,薩爾布呂肯視覺計(jì)算、交互與AI研究中心,MIT,賓夕法尼亞大學(xué)和谷歌AR/VR部門。
其中包括兩位華人:
一作 潘新鋼,他本科畢業(yè)于清華大學(xué)(2016年),博士畢業(yè)于香港中文大學(xué)(2021年),師從湯曉鷗教授。
現(xiàn)在是馬普計(jì)算機(jī)科學(xué)研究所的博士后,今年6月,他將進(jìn)入南洋理工大學(xué)擔(dān)任助理教授(正在招收博士學(xué)生)。
另一位是 Liu Lingjie,香港大學(xué)博士畢業(yè)(201*年),后在馬普信息學(xué)研究所做博士后研究,現(xiàn)在是賓夕法尼亞大學(xué)助理教授(也在招學(xué)生),領(lǐng)導(dǎo)該校計(jì)算機(jī)圖形實(shí)驗(yàn)室,也是通用機(jī)器人、自動(dòng)化、傳感與感知 (GRASP)實(shí)驗(yàn)室成員。
值得一提的是,為了展示DragGAN的可控性,一作還親自上陣,演示了生發(fā)、瘦臉和露齒笑的三連P圖效果:
是時(shí)候給自己的主頁(yè)照片“修修圖”了(手動(dòng)狗頭)。
論文地址:
項(xiàng)目地址(代碼6月開源):
021yin.com/XingangPan/DragGAN
— 完—
「AIGC行業(yè)社群」招募中!
歡迎關(guān)注AIGC的伙伴們加入AIGC行業(yè)社群,一起學(xué)習(xí)、探索、創(chuàng)新AIGC!
加好友請(qǐng)備注「AIGC」「姓名-公司-職位」噢 ~
點(diǎn)這里 ??關(guān)注我,記得標(biāo)星哦~
一鍵三連「分享」、「點(diǎn)贊」和「在看」
科技前沿進(jìn)展日日相見 ~
在AdobeIllustrator中,將RGB顏色模式轉(zhuǎn)換為CMYK顏色模式是一個(gè)重要的步驟,尤其是當(dāng)你的工作需要打印時(shí)。以下是轉(zhuǎn)換顏色模式的步驟:1.**打開文檔**: -打開你想要轉(zhuǎn)換顏色模式的Illust...
2024-08-03 355 0
在AdobeIllustrator中,將黑色轉(zhuǎn)換成CMYK顏色模式(色相不變)通常涉及以下步驟:1.**選擇黑色對(duì)象**: -使用選擇工具(V),選擇您想要轉(zhuǎn)換顏色的黑色對(duì)象。2.**打開顏色面板**:&nb...
2024-08-03 183 0
除了LazyNezumi,還有一些其他的繪圖軟件插件可以幫助減少手抖,提高繪圖的精確度:1.**Krita**:這是一個(gè)自由開源的數(shù)字繪畫軟件,提供了包括筆刷防抖在內(nèi)的多種繪畫輔助功能,適合不同風(fēng)格的繪畫需求。2.**AdobeP...
2024-08-03 170 0
LazyNezumi是一款專為繪圖軟件設(shè)計(jì)的插件,它通過減少或消除繪圖時(shí)的手抖(即不自主的線條顫抖),幫助用戶畫出更平滑、更精確的線條。以下是一些LazyNezumi特別有用的繪圖場(chǎng)景:1.**細(xì)節(jié)描繪**:在繪制需要精細(xì)線條的細(xì)節(jié)部...
2024-08-03 189 0
AdobeIllustrator的插件生態(tài)非常豐富,除了InkQuest之外,還有許多其他插件可以提高設(shè)計(jì)效率和質(zhì)量。以下是一些推薦的插件:1.**LazyNezumi**:這是一個(gè)抖動(dòng)修正插件,適用于Illustrator等繪圖軟件...
2024-08-03 206 0
InkQuest插件是AstuteGraphics公司為AdobeIllustrator設(shè)計(jì)的實(shí)用插件,它支持多種版本的Illustrator,包括CS4、CS5、CS6、CS7、CC以及CC2014等版本,同時(shí)兼容32位和64位系統(tǒng)...
2024-08-03 202 0
掃一掃微信報(bào)價(jià)
本文暫時(shí)沒有評(píng)論,來添加一個(gè)吧(●'?'●)