對話|騰訊云陳磊:小樣本數(shù)智人12小時就能造出來,成本降至千元
(騰訊云小樣本數(shù)智人)
出品 | 搜狐科技
作者 | 潘琭玙
4月25日,騰訊云智能小樣本數(shù)智人生產(chǎn)平臺首次對外發(fā)布,平臺具有訓練樣本小、生產(chǎn)效率高、自動化生產(chǎn)等特性,可以輕松實現(xiàn)“自助式”數(shù)智人生產(chǎn)制作。據(jù)騰訊云智能數(shù)智人產(chǎn)品總經(jīng)理陳磊介紹,小樣本數(shù)智人12小時就能夠出來demo,并且成本已降至千元級別。
陳磊表示,以前做一個數(shù)智人是幾個月,去年是以幾周為單位,“今年我們做一些2D小樣本數(shù)智人已經(jīng)達到小時級”。據(jù)悉,此前爆火的虛擬人“美妝達人柳夜熙”,3-4分鐘的視頻制作周期為一個多月,視頻制作成本高達幾十萬。
高成本、長周期以及難以逾越人腦的AI技術(shù)也限制了數(shù)字人、虛擬人的大規(guī)模落地。
目前騰訊小樣本數(shù)智人的生成需采集3分鐘真人口播視頻、100句語音素材,之后通過音頻、文本多模態(tài)數(shù)據(jù)輸入,能夠?qū)崿F(xiàn)實時建模并生成高清人像,制作周期縮短至24小時。
陳磊表示,小樣本數(shù)智人支持半身、全身形象展示,手勢動作會根據(jù)內(nèi)容靈活調(diào)整,也支持錄制背景任意更換,適用于直播帶貨等更廣泛的商用場景。與2D真人精品數(shù)字人相比,小樣本數(shù)智人所需素材簡單,成本較低,同時可根據(jù)文本設(shè)計手勢,唇動、口型、表情復(fù)現(xiàn)真人風格。
成本降至千元,2D視頻背后是3D人像做支撐
據(jù)騰訊優(yōu)圖實驗室研究總監(jiān)汪鋮杰介紹,“小樣本數(shù)智人從直觀上感受是2D視頻,背后其實是3D人像在做支撐?!?/p>
他介紹,騰訊數(shù)智人技術(shù)包含語音、視覺、自然語言處理等技術(shù),“最近半年我們聚焦在加入人像編輯與3D技術(shù)。我們的核心追求,一個是如何做得更高效,另外是把數(shù)智人做得更逼真?!?/p>
在會后與搜狐科技在內(nèi)的媒體對話中,汪鋮杰也表示,以前行業(yè)做的數(shù)智人效果未必好,有的一看就知道特別假;現(xiàn)在的數(shù)智人看一眼,還要猜測它們到底是真還是假。
數(shù)據(jù)顯示,自2021年7月至今,我國虛擬人、數(shù)字人賽道融資總金額已超過8億人民幣,自2021年起,數(shù)智人市場因部分技術(shù)低門檻已開始陷入同質(zhì)化競爭。但對此,汪鋮杰表示,當下正處于“以一種模式置換另外一種模式的過程”。數(shù)智人將帶來新生產(chǎn)模式的出現(xiàn),而在此之后大家會找到自己的定位。
在成本方面,陳磊透露,小樣本數(shù)智人成本現(xiàn)在主要是千元級別,隨著技術(shù)發(fā)展,成本的門檻會越來越低。但是,3D超寫實、高精定制等高技術(shù)要求的數(shù)智人仍要求高成本,以及具體針對客戶需求進行定制。
陳磊也進一步解釋,若有低成本或是普惠化的方式,會是騰訊數(shù)智人的追求方向。但目前,3D傳統(tǒng)的建模,從原畫設(shè)計、建模、驅(qū)動、綁定等,一條鏈路上有很多傳統(tǒng)美術(shù)的路徑,成本較難迅速降低。
3D 建模數(shù)字人精美度高,但因過高的成本和制作周期在商業(yè)化應(yīng)用上存在一定難度,更適用于大企業(yè)服務(wù)。小樣本2D數(shù)智人則開拓了市場空間較大的直播帶貨、短視頻制作、偶像娛樂工業(yè)、游戲和客服等使用場景,能夠很大程度降低時間成本、提升效率并且可控性高。
對于大規(guī)模落地的可能性,陳磊指出,時間成本、金錢成本與穩(wěn)定性是眼前的阻礙,“這三方面如果都解決了,對個人而言做自己的數(shù)智分身都是觸手可及的?!?/p>
在騰訊數(shù)智人的構(gòu)想中,未來將以自助式為主,客戶自己開賬號,下單,購買,上傳素材并自己訓練,最終輸出效果,未來將是獨立式生成的一站式模式。
朝著AIGC生成的框架升級
元宇宙概念退潮后,數(shù)字人作為元宇宙的“原住民”并未熄火。速途元宇宙研究院數(shù)據(jù)顯示,2022年虛擬人市場規(guī)模同比增長64.5%,增速達到近三年峰值。在AIGC技術(shù)的浪潮下,數(shù)字人也再次乘上風口。
根據(jù)國盛證券報告,在當前以 2D 仿真數(shù)字人為主的情況下,AIGC 可以提高皮套生成的效率,并且疊加 NLP 模型后,有望實現(xiàn) AI 驅(qū)動的數(shù)字人。
陳磊也透露,騰訊云數(shù)智人正朝著AIGC生成的框架去做改動,做一些生成技術(shù)的更新?!癆IGC在我們數(shù)智人的技術(shù)中有挺多的,包括口型生成、人臉生成等,在3D數(shù)智人也朝生成式的方向去走?!?/p>
據(jù)悉,在文字生成之外,騰訊數(shù)智人也將融合不同的模態(tài)。在語音和視覺圖像生成建模上,也會基于AIGC技術(shù)進行改動升級。另外,陳磊也透露在“卡脖子”的算力方面,數(shù)智人產(chǎn)品業(yè)務(wù)并不會受到影響,“囤貨還是蠻多的”。
陳磊直言,在元宇宙過去幾年成立了幾萬家數(shù)智人公司,傳統(tǒng)美術(shù)公司或是科技公司都在干同樣的事情,很過熱?!钡鞔_,騰訊將基于服務(wù)行業(yè)的角度,專注做厚aPaaS數(shù)智人平臺,以API接口形式向合作伙伴開放“產(chǎn)、銷、服”一體化服務(wù)。
他表示,騰訊的數(shù)智人追求的是兩個方向,一個是通過AI技術(shù),能夠提升智能性,更智慧。第二個是更懂行,我們進入到各種各樣的行業(yè)和場景,做深入的場景集成。