來(lái)源:中國(guó)經(jīng)營(yíng)報(bào)
本報(bào)記者 李昆昆 李正豪 北京報(bào)道
近日,騰訊混元大模型公布最新進(jìn)展:正式上線視頻生成能力,這是其繼文生文、文生圖、3D生成之后的又一新的里程碑。其實(shí),就在最近,字節(jié)跳動(dòng)也發(fā)布了視頻生成模型PixelDance和Seaweed,在AI創(chuàng)作平臺(tái)即夢(mèng)AI正式上線,面向公眾免費(fèi)開(kāi)放使用。
盤(pán)古智庫(kù)高級(jí)研究員江瀚在接受《中國(guó)經(jīng)營(yíng)報(bào)》記者采訪時(shí)表示:“從技術(shù)進(jìn)步的角度來(lái)看,騰訊和字節(jié)跳動(dòng)在視頻生成大模型領(lǐng)域的投入與成果,展示了AI技術(shù)的飛速發(fā)展。從市場(chǎng)競(jìng)爭(zhēng)的角度來(lái)看,隨著騰訊、字節(jié)跳動(dòng)等巨頭的加入,視頻生成大模型領(lǐng)域的競(jìng)爭(zhēng)將更加激烈?!?/p>
大廠進(jìn)軍文生視頻
“用戶只需要輸入一段描述即可生成視頻?!彬v訊混元相關(guān)負(fù)責(zé)人向記者說(shuō),目前的生成視頻支持中英文雙語(yǔ)輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線騰訊元寶APP,用戶可在AI應(yīng)用中的“AI視頻”板塊申請(qǐng)?jiān)囉?。企業(yè)客戶通過(guò)騰訊云提供服務(wù)接入,目前API(應(yīng)用程序接口)同步開(kāi)放內(nèi)測(cè)申請(qǐng)。
騰訊方面介紹稱,騰訊混元生成視頻大模型可以實(shí)現(xiàn)超寫(xiě)實(shí)畫(huà)質(zhì)、生成高度符合提示詞的視頻畫(huà)面,畫(huà)面流暢不易變形。比如在沖浪、跳舞等大幅度運(yùn)動(dòng)畫(huà)面的生成中,騰訊混元可以生成流暢、合理的運(yùn)動(dòng)鏡頭,物體不易出現(xiàn)變形;光影反射基本符合物理規(guī)律,在鏡面或者照鏡子場(chǎng)景中,可以做到鏡面內(nèi)外動(dòng)作一致。同時(shí),模型還可以實(shí)現(xiàn)在畫(huà)面主角保持不變的情況下自動(dòng)切鏡頭,這是業(yè)界大部分模型目前所不具備的能力。
據(jù)介紹,混元視頻生產(chǎn)模型基于跟Sora類(lèi)似的DiT架構(gòu),并在架構(gòu)設(shè)計(jì)上進(jìn)行多處升級(jí)?;煸曨l生成模型適配了新一代文本編碼器來(lái)提升語(yǔ)義遵循,其具備強(qiáng)大的語(yǔ)義跟隨能力,更好地應(yīng)對(duì)多個(gè)主體描繪,實(shí)現(xiàn)更加細(xì)致的指令和畫(huà)面呈現(xiàn);采用統(tǒng)一的全注意力機(jī)制,使得每幀視頻的銜接更為流暢,并能實(shí)現(xiàn)主體一致的多視角鏡頭切換;通過(guò)先進(jìn)的圖像視頻混合VAE(3D變分編碼器),讓模型在細(xì)節(jié)表現(xiàn)上有明顯提升,特別是人臉、高速鏡頭等場(chǎng)景。
記者采訪字節(jié)跳動(dòng)方面關(guān)于其文生視頻產(chǎn)品的最新進(jìn)展及未來(lái)發(fā)展相關(guān)問(wèn)題,截至發(fā)稿前,對(duì)方尚未回復(fù)。其公開(kāi)資料顯示,今年9月底,字節(jié)跳動(dòng)發(fā)布豆包模型家族的兩款視頻生成模型Pixeldance和Seaweed,并通過(guò)即夢(mèng)AI、火山引擎分別面向創(chuàng)作者和企業(yè)客戶小范圍邀測(cè)。當(dāng)PixelDance生成10秒視頻時(shí),切換鏡頭3—5次的效果最佳,場(chǎng)景和角色能保持很好的一致性。通過(guò)小幅度、漸進(jìn)式的提示詞描述,PixelDance能生成魔術(shù)般的特效。此外,用戶還可使用時(shí)序提示詞、長(zhǎng)鏡頭等技巧,增強(qiáng)視頻的復(fù)雜度和表現(xiàn)力,對(duì)劇情創(chuàng)作有幫助。
Seaweed模型則在圖生視頻場(chǎng)景體現(xiàn)出較好的首幀一致性,可以保持與用戶輸入圖的一致性、色彩等細(xì)節(jié)還原,實(shí)現(xiàn)大幅度運(yùn)動(dòng)畫(huà)面流暢自然,具有視覺(jué)美感和真實(shí)感。
據(jù)了解,字節(jié)跳動(dòng)在文生視頻方面也是采用了DiT架構(gòu),在大幅度運(yùn)動(dòng)畫(huà)面表現(xiàn)流暢自然。經(jīng)過(guò)剪映、即夢(mèng)AI等業(yè)務(wù)場(chǎng)景打磨和持續(xù)迭代,豆包視頻生成模型具備專業(yè)級(jí)的光影布局及色彩調(diào)和能力,畫(huà)面視覺(jué)具有美感和真實(shí)感。
已成“混戰(zhàn)”局面
東吳證券在今年8月發(fā)布的研報(bào)里提到,在AI滲透率為15%的中性假設(shè)下,中國(guó)AI視頻生成行業(yè)的潛在空間為3178億元;在全AI模式下,電影、長(zhǎng)劇、動(dòng)畫(huà)片和短劇的制作成本,相較傳統(tǒng)模式將下降超95%。
除了騰訊、字節(jié)跳動(dòng),國(guó)內(nèi)其他一些公司也在發(fā)力文生視頻。比如在10月舉行的“2024中國(guó)計(jì)算機(jī)大會(huì)”上,快手副總裁、大模型團(tuán)隊(duì)負(fù)責(zé)人張迪透露,自今年6月發(fā)布以來(lái),快手可靈AI已有超過(guò)360萬(wàn)用戶,累計(jì)生成3700萬(wàn)個(gè)視頻以及超過(guò)1億張圖片。11月8日,“AI六小龍”之一的智譜AI對(duì)其視頻生成工具清影進(jìn)行升級(jí)。更早之前,8月31日,MiniMax發(fā)布了其首款A(yù)I高清視頻生成模型技術(shù)abab-video-1。
國(guó)外方面,12月10日凌晨,OpenAI宣布旗下視頻生成模型Sora正式面向大眾推出。自今年2月首次預(yù)告以來(lái),Sora僅向一些藝術(shù)家、知名演員和導(dǎo)演提供試用服務(wù),但遲遲未上線,吊足大眾胃口。如今正式落地,引發(fā)關(guān)注。
與上一個(gè)版本相比,此次的Sora Turbo支持生成1080p分辨率、最長(zhǎng)20秒的視頻,在時(shí)長(zhǎng)上有明顯增長(zhǎng)。更大的亮點(diǎn)在于它提供“編輯”服務(wù),除了單純的文生視頻、圖生視頻、視頻生視頻外,用戶還可以通過(guò)指令實(shí)現(xiàn)視頻重混、重新剪輯、循環(huán)、混合等功能,更像是一個(gè)加強(qiáng)版的視頻編輯器。
早在Sora發(fā)布之前,2023年1月起,Runway、Genmo、英偉達(dá)、Pika等海外公司都發(fā)布了AI 視頻生成和多模態(tài)技術(shù)產(chǎn)品。而隨著Sora爆火,AI+視頻技術(shù)和產(chǎn)品正在迅猛升級(jí)迭代,諸如電影、廣告、視頻剪輯、視頻流媒體平臺(tái)、UGC(用戶生成內(nèi)容)創(chuàng)作平臺(tái)、短視頻綜合平臺(tái)等眾多行業(yè)有望受益。
業(yè)內(nèi)人士認(rèn)為,與創(chuàng)業(yè)公司相比,騰訊、字節(jié)跳動(dòng)這種大廠數(shù)據(jù)等資源比較豐富,又有流量支持,商業(yè)化進(jìn)程會(huì)比較快一些。
江瀚向記者說(shuō),這種競(jìng)爭(zhēng)不僅體現(xiàn)在技術(shù)層面,還體現(xiàn)在應(yīng)用場(chǎng)景的拓展和商業(yè)化模式的探索上。目前,雖然視頻生成技術(shù)還未到大規(guī)模商用的階段,但騰訊、字節(jié)跳動(dòng)已經(jīng)看到了其在工業(yè)級(jí)商業(yè)場(chǎng)景中的應(yīng)用潛力,如廣告宣傳、動(dòng)畫(huà)制作、創(chuàng)意視頻生成等。隨著技術(shù)的不斷成熟和應(yīng)用場(chǎng)景的拓展,視頻生成大模型將成為企業(yè)數(shù)字化轉(zhuǎn)型和智能化升級(jí)的重要工具,市場(chǎng)前景廣闊。
今年6月,繼好萊塢編劇在大罷工中要求限制AI撰寫(xiě)劇本之后,代表好萊塢演員權(quán)益的美國(guó)電視和廣播藝人聯(lián)合會(huì)(SAG-AFTRA)表示,AI在影視行業(yè)確有用武之地,但必須在演員同意并付費(fèi)的前提下使用,譬如在計(jì)算機(jī)生成的動(dòng)作、表情捕捉畫(huà)面上,“AI應(yīng)該是輔助、增強(qiáng)人類(lèi),而不是取代人類(lèi)”。
文生視頻技術(shù)的進(jìn)步,為內(nèi)容創(chuàng)作、產(chǎn)業(yè)升級(jí)帶來(lái)了積極影響,同時(shí)也為市場(chǎng)發(fā)展提供了巨大的空間。隨著產(chǎn)品的進(jìn)一步迭代升級(jí),文生視頻有望在細(xì)分領(lǐng)域內(nèi)容創(chuàng)作過(guò)程中大大提升效率,加速優(yōu)質(zhì)供給產(chǎn)出,為各細(xì)分行業(yè)帶來(lái)新的機(jī)會(huì)。
還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...