国产色www,波多野结衣国产在线

AI視頻，影像革命還是泡沫？

央視網(wǎng) 2025-06-29 11:01:49

人工智能（AI）推動(dòng)視頻生成技術(shù)又邁出新的一步。一條發(fā)布在社交媒體平臺(tái)X上的AI視頻里，角色集體開口戲謔道：“我們不過是0和1的排列組合？醒醒吧，伙計(jì)?！?/p>

Veo 3生成的視頻（圖源谷歌官網(wǎng)）

讓他們“開口說話”的是美國(guó)搜索引擎公司谷歌在今年5月發(fā)布的視頻生成模型Veo 3，其最大的特點(diǎn)是在視頻中融合音頻，直接生成話語流暢、口型自然的人物，且自帶符合場(chǎng)景特征的音效。而此之前，AI視頻一直是默片，需要后期配音，再借助工具讓角色嘴唇動(dòng)作看起來合理。

2022年以來，以ChatGPT聊天機(jī)器人程序?yàn)榇淼纳墒饺斯ぶ悄芤l(fā)關(guān)注，行業(yè)像被按下了快進(jìn)鍵，幾乎每個(gè)月都有AI熱點(diǎn)出現(xiàn)。相比之下，視頻生成技術(shù)在最初一段時(shí)間里不溫不火。不過，歷經(jīng)近3年的發(fā)展，AI視頻已逐漸從最初類似PPT、動(dòng)圖的形態(tài)，進(jìn)化至直接產(chǎn)出主體和場(chǎng)景一致的視頻?；Ｐ湍芰Φ?，帶來了畫質(zhì)、流暢度、真實(shí)感的提升，影響面不斷擴(kuò)展、滲透性不斷增強(qiáng)。

如今，學(xué)界、業(yè)界已在眺望AI視頻迎來“技術(shù)奇點(diǎn)”的時(shí)刻。我們?cè)撊绾卫斫庖曨l生成模型的核心突破意義？它又會(huì)給生產(chǎn)生活帶來什么影響？

一場(chǎng)由大模型孕育出的演進(jìn)

2023年初，AI生成視頻與生成圖像，幾乎在同一時(shí)期進(jìn)入公眾視野——英國(guó)人工智能公司Stability.ai的“穩(wěn)定擴(kuò)散”模型（Stable Diffusion）帶火了“文生圖”，美國(guó)人工智能公司Runway的視頻生成模型“Gen-1”則是激起了“人人都能制作電影大片”的無限遐想。

彼時(shí)，“穩(wěn)定擴(kuò)散”模型用時(shí)數(shù)月，讓AI生成的圖像幾近照片級(jí)真實(shí)。Runway創(chuàng)始人不由興奮：“我們已經(jīng)看到了圖像生成模型的爆發(fā)，相信2023年將會(huì)是視頻之年。”

然而，圖像生成模型的成功并沒能引發(fā)AI生成視頻技術(shù)的同步成熟。

起初，AI視頻主要分為兩條技術(shù)路徑：或是與“文生圖”的技術(shù)一脈相承，著重“還原呈現(xiàn)”，打上擴(kuò)散模型（Diffusion Model）的烙??；或是沿用ChatGPT的技術(shù)脈絡(luò)，采用自回歸模型（Autoregressive model）方法，講究“邏輯推理”，靠大參數(shù)、大數(shù)據(jù)，從零開始構(gòu)建模型體系。

“走純粹的自回歸路徑，至今尚未出現(xiàn)很好的產(chǎn)品?！闭憬髮W(xué)藝術(shù)與考古學(xué)院副教授沈華清說。同時(shí)，他認(rèn)為更普遍的擴(kuò)散模型“缺陷也明顯”。

這位自稱“無門無派、興趣廣泛的教書先生”，2006年起接觸AI，生成圖片、創(chuàng)作視頻，19年間從“好奇嘗鮮”變成“深度沉迷”。沈華清類比幀動(dòng)畫原理，向記者解釋擴(kuò)散模型的技術(shù)難點(diǎn)：“按最低的24fps（幀/秒）算，5秒的視頻需要120張圖。每張圖間都要保持相互的人物一致、動(dòng)作連貫，連光影的斑駁細(xì)節(jié)都不能穿幫——這相當(dāng)于讓120位畫家同時(shí)畫同一幅畫，每一幅每一筆都要嚴(yán)絲合縫。”

的確，靜態(tài)圖像生成只需解決“是什么”的問題。視頻卻要在此基礎(chǔ)上，在回答“如何變化”命題的同時(shí)，保證主體是統(tǒng)一的、運(yùn)動(dòng)是符合常識(shí)的。人們發(fā)現(xiàn)，2023年底美國(guó)人工智能初創(chuàng)公司“米德朱尼”（Midjourney）同名的“文生圖”工具已經(jīng)能生成以假亂真的圖像，同期美國(guó)AI初創(chuàng)公司Pika labs發(fā)布的AI視頻產(chǎn)品Pika 1.0還局限在風(fēng)格特定的3秒片段上。

沈華清回憶起那段使用經(jīng)歷，即便先用“文生圖”模型生成了不錯(cuò)的分鏡圖，再通過“圖生視頻”模型拼接成片，但在最終呈現(xiàn)的幾秒視頻里，人物總是畸形、畫面常有畸變，“這哪是人在動(dòng)，分明是算法在抽搐，看得人脊背發(fā)涼”。

生成視頻技術(shù)始終“小步快走”，沒有根本性的突破。就在大家快失去耐心時(shí)，時(shí)間來到2024年2月：美國(guó)開放人工智能研究中心（OpenAI）繼ChatGPT后，再發(fā)布“文生視頻”模型Sora。

Sora生成的宣傳視頻（圖源Sora)

這一全新模型用ChatGPT背后的神經(jīng)網(wǎng)絡(luò)架構(gòu)（Transformer）替換傳統(tǒng)擴(kuò)散模型中的卷積U-Net網(wǎng)絡(luò)，迭代出一條新的DiT（Diffusion Transformer）路徑，如此，Sora可以精準(zhǔn)根據(jù)文本指令，生成最長(zhǎng)為1分鐘的高清視頻，畫面逼真、絲滑連貫。

業(yè)內(nèi)直言：“AI視頻的‘GPT時(shí)刻’，來了?！?/p>

忽如一夜春風(fēng)來。眼下，騰訊“混元”、華為“諾亞”......各家廠商謀局落子，可謂“神仙打架”。其中，又以擁有海量視頻數(shù)據(jù)的字節(jié)跳動(dòng)、快手增勢(shì)最為迅猛，其分別在2024年3月、6月推出的即夢(mèng)和可靈，迅速躋身AI視頻產(chǎn)品的第一梯隊(duì)。

一位技術(shù)人員笑稱，這條DiT新路徑似乎達(dá)成了一個(gè)“成年”模型的“既要又要”——用大語言模型里學(xué)到的世界知識(shí)來幫助生成視覺世界?！耙曨l就這樣成了從大模型根上生長(zhǎng)出來的一項(xiàng)功能，上升軌跡飛快?！?/p>

但即便是Sora問世一年后的今天，一鍵“文生視頻”仍難有良品?！爱吘?，語言是高度壓縮的信息?！鄙蛉A清說，一千個(gè)讀者眼中尚且有一千個(gè)哈姆雷特，將抽象文字直接轉(zhuǎn)為具體的時(shí)空連續(xù)體，這對(duì)算力和工程化的要求實(shí)在太高，“不是誰都能做的，也不是在短時(shí)間內(nèi)就能做好的。”

我負(fù)責(zé)想象，AI負(fù)責(zé)展現(xiàn)

AI技術(shù)的革新令人振奮，但技術(shù)終歸要落地產(chǎn)業(yè)，才能產(chǎn)生價(jià)值。

一位技術(shù)人員告訴記者，不同于此前大模型簡(jiǎn)單直接的“文本輸入-文本輸出”交互邏輯，視頻生成技術(shù)因視覺模態(tài)的復(fù)雜性，用起來要棘手得多。而“能用”與“好用”之間，又橫亙著訓(xùn)練數(shù)據(jù)、算力、成本控制等多重障礙。

眼下，單個(gè)的AI視頻生成工具還處在“宣傳視頻都很好，但實(shí)際一點(diǎn)都不好用”的階段。

“套用多種工具很有必要?！敝袊?guó)傳媒大學(xué)導(dǎo)演系科班出身的羅翀，拍過豆瓣8.3分傳記式宣傳片、拿過中國(guó)紀(jì)錄片學(xué)院獎(jiǎng)……今年年初，他從杭州某大廠離開，轉(zhuǎn)型自由AI導(dǎo)演。在制作多個(gè)商片的過程中，他迅速摸到了生成視頻的一條路子。

羅翀介紹，不同視頻生成模型有不同的優(yōu)缺點(diǎn)，比如快手的可靈強(qiáng)于對(duì)多鏡頭、物理規(guī)律的理解；美國(guó)人工智能公司Runway的模型性價(jià)比更高，生成速度更快。

但畢竟AI生成如同“抽卡”，他告訴記者，即便套用了多個(gè)AI視頻產(chǎn)品不斷打磨、篩選，得到了比較滿意的結(jié)果，還是需要借助PS等編輯軟件再進(jìn)行微調(diào)?！安贿^，最后成品完全可以和傳統(tǒng)商片掰掰手腕?！?/p>

“雖然缺少故事線，但未來，意識(shí)流的賽博視頻或?qū)⒊蔀橐粋€(gè)門類?！绷_翀說，自己仿佛遇見了共創(chuàng)者，“我負(fù)責(zé)想象、嘗試，AI負(fù)責(zé)調(diào)整、展現(xiàn)，降本增效的同時(shí)，極大地拓寬創(chuàng)作的自由度?！?/p>

院線影視講究起承轉(zhuǎn)合、質(zhì)量要求更高。AI離這個(gè)目標(biāo)仿佛還遠(yuǎn)，但在浙江，AI好像又很近。一家老牌影視企業(yè)，便提供了可供分析的落地樣本。

第27屆上海國(guó)際電影節(jié)啟幕前夕，浙江博采傳媒有限公司一條3分鐘創(chuàng)意短片《兩代悟空對(duì)戰(zhàn)》，在B站傳播量近百萬。網(wǎng)友紛紛贊嘆所用技術(shù)之精妙——無論是六小齡童飾演的86版美猴王，還是網(wǎng)游《黑神話：悟空》的天命人，“大圣風(fēng)采依舊”。

記者也去湊了個(gè)熱鬧。湖州市德清縣博采AI虛擬影視基地，導(dǎo)演的監(jiān)視器中，兩代悟空對(duì)戰(zhàn)正酣，遠(yuǎn)處宮殿群光影流動(dòng)。但現(xiàn)場(chǎng)，只有兩位動(dòng)捕老師，拿著特殊棍棒，在一塊“空地”“打”得激烈，無論是角色樣貌、服飾，還是建筑、云霧，都是LED顯示屏“附上”的畫面。工作人員用鼠標(biāo)一點(diǎn)，上天入地，切換只在分秒間，演員置身其中，畫面真假難辨。

“單靠AI，肯定跑不出這樣的片子。”博采傳媒研發(fā)中心總監(jiān)王偉東告訴記者，《兩代悟空對(duì)戰(zhàn)》融合了影視行業(yè)所用的4D掃描、Holo身體掃描、LED拍攝等技術(shù)，“我們稱之為‘虛擬制片’?！睋?jù)他介紹，團(tuán)隊(duì)專門開發(fā)了一套虛擬制片管理軟件Kmoke，融合各類AI工具，“效率直接提高了3倍、成本起碼節(jié)省了三分之一。”

博采傳媒總裁辦項(xiàng)目統(tǒng)籌牛聰說，在電影創(chuàng)作中，相比導(dǎo)演和制片，AI其實(shí)是做好了一份助理的工作——通過AI實(shí)時(shí)預(yù)演，讓創(chuàng)意的好壞“盡在眼前”；傳統(tǒng)影視的各個(gè)環(huán)節(jié)也從“線性等待”轉(zhuǎn)為“動(dòng)態(tài)協(xié)同”，無論是調(diào)整劇本還是場(chǎng)景，在AI的“協(xié)同”下，都更加高效。

“今年，我們引入AI大模型，繼續(xù)迭代一整套AI創(chuàng)作系統(tǒng)‘墨客’，實(shí)現(xiàn)連貫性的劇本創(chuàng)作，并產(chǎn)出精準(zhǔn)可控的視頻。”牛聰坦言，針對(duì)現(xiàn)在AI視頻像素細(xì)節(jié)不夠的問題，“通過改進(jìn)的AI增分技術(shù)，也實(shí)現(xiàn)從720p躍升為5K，直接達(dá)到電影放映級(jí)畫面質(zhì)量?！?/p>

在拉平的起始點(diǎn)上重新競(jìng)爭(zhēng)

美國(guó)開放人工智能研究中心（OpenAI）在一份技術(shù)報(bào)告中，對(duì)AI視頻的定義是“世界模擬器”。這個(gè)遠(yuǎn)景表明，AI視頻有潛力成為一種通用人工智能，理解世界、改變世界。

不可否認(rèn)，這種顛覆性在技術(shù)細(xì)節(jié)中確有顯露。有從業(yè)者根據(jù)Sora產(chǎn)品表現(xiàn)出的不錯(cuò)的“3D一致性”，推測(cè)它或許能通過參數(shù)的再疊加，沖破智能閾值，觸摸到對(duì)世界完整理解和創(chuàng)造的邊界。

“大力出奇跡”真能無往不利？學(xué)界對(duì)此的質(zhì)疑聲也不少。

北京通用人工智能研究院院長(zhǎng)朱松純?cè)鞔_：過去，“大數(shù)據(jù)+大算力+大模型”的思維定式，過度簡(jiǎn)化了通用人工智能的復(fù)雜性。美國(guó)互聯(lián)網(wǎng)公司Meta（原Facebook）人工智能研究負(fù)責(zé)人楊樂昆更是直言：“生成式模型是建立世界模型的死胡同，通過生成像素來模擬世界的動(dòng)作，既浪費(fèi)又注定失敗?！?/p>

實(shí)踐也證明，AI視頻實(shí)現(xiàn)如此“暴力美學(xué)”的代價(jià)極高：運(yùn)行一個(gè)動(dòng)輒超百億參數(shù)規(guī)模的視頻生成模型，尖端顯卡要“跑”數(shù)十秒甚至數(shù)分鐘，才能制作一個(gè)一分鐘、分辨率高達(dá)1080p的視頻，算力成本高昂得驚人。

不可忽視的還有生成式人工智能的固有癥結(jié)——“幻覺”。從“0.8＜0.09”的數(shù)學(xué)對(duì)答，到四條腿的螞蟻圖，再到在跑步機(jī)上倒著跑的人，AI擅長(zhǎng)計(jì)算卻拙于糾錯(cuò)，因?yàn)樗鼪]有自主意識(shí)，對(duì)現(xiàn)實(shí)世界“知之甚少”。北京大學(xué)新聞與傳播學(xué)院教授胡泳坦言，幻覺或許會(huì)在技術(shù)的迭代中減少，但永遠(yuǎn)無法徹底修復(fù)，失敗風(fēng)險(xiǎn)始終存在。

技術(shù)障礙外，高質(zhì)量訓(xùn)練數(shù)據(jù)又從何而來？一如ChatGPT問世引發(fā)的深度造假、版權(quán)侵權(quán)、隱藏偏見等法律倫理爭(zhēng)議，AI視頻同樣繞不開這些熟悉而嚴(yán)重的“老問題”。

但不可否認(rèn)，AI視頻正加速被市場(chǎng)接納，其價(jià)值與影響力持續(xù)攀升。《2025中國(guó)廣告主營(yíng)銷趨勢(shì)調(diào)查報(bào)告》顯示：今年4月，超50%的廣告主已將生成式AI納入創(chuàng)意生產(chǎn)，AI營(yíng)銷內(nèi)容占比超過10%。

也是在4月，美國(guó)電影藝術(shù)與科學(xué)學(xué)院宣布，2026年第98屆奧斯卡金像獎(jiǎng)將正式允許AI參與創(chuàng)作的電影參評(píng)，這標(biāo)志著AI正式進(jìn)入主流評(píng)價(jià)體系。但評(píng)審標(biāo)準(zhǔn)中，“將綜合考慮人類創(chuàng)作者在創(chuàng)意創(chuàng)作過程中所發(fā)揮的核心作用，來決定最終的獲獎(jiǎng)?wù)摺钡奈⒚畋硎?，也暗示著人類藝術(shù)本質(zhì)的不可替代性。

AI視頻正處落地的“中場(chǎng)哨”階段。熱潮過后，玩家紛紛沉下心來，打磨產(chǎn)品的基礎(chǔ)能力、拓寬模型的適應(yīng)邊界、重構(gòu)與用戶的長(zhǎng)期關(guān)系。

其中，可以確定的是，AI正成為創(chuàng)作的基底。正如快手聯(lián)合創(chuàng)始人程一笑將可靈定位為“更多行業(yè)創(chuàng)作的新基礎(chǔ)設(shè)施”，AI將拉平所有人的起始點(diǎn)。

“我們不要放大AI的影響，也不要低估AI的長(zhǎng)期影響。”5年前，沈華清選擇將AI帶入課堂，鼓勵(lì)學(xué)生借助工具嘗試不同風(fēng)格的拓展、延伸、融合，從中吸取靈感。他認(rèn)為，在這個(gè)技術(shù)愈發(fā)平權(quán)的時(shí)代，競(jìng)爭(zhēng)已轉(zhuǎn)向快速捕捉創(chuàng)意并落地的原創(chuàng)能力，考驗(yàn)的是使用者的積累——“擁有審美、分析、判斷能力，成為跨領(lǐng)域、跨學(xué)科的融合通才，是AI時(shí)代的新要求”。

技術(shù)在逼近極限，創(chuàng)意卻仍是無邊的疆域。正如那句在X上被反復(fù)轉(zhuǎn)發(fā)的AI臺(tái)詞：“我們不過是0和1的排列組合？醒醒吧，伙計(jì)?！钡绻芤赃@串“0與1”為筆，誰又說人類不能寫出更廣闊、更深刻的未來圖景？

責(zé)編：李傳新

一審：李傳新

二審：劉文韜

三審：楊又華

來源：央視網(wǎng)

我要問

91经典在线,在线观看免费国产精品,神马久久一区二区,欧美综合视频在线观看,а天堂8中文最新版在线官网,欧美美女啪啪,永久免费看成人av的动态图