OpenAI“12天發(fā)布活動”在第三個工作日終于迎來期待已久的Sora!,令人感到驚喜的是,OpenAI不僅正式發(fā)布了Sora,還推出了Sora的升級版——Sora Turbo,并作為獨立產品提供給 ChatGPT Plus 和 Pro 用戶。
在今天的直播中,OpenAI展示了Sora視頻生成模型的新功能,用戶現在能夠創(chuàng)建最高1080p分辨率、長達20秒的視頻,并且可以選擇寬屏、豎屏或方形的畫面比例。Sora不僅支持視頻內容的擴展、混編(remix)和融合,還允許用戶基于文本提示生成全新的視頻內容。此外,全新的故事編輯工具還可以幫助用戶能夠精確控制每一幀的詳細輸入,大幅提升了視頻創(chuàng)作的精細度和靈活性。
自今年2月OpenAI放出Sora視頻生成片段后,公眾對Sora的期待值早已拉滿,一場文生視頻技術的競速賽在全球范圍展開。 國內在文生視頻算法領域也取得了顯著進展,根據國家網信辦公開信息顯示,今年以來國內共有2277個深度合成服務算法通過備案,其中主要用途描述中帶有可實現文生視頻能力的算法34個,備案名稱中明確界定為“文生視頻算法”的僅有6個。
文生視頻算法通過分析和吸收海量數據,學會了依據文本描述來創(chuàng)造相應的視頻內容,結合自然語言處理(NLP)和計算機視覺(CV)的最新進展,提取文本特征并轉換為數值特征,然后利用擴散模型,逐步從隨機噪聲中去噪,最終生成與文本描述相匹配的視頻內容。這一過程涉及到復雜的編碼和解碼機制,包括文本到視頻的映射、視頻生成等關鍵技術。
2024年通過文生視頻算法備案的34家公司中,大部分是人工智能技術、應用相關領域的中小創(chuàng)新企業(yè)。如在自然語言處理、對話式 AI 等方面有深入研究和應用的北京紅棉小冰科技有限公司等。
此外,其中也不乏上市公司或在行業(yè)內有較高的知名度和影響力的科技創(chuàng)企。比如專注于大語言模型等相關技術的研發(fā)與應用的北京智譜領航科技有限公司,就是開發(fā)了生成式AI助手智譜清言的智譜華章旗下全資子公司。其智譜多模態(tài)視頻生成算法,主要應用于智譜清言—清影AI網站,根據用戶輸入的文本、圖片等信息,即可生成符合用戶需求的視頻。
商湯科技是國內計算機視覺領域的頭部企業(yè),公開信息顯示,其通過備案的商湯V-ME視頻合成算法支持已有人物視頻、動畫、聲音、文字等多種元素進行驅動,用戶可根據自身需求靈活選擇適合的素材驅動視頻生成,主要面向 C 端用戶,滿足廣大用戶的娛樂創(chuàng)作需求。
“智境云創(chuàng)文本生成視頻算法”的備案主體同樣有上市公司背景,北京智境云創(chuàng)科技有限公司是深交所上市公司天娛數科(股票代碼:002354)的子公司。據公開信息顯示,智境云創(chuàng)在今年6月一次性通過了“智境云創(chuàng)人臉融合算法”、“智境云創(chuàng)文本生成視頻算法”、“智者千問大語言模型算法”三項算法備案。其中,“智境云創(chuàng)文本生成視頻算法”核心技術涵蓋視頻生成模型、圖像合成、深度學習、自然語言處理等多個領域,能夠對視覺和聽覺元素進行深度學習與分析,實現多模態(tài)融合,從而更精準地理解和生成符合用戶需求的視頻內容,適用于多種應用場景的需求,如廣告創(chuàng)意、教育培訓、娛樂產業(yè)和新聞傳媒等。
文生視頻技術的進步,為內容創(chuàng)作、產業(yè)升級和市場發(fā)展帶來了積極影響,預示著一個全新的內容創(chuàng)作和產業(yè)應用時代的到來。同時也為市場發(fā)展提供了巨大的空間,隨著技術的進一步成熟,文生視頻有望在影視、游戲等細分領域內容創(chuàng)作過程中極大提升效率,加速優(yōu)質供給產出,為各細分行業(yè)帶來新的商業(yè)化機會。