OpenAI為什么總要故意砸場(chǎng),谷歌今天又給出了什么回應(yīng)?
OpenAI又一次加塞砸場(chǎng)
這已經(jīng)不是第一次了。OpenAI擺明了是要加塞,故意在谷歌發(fā)布會(huì)前一天發(fā)布自己的產(chǎn)品,砸直接競(jìng)爭(zhēng)對(duì)手的場(chǎng)子,搶占媒體報(bào)道風(fēng)頭。因?yàn)槭莿?chuàng)業(yè)公司,OpenAI總能比谷歌更快作出反應(yīng),靈活安排活動(dòng)時(shí)間。
他們上次這么做還是是2月份,谷歌發(fā)布了多模態(tài)大模型Gemini 1.5 Pro,直接將性能拉到支持百萬Token的業(yè)界新高。但這并沒有成為那天的焦點(diǎn),因?yàn)镺penAI在同一天發(fā)布了文生視頻工具Sora,諸多栩栩如生又極具想象力的AI視頻隨即成為了社交媒體上的爆款,搶盡了谷歌Gemini的幾乎所有風(fēng)頭。
這一次OpenAI又搞突然襲擊。谷歌I/O大會(huì)的日期是提前數(shù)月就宣布的,但OpenAI上周突然宣布在谷歌大會(huì)前一天召開發(fā)布會(huì),在
昨天發(fā)布了最新大模型GPT-4o(o代表著Omnimodel全能模型),提前引爆了AI大模型的關(guān)注熱度,再次打亂了谷歌即將發(fā)布AI新品的傳播節(jié)奏。
GPT-4o不僅是完全免費(fèi)的,而且覆蓋了桌面與移動(dòng)App,不僅性能大幅提升,而且可以綜合處理文本、圖片和音頻,人機(jī)交互更加自然簡(jiǎn)單。舉例來說,可以讓GPT-4o加入網(wǎng)絡(luò)會(huì)議,給用戶記錄發(fā)言總結(jié)概要。
GPT-4o具體有什么用?用戶可以讓GPT-4o處理眼前的問題,極大提升生產(chǎn)力,可以與AI實(shí)時(shí)語音對(duì)話,就像是與真人聊天一樣自然流暢,AI處理反應(yīng)已經(jīng)達(dá)到人類的速度,甚至還可以理解用戶的情緒,以相應(yīng)的情感作出回應(yīng)。
那么,面對(duì)OpenAI的故意撞車和搶占風(fēng)頭,谷歌在今天的I/O大會(huì)上又拿出了怎樣的AI產(chǎn)品,是否帶來了足夠的震撼與新意?
Gemini 1.5 Pro支持兩百萬Token
谷歌I/O開發(fā)者大會(huì)今年已經(jīng)進(jìn)入了第16個(gè)年頭,AI早已成為I/O大會(huì)的絕對(duì)乃至唯一的主角。谷歌CEO皮查伊更是在結(jié)束時(shí)宣布,整場(chǎng)發(fā)布會(huì)一共說了121次AI,引發(fā)了全場(chǎng)大笑。(這個(gè)梗是因?yàn)槿ツ昝襟w統(tǒng)計(jì)谷歌在I/O上一共說了143次AI,今年谷歌干脆自己公布統(tǒng)計(jì)數(shù)字)。
雖然整場(chǎng)發(fā)布會(huì)都沒有提及競(jìng)爭(zhēng)對(duì)手,但谷歌CEO皮查伊從主題演講一開始就開始秀谷歌的AI實(shí)力,宣布谷歌已經(jīng)全面進(jìn)入Gemini時(shí)代。他強(qiáng)調(diào)谷歌已經(jīng)在AI領(lǐng)域投入了十多年時(shí)間,貫穿了AI的每一層:研究、產(chǎn)品、基礎(chǔ)設(shè)施。
雖然AI新貴OpenAI在產(chǎn)品發(fā)布方面搶占了先發(fā)優(yōu)勢(shì),但谷歌在研究論文、用戶規(guī)模、產(chǎn)品數(shù)量以及算力方面都占據(jù)著壓倒性優(yōu)勢(shì),這也是OpenAI必須與微軟結(jié)盟的直接原因,因?yàn)閮杉夜径疾豢赡軉为?dú)與谷歌掰手腕。
皮查伊還宣布,Gemini大模型已經(jīng)覆蓋了谷歌全平臺(tái)的20億用戶產(chǎn)品,僅僅三個(gè)月時(shí)間就有100多萬用戶注冊(cè)使用。而兩個(gè)月前發(fā)布的原生多模型Gemini 1.5 Pro已經(jīng)得到超過150萬開發(fā)者的使用。
在性能方面,谷歌就是AI業(yè)界的滅霸。Gemini 1.5 Pro此前直接將Token(上下文處理)性能提升到了百萬級(jí)別,全面壓倒了受困于性能變慢的GPT-4.0 Turbo。三個(gè)月后,谷歌在今天宣布改進(jìn)版的Gemini 1.5 Pro全面開放給Gemini Advanced的用戶,并且支持35種語言。
更為殘暴的是,谷歌還將Gemini 1.5 Pro的上下文窗口處理性能直接翻倍到了200萬(暫時(shí)只面向開發(fā)者提供),在這方面OpenAI只能望塵莫及。皮查伊宣布,這是朝著無限上下文的最終目標(biāo)邁出的重要一步。
Gemini 1.5 Pro可以給用戶帶來怎樣的實(shí)際體驗(yàn)?谷歌用Workspace辦公組件展示了AI給生產(chǎn)力帶來的巨大變化。舉例來說,如果是通過Google Meets進(jìn)行遠(yuǎn)程會(huì)議,哪怕用戶無法參會(huì),也可以讓Gemini為自己錄音并列出會(huì)議紀(jì)要。
有了Gemini,Gmail郵箱就有了靈魂。代寫郵件已經(jīng)是基本操作了。用戶可以讓Gemini幫助自己整理和總結(jié)Gmail的海量郵件,根據(jù)最近的收據(jù)和信用卡賬單郵件整理歸納出用戶的消費(fèi)支出,給出一份專業(yè)又具體的財(cái)務(wù)支出清單。
在電商時(shí)代,Gemini還能扮演智能管家的角色。用戶甚至可以讓Gemini自動(dòng)在郵件中找到收據(jù)郵件,并進(jìn)入商家平臺(tái)申請(qǐng)退貨,還能讓快遞上門取貨。這一切都只需要用戶向Gemini下達(dá)指令。Gemini 1.5 Pro從今天開始全面入駐Workspace Labs。
輕量AI模型Flash
Gemini模型家族的新品還不僅于此。谷歌DeepMind CEO哈撒比斯(Demis Hassabis)在主題演講中介紹了Gemini的新成員:輕量、迅捷、高效的模型1.5 Flash,以及未來AI助手Project Astra。
去年12月,谷歌發(fā)布了第一代原生多模型Gemini 1.0,包括了Ultra、Pro以及Nano三個(gè)版本。三個(gè)月后谷歌發(fā)布了百萬Token處理能力的Gemini 1.5 Pro。今天谷歌將Gemini 1.5 Pro處理能力提升到200萬級(jí)別之外,還推出了輕量模型Gemini 1.5 Flash。
雖然Gemini 1.5 Flash的上下文處理能力同樣達(dá)到了百萬級(jí)別,但卻比1.5 Pro更為輕便迅速,針對(duì)低延遲和專注成本的任務(wù)進(jìn)行了優(yōu)化,更適合規(guī);瘶(gòu)建。Gemini 1.5 Flash今天就會(huì)在通過谷歌AI Studio和Vertex AI兩大平臺(tái)向開發(fā)者提供。
Project
Astra是谷歌DeepMind打造的未來通用智能AI助手,也是對(duì)標(biāo)OpenAI GPT-4o的產(chǎn)品。Astra不僅具備多模態(tài)處理,可以無縫應(yīng)對(duì)文本圖片視頻等多媒體內(nèi)容,還能以更為智能實(shí)時(shí)的方式與用戶進(jìn)行對(duì)話。
或許略微遺憾的是,OpenAI已經(jīng)在昨天搶先發(fā)布了GPT-4o的類似功能,晚了一天亮相的Astra少了諸多驚喜和震撼,或許這就是OpenAI突然搶先發(fā)布的主要原因。因?yàn)檎l先發(fā)布就占據(jù)了媒體報(bào)道的焦點(diǎn)。如果OpenAI在谷歌Astra之后發(fā)布GPT-4o,同樣也會(huì)失去諸多傳播魅力所在。
搜索更加人性與個(gè)性
從搜索到郵件,從地圖到圖片,再到辦公組件,谷歌有著太多上億乃至十億用戶級(jí)別的產(chǎn)品可以承載AI落地。橫跨iOS與Android平臺(tái),移動(dòng)與桌面兩端的20億+的用戶規(guī)模,以及幾乎覆蓋所有領(lǐng)域的產(chǎn)品,更是谷歌AI技術(shù)落地的龐大產(chǎn)品軍火庫(kù)。
生成式AI在搜索領(lǐng)域的應(yīng)用顯然是最直接的用戶體驗(yàn)。即便微軟借助OpenAI試圖彎道超車,但過去一年市場(chǎng)份額也只漲了不到一個(gè)百分點(diǎn)(目前3.64%)。而谷歌雖然市場(chǎng)份額減少了兩個(gè)百分點(diǎn),但目前全球市場(chǎng)占有率依然接近91%。
有了Gemini大模型的加持,谷歌搜索得以全面提升,提供一對(duì)一的解答。用戶可以隨心所欲的提問,無論是具體知識(shí),還是尋求建議,谷歌搜索的AI Overviews都可以應(yīng)答如流,不僅給出實(shí)際的回答,更提供信息來源。
具體來說,用戶搜索“如何清洗布質(zhì)沙發(fā)”的問題,AI Overviews不僅會(huì)提供幾種清洗沙發(fā)的方法,還會(huì)帶來答案的信息來源,再附上清洗產(chǎn)品的鏈接(購(gòu)買谷歌搜索廣告的商家產(chǎn)品)。未來用戶還可以根據(jù)自身需求,對(duì)AI Overview的回答進(jìn)行個(gè)性化調(diào)整,提供更為簡(jiǎn)明扼要或者細(xì)節(jié)詳盡的回答。
實(shí)際上,此前已經(jīng)有不少用戶已經(jīng)通過Search Labs的實(shí)驗(yàn)功能體驗(yàn)到了AI Overviews功能。AI Overviews今天正式在美國(guó)市場(chǎng)推出,未來會(huì)逐步擴(kuò)展到其他國(guó)家市場(chǎng)。谷歌預(yù)計(jì),單是本周時(shí)間就會(huì)有數(shù)億用戶使用到AI Overviews,今年年底用戶規(guī);?qū)⑼黄?0億級(jí)別。
AI功能全面落地手機(jī)端
雖然I/O主題演講開始78分鐘之后,谷歌才開始介紹Android平臺(tái)的AI新功能,但這并不意味著Android在谷歌AI戰(zhàn)略的重要性降低。實(shí)際上,移動(dòng)端才是用戶體驗(yàn)谷歌AI功能的最直接平臺(tái)。
在今年年初三星手機(jī)推出谷歌AI技術(shù)加持的畫圈搜索、全屏翻譯等人性功能之后(三星國(guó)行版使用百度AI技術(shù)),半年時(shí)間全球已經(jīng)有超過1億設(shè)備搭載了谷歌畫圈搜索功能。谷歌預(yù)計(jì)今年年底這一數(shù)字將翻一倍,達(dá)到兩億設(shè)備。
而且,得益于谷歌LearnLM模型,畫圈搜索功能還有了更多的實(shí)際運(yùn)用。從今天開始,畫圈搜索將幫助學(xué)生做家庭作業(yè),替代家教作用,幫助他們更好了解如何做題,而不僅僅是給出直接答案。這也是昨天OpenAI GPT-4o所展示的使用場(chǎng)景。
Gemini on Android是谷歌為Android平臺(tái)推出的一系列人性化功能。有了這一功能,用戶可以用對(duì)話的方式,在寫郵件和發(fā)短信的過程中直接生成和發(fā)送個(gè)性化圖片,可以在YouTube視頻中直接尋找想要的內(nèi)容,在PDF中迅速找到自己所需的內(nèi)容,而不用再自己費(fèi)力瀏覽搜索。
在Android設(shè)備端上的Gemini Nano模型還帶來了TalkBack和反詐功能,這兩大功能都會(huì)在今年晚些時(shí)候發(fā)布。有了TalkBack功能,失明或者弱視患者可以通過手機(jī)攝像頭,聽AI描述眼前的世界,即便沒有網(wǎng)絡(luò)也可以使用。
智能反詐功能則可以根據(jù)聊天中的敏感內(nèi)容(例如騙子要求進(jìn)行銀行轉(zhuǎn)賬,詢問個(gè)人密碼時(shí)),即使彈出警告窗,提醒用戶這可能是詐騙電話。由于Gemini Nano完全是基于設(shè)備端,用戶不用擔(dān)心自己的通話內(nèi)容被監(jiān)聽。
AI圖片工具Ask Photos
Google Photos是谷歌在2015年發(fā)布的云相冊(cè)服務(wù),iOS和Android用戶可以將自己的所有照片和視頻都存入這個(gè)云端相冊(cè),并在任何聯(lián)網(wǎng)設(shè)備上接入。目前Google Photos每天上傳的照片與視頻數(shù)量超過了60億。
海量的圖片如何整理和搜索,一直是個(gè)用戶體驗(yàn)難題。現(xiàn)在谷歌推出了AI工具Ask Photos之后,用戶可以輕松尋找出任何想要的圖片,回憶過去的點(diǎn)滴記憶,再也不擔(dān)心找不到或者花很長(zhǎng)時(shí)間才能找到想要的照片。
舉例來說,用戶想回憶女兒的成長(zhǎng)過程,可以向Google Photos提問“女兒是什么時(shí)候?qū)W會(huì)游泳的?”。谷歌就可以迅速展示小女孩最早開始游泳的照片,讓用戶看到這個(gè)溫暖的記憶判斷。
AI甚至還可以幫助用戶進(jìn)行歸納總結(jié)。用戶可以提出更為復(fù)雜的問題,“女兒的游泳技能是怎么提升的?”谷歌不僅會(huì)搜索相關(guān)的女兒游泳照片,還可以提供一段簡(jiǎn)單的說法,幫助用戶更好的回憶女兒的游泳技能的提升過程。
文生視頻模型叫板Sora
谷歌DeepMind的文生視頻模型Veo是今天最為驚艷的產(chǎn)品之一。三個(gè)月前OpenAI用一波Sora生成視頻搶盡了谷歌Gemini 1.5 Pro的風(fēng)頭,今天谷歌拿出了自己的產(chǎn)品回?fù)鬝ora。
雖然比OpenAI的Sora晚了三個(gè)月發(fā)布,但是Veo帶來的視頻卻更為高清流暢自然,看起來更為真實(shí)(當(dāng)然三個(gè)月時(shí)間,Sora也可能有了重大更新)。Veo可以生成一分鐘以上的1080p分辨率視頻,可以理解“延時(shí)攝影”以及“航拍風(fēng)景”等術(shù)語,展示多種電影與視頻風(fēng)格。
為了展示Veo在電影行業(yè)的潛力,谷歌還邀請(qǐng)了出演過《火星救援》等諸多作品的好萊塢電影人格羅夫(Donald Glover)進(jìn)行產(chǎn)品試用。此次大會(huì)上也展示了格羅夫創(chuàng)意工作室Gilga使用Veo制作的數(shù)個(gè)看起來極具大片風(fēng)格的視頻片段。
谷歌宣布,Veo從今天開始向特定創(chuàng)作者提供內(nèi)測(cè),并在未來整合到Y(jié)ouTube Shorts和其他產(chǎn)品中。無論什么AI功能,蘋果都有海量用戶的產(chǎn)品可以承載。YouTube Shorts是谷歌對(duì)標(biāo)TikTok的短視頻服務(wù),發(fā)布三年時(shí)間之后,目前月活用戶已經(jīng)突破了23億(當(dāng)然這是得益于YouTube的龐大體量)。顯然,一旦Veo進(jìn)入YouTube Shorts,其用戶規(guī)模將是Sora所無法想象的。
此外,谷歌還展示了DeepMind最新的文生圖片模型Imagen 3,這是對(duì)應(yīng)OpenAI的DALL.E3。谷歌在發(fā)布會(huì)上展示了Imagen 3生成的數(shù)張高清圖片,據(jù)稱具有更好的自然語言理解,更好理解文本背后的意圖,帶來更為細(xì)節(jié)、更強(qiáng)渲染能力的圖片。Imagen 3也從今日開始通過谷歌的AI圖片工具ImageFX向特定創(chuàng)作者提供測(cè)試,未來會(huì)整合到谷歌的機(jī)器學(xué)習(xí)平臺(tái)Vertex AI中。
文本:一個(gè)短發(fā)胡須男子微笑著看著鏡頭。背景模糊,可以看到淺影的樹木和建筑。
文本:一只手握著一個(gè)泥塑小鳥雕像,另外一只手拿著刻刀。可以看到雕刻著的圍巾。他的雙手沾滿粘土。用一張近攝的單反圖片突出紋理和雕刻質(zhì)感。
此外,谷歌還推出了面向音樂愛好者的Music AI Sandbox,用生成式AI音樂模型Lyria,幫助音樂人更為便捷地創(chuàng)作出不同風(fēng)格的音樂作品。這些功能也會(huì)整合進(jìn)YouTube平臺(tái)。
第六代TPU芯片Trillium
谷歌在AI領(lǐng)域的強(qiáng)大優(yōu)勢(shì)不僅體現(xiàn)在大模型,還體現(xiàn)在他們?cè)贏I處理器領(lǐng)域的實(shí)力。過去六年時(shí)間,行業(yè)對(duì)機(jī)器學(xué)習(xí)運(yùn)算能力的需求增長(zhǎng)了100萬部,而且每年都會(huì)增長(zhǎng)10倍。而谷歌在這方面則站在了行業(yè)價(jià)值鏈的頂端。
早在2016年谷歌就推出了為AI訓(xùn)練設(shè)計(jì)的第一代TPU(定制張量處理單元)。Gemini大模型完全是在自己的第四代和第五代TPU上進(jìn)行訓(xùn)練與服務(wù)的,谷歌甚至還向Anthropic等其他AI公司提供了TPU訓(xùn)練服務(wù)。相比之下,OpenAI目前還只能依靠微軟獲得訓(xùn)練能力。
今天谷歌在I/O大會(huì)上還發(fā)布了第六代TPU處理器Trillum,計(jì)劃今年晚些時(shí)候向云服務(wù)客戶推出,Trillium的每個(gè)芯片處理速度比前一代TPU v5e提升了4.7倍。
除了TPU之外,谷歌上個(gè)月還發(fā)布了第一代基于ARM架構(gòu)的AI CPU Axiom,并且通過CPU和GPU來支持AI工作負(fù)載。皮查伊表示,明年谷歌云將成為首批搭載英偉達(dá)Blackwell GPU的服務(wù)商。
自O(shè)penAI在2022年底發(fā)布ChatGPT起,這場(chǎng)AI軍備禁賽已經(jīng)開始了一年多時(shí)間,除了OpenAI和谷歌,微軟、Meta、華為等全球主要科技巨頭和Anthropic等創(chuàng)業(yè)公司都已經(jīng)投入到這場(chǎng)未來爭(zhēng)奪戰(zhàn)中。而OpenAI和谷歌則是其中最受矚目的兩大領(lǐng)先者。
雖然OpenAI憑借創(chuàng)業(yè)公司的靈活專注優(yōu)勢(shì),屢屢搶占先發(fā)優(yōu)勢(shì),每次都能領(lǐng)先谷歌一步發(fā)布新品,獲得行業(yè)一片叫好,但谷歌依然有著自己的獨(dú)有優(yōu)勢(shì)所在。作為最早投入AI研究的科技巨頭,谷歌最大的競(jìng)爭(zhēng)優(yōu)勢(shì)不僅在于產(chǎn)品的研發(fā),還包括了基礎(chǔ)設(shè)施和運(yùn)算能力,在于龐大的谷歌應(yīng)用矩陣與數(shù)十億的用戶級(jí)別。
在昨天OpenAI再次加塞搶發(fā)GPT-4o之后,今天谷歌全面展示了自己在AI領(lǐng)域的全方位優(yōu)勢(shì),展示了AI給自己全平臺(tái)服務(wù)與產(chǎn)品帶來的體驗(yàn)提升。今天,AI滅霸戴上了手套,打了一個(gè)響指。