在全球人工智能(AI)競爭加劇的背景下,谷歌宣布推出Gemini 3.5系列模型,以及一款用於模擬物理世界的新型AI模型,旨在模型開發方面保持領先,同時為其龐大的用戶群提供更多AI智能體服務。
谷歌在周二舉行的年度開發者大會(Google I/O)上發布了上述消息,當前市場正高度關注OpenAI與Anthropic兩家公司飆升的估值,這兩家公司均計劃最早於今年進行IPO。
谷歌AI戰略的核心依然是Gemini系列及相關工具。周二公司重點展示了Gemini 3.5 Flash,這是該系列的一款輕量級產品。
谷歌行政總裁桑達爾·皮查伊表示,Gemini 3.5 Flash在提供尖端能力的同時,其成本僅為同類頂尖模型的一半,甚至有時不到三分之一,同時保持了高智能水平。
皮查伊稱Gemini 3.5 Flash「速度極快」。谷歌同時宣布,該型號將成為全球Gemini應用和搜索AI模式的默認模型。
谷歌在博客中指出:「用戶無需再在質量與響應速度之間做取捨。」公司還強化了Gemini 3.5 Flash的網絡安全防護,使其「生成有害內容的可能性更低,也不易在安全問題上拒絕回答。」
至於重量級版本Gemini 3.5 Pro,目前僅在內部使用,預計下月才會向更廣泛的用戶開放。
在AI智能體方面,谷歌推出了Gemini Spark,這是Gemini應用中一款新型通用AI智能體,能夠對關聯應用中的信息進行跨平台推理。谷歌表示,該工具能夠管理用戶的數字生活,並代表用戶執行操作。Gemini Spark目前處於測試階段,下周將首先向受信任的測試用戶及Google AI Ultra訂閱用戶開放。
皮查伊表示:「我們已經將智能體帶給開發者和企業一段時間了。現在,我們專注於將這種前沿能力安全可靠地帶給消費者,讓每個人都能受益。」
隨着越來越多的互聯網用戶使用聊天機械人,谷歌正在努力說服傳統搜索用戶信任其完成最少輸入即可執行的任務。在公司資本支出大幅上升的情況下,華爾街關注谷歌是否能實現產品深度整合,而智能代理功能可能成為重要突破口。
AI公司的市場預期持續上升,尤其是在Anthropic近期發布的Mythos模型背景下。據稱,該模型強大到能夠發現全球軟件基礎設施中的數千個未知漏洞。
谷歌的AI產品組合還包括Gemini Omni,這是一款用於模擬物理環境的世界模型,可以根據用戶的操作預測接下來會發生的情況。世界模型通常用於機械人和遊戲領域,多年來一直是DeepMind重點研究方向。而Omni在物理模擬方面更準確,例如重力、流體動力學和動能等。
谷歌DeepMind首席AI架構師兼技術總監Koray Kavukcuoglu介紹稱:「Omni可以生成非常高質量的視頻,並允許用戶在生成後與視頻進行互動。可以想像,這為學習和探索提供了類似教程的能力。」
Omni可在Gemini Flash、Gemini應用、Google Flow及YouTube Shorts中運行,支持圖像和音頻功能。谷歌在另一篇博客中指出,用戶可利用Omni編輯視頻並生成更逼真的圖像效果。
「拍攝一段視頻,可以讓Omni改變其中正在發生的內容。」谷歌表示,這款AI模型能夠「編輯動作、添加新角色或物體」。
高質量視頻的生成一直是AI工具的難點,而且對計算資源要求極高。OpenAI在今年早些時候就放棄了其視頻生成工具Sora,部分原因就是為了將算力資源用於其他項目。
開發者大會火力全開:AI搜索、代碼生成、視頻模型齊發
谷歌重新設計了其標誌性的搜索框,並推出新的人工智能(AI)編程工具,成為該公司擴大影響力、投入數十億美元推進AI戰略的最新舉措。
谷歌在I/O大會上宣布,公司對搜索框進行了全面升級,更好地處理用戶向聊天機械人提出的更長、更複雜的問題。
公司還表示,將為搜尋引擎加入「代理」(agent)功能,可幫助用戶追蹤感興趣的話題、預訂餐廳以及監測健康狀況,不過其中部分功能初期僅向付費訂閱用戶開放。
谷歌行政總裁桑達爾·皮查伊(Sundar Pichai)介紹道:「AI正在點亮公司每一個角落。持續不斷的產品發布、技術的快速進步,這是一個高速發展的時期。」
谷歌一直在為AI時代重塑自身業務,希望同時吸引普通消費者和企業客戶。皮查伊表示,更加偏向AI的調整已經幫助提升了搜索使用量。Gemini應用的用戶量同比翻倍,目前月活已達到9億。
與此同時,谷歌也正與OpenAI和Anthropic爭奪AI編程工具市場的主導地位。近幾個月來,谷歌高層越來越擔憂公司在AI編程領域已落後於競爭對手。
在周二的活動上,谷歌發布了多款面向開發者的新工具,可以幫助他們利用AI編寫代碼並管理代理系統,這些工具被歸入「Antigravity」平台之下。
谷歌還推出了旗艦AI模型的新版本Gemini 3.5 Flash,並稱其是迄今為止最強的編程模型。
谷歌表示,該模型在部分指標上速度快於競爭對手產品,同時使用成本更低。公司還透露,性能更強、價格更高的「Pro」版本目前已在內部使用,將於下個月向公眾開放。
前DeepMind研究員、現AI代理初創公司Simular行政總裁Ang Li表示:「我認為谷歌有機會在AI編程領域追趕上來,公司一直擅長通過穩定、持續的方式取得成果。」
谷歌還把編程功能整合進搜尋引擎,訂閱用戶將可以在搜索中創建自定義儀錶盤,用於管理婚禮籌備、健身計劃等任務。
此外,谷歌還推出了一項新的訂閱計劃,開發者每月支付100美元即可獲得更多AI工具使用權限。
隨着類似功能分階段上線,谷歌搜索免費版與付費版之間的差距正在擴大。對此,谷歌知識與信息業務高級副總裁Nick Fox表示,公司仍然專注於服務非付費用戶。
谷歌還發布了另一款新模型Gemini Omni,公司稱其能夠「通過任何輸入生成任何內容」:用戶可以通過圖片、音頻、視頻和文字提示生成視頻,還能夠通過簡單自然語言對視頻進行編輯。谷歌表示,未來還將擴展該產品,使其支持生成圖片和音頻。
隨着AI生成視頻日益普及,谷歌也將加強對「深度偽造」(Deepfake)內容的標註。皮查伊在展示一張自己與黃仁勛、奧爾特曼和馬斯克共進晚餐的圖片後調侃道:「這顯然是假的,我不吃漢堡。」
谷歌還升級了Gemini應用,希望把它打造為消費者體驗AI的重要入口。付費用戶可啟用「Daily Brief」功能,獲取個性化晨間摘要,了解當天重點事項。從下周開始,訂閱用戶還將獲得名為Gemini Spark的新助手。
谷歌副總裁Josh Woodward在博客文章中寫道:「Spark代表着Gemini的一次重大轉變,它不再只是一個回答問題的助手,而是一個能夠在你的指揮下主動完成真實工作的合作夥伴。」
Gemini應用也進行了重新設計,採用谷歌所謂的「神經表達式」(neural expressive)美學風格,加入動畫、亮色以及觸覺反饋。
這一設計也呼應了谷歌搜索框的大改版。谷歌稱,這是該產品25年來最大的一次更新。新的搜索框將支持更長的問題輸入、更方便上傳文件和圖片,並幫助用戶更自然地組織搜索內容。
Fox表示,這是谷歌努力讓用戶以最自然方式獲取信息的一部分。「你應該能夠把腦海中的任何問題直接輸入搜索框,我們希望擴大人們對搜索能力的認知邊界。」