OpenAI GPT-4o與Google Gemini競逐
【2024年5月14日訊】
OpenAI推出GPT-4o,大幅提升語音視覺文本能力;Google推出Gemini系列,整合至搜尋及Android。
OpenAI推出GPT-4o 提升助理能力
5月13日,OpenAI推出全新AI模型「GPT-4o」,大幅提升ChatGPT能力,使其更近人類語音助理。GPT-4o能即時推理音頻、視覺及文本,創新是以統一神經網絡處理所有輸入輸出。
發布會上,前沿研究主管Mark Chen示範GPT-4o感知用戶情緒,當他急促呼吸時,GPT-4o風趣地勸他「不要像吸塵器般呼吸」,並建議放緩,在他深呼吸後表示肯定。此外,Mark示範GPT-4o具備情緒語音,能戲劇化、機械及歌唱朗讀故事。
研究員Barret Zoph展示GPT-4o實時視覺功能。GPT-4o可以通過手機攝像頭實時解決數學問題,如同一位真實的數學老師指導,亦能經前置鏡頭觀察用戶面部表情,分析其情緒。
OpenAI技術長Mira Murati宣布,GPT-4o免費向所有用戶開放,付費及企業用戶可享更多使用次數。
Google推新AI Gemini融入Android
翌日5月14日,Google I/O 2024大會上,為應市場需求,Google推出AI模型Gemini 1.5 Flash,力爭市場競爭力。同時推出高畫質影片生成模型Veo,可生成1080p影片,長逾一分鐘,支援多種視覺及電影風格。
Google宣布推出AI驅動的智能助手初版「Project Astra」,以及「Ask Photo」。Ask Photo讓用戶上傳照片並提問,Gemini運用圖像識別及語言處理技術作答,如「顯示每個國家公園最佳照片」,Google Photos將利用GPS及判斷「最佳」呈現。用戶可請Google Photos為照片生成標題,以便分享社交媒體。
Google宣布在美國搜索結果頂端展示Gemini生成的詳盡AI答覆,務求提供更豐富準確資訊滿足用戶需求,此功能擬年底前惠及十億人亦宣布整合Gemini至Android系統,為用戶提供更智能手機體驗。
伸延閱讀
消息來源
- Park Chan,GPT-4o新功能是甚麼?可以即時語音對答,更可以直接理解視訊、音訊作即時回應,Esquire Hong Kong,2024年5月14日。
- 新浪財經,3分鐘速覽OpenAI春季發布會:GPT-4o炸裂登場!聽說讀寫絲滑如真人,新浪財經,2024年5月14日。
- Gerrit De Vynck and Danielle Abril,Google pitches its vision for AI everywhere, from search to your phone,Washington Post,2024年5月14日。
- Google Blog,I/O 2024: New ways to experience Google AI on Android,Google,2024年5月14日。
- 羅亦丹,GPT-4o發布:可讀懂用戶情緒的智能助理如何從科幻走入現實,新京報,2024年5月14日。