OpenAI GPT-4o與Google Gemini競逐

【2024年5月14日訊】

OpenAI推出GPT-4o,大幅提升語音視覺文本能力;Google推出Gemini系列,整合至搜尋及Android。

OpenAI推出GPT-4o 提升助理能力

OpenAI推出GPT-4o模型

5月13日,OpenAI推出全新AI模型「GPT-4o」,大幅提升ChatGPT能力,使其更近人類語音助理。GPT-4o能即時推理音頻、視覺及文本,創新是以統一神經網絡處理所有輸入輸出。

發布會上,前沿研究主管Mark Chen示範GPT-4o感知用戶情緒,當他急促呼吸時,GPT-4o風趣地勸他「不要像吸塵器般呼吸」,並建議放緩,在他深呼吸後表示肯定。此外,Mark示範GPT-4o具備情緒語音,能戲劇化、機械及歌唱朗讀故事。

研究員Barret Zoph展示GPT-4o實時視覺功能。GPT-4o可以通過手機攝像頭實時解決數學問題,如同一位真實的數學老師指導,亦能經前置鏡頭觀察用戶面部表情,分析其情緒。

OpenAI技術長Mira Murati宣布,GPT-4o免費向所有用戶開放,付費及企業用戶可享更多使用次數。

Google推新AI Gemini融入Android

Google舉行年度Google I/O大會

翌日5月14日,Google I/O 2024大會上,為應市場需求,Google推出AI模型Gemini 1.5 Flash,力爭市場競爭力。同時推出高畫質影片生成模型Veo,可生成1080p影片,長逾一分鐘,支援多種視覺及電影風格。

Google宣布推出AI驅動的智能助手初版「Project Astra」,以及「Ask Photo」。Ask Photo讓用戶上傳照片並提問,Gemini運用圖像識別及語言處理技術作答,如「顯示每個國家公園最佳照片」,Google Photos將利用GPS及判斷「最佳」呈現。用戶可請Google Photos為照片生成標題,以便分享社交媒體。

Google宣布在美國搜索結果頂端展示Gemini生成的詳盡AI答覆,務求提供更豐富準確資訊滿足用戶需求,此功能擬年底前惠及十億人亦宣布整合Gemini至Android系統,為用戶提供更智能手機體驗。

伸延閱讀

您可以在維基百科中瀏覽更多資訊:
您可以在維基百科中瀏覽更多資訊:

消息來源