OpenAI GPT-4o与Google Gemini竞逐

【2024年5月14日讯】

OpenAI推出GPT-4o，大幅提升语音视觉文本能力；Google推出Gemini系列，整合至搜寻及Android。

OpenAI推出GPT-4o 提升助理能力

OpenAI推出GPT-4o模型

5月13日，OpenAI推出全新AI模型“GPT-4o”，大幅提升ChatGPT能力，使其更近人类语音助理。GPT-4o能即时推理音频、视觉及文本，创新是以统一神经网络处理所有输入输出。

发布会上，前沿研究主管Mark Chen示范GPT-4o感知用户情绪，当他急促呼吸时，GPT-4o风趣地劝他“不要像吸尘器般呼吸”，并建议放缓，在他深呼吸后表示肯定。此外，Mark示范GPT-4o具备情绪语音，能戏剧化、机械及歌唱朗读故事。

研究员Barret Zoph展示GPT-4o实时视觉功能。GPT-4o可以通过手机摄像头实时解决数学问题，如同一位真实的数学老师指导，亦能经前置镜头观察用户面部表情，分析其情绪。

OpenAI技术长Mira Murati宣布，GPT-4o免费向所有用户开放，付费及企业用户可享更多使用次数。

Google推新AI Gemini融入Android

翌日5月14日，Google I/O 2024大会上，为应市场需求，Google推出AI模型Gemini 1.5 Flash，力争市场竞争力。同时推出高画质影片生成模型Veo，可生成1080p影片，长逾一分钟，支援多种视觉及电影风格。

Google宣布推出AI驱动的智能助手初版“Project Astra”，以及“Ask Photo”。Ask Photo让用户上传照片并提问，Gemini运用图像识别及语言处理技术作答，如“显示每个国家公园最佳照片”，Google Photos将利用GPS及判断“最佳”呈现。用户可请Google Photos为照片生成标题，以便分享社交媒体。

Google宣布在美国搜索结果顶端展示Gemini生成的详尽AI答复，务求提供更丰富准确资讯满足用户需求，此功能拟年底前惠及十亿人亦宣布整合Gemini至Android系统，为用户提供更智能手机体验。

伸延阅读

消息来源

Park Chan，GPT-4o新功能是什么？可以即时语音对答，更可以直接理解视讯、音讯作即时回应，Esquire Hong Kong，2024年5月14日。
新浪财经，3分钟速览OpenAI春季发布会：GPT-4o炸裂登场！听说读写丝滑如真人，新浪财经，2024年5月14日。
Gerrit De Vynck and Danielle Abril，Google pitches its vision for AI everywhere, from search to your phone，Washington Post，2024年5月14日。
Google Blog，I/O 2024: New ways to experience Google AI on Android，Google，2024年5月14日。
罗亦丹，GPT-4o发布：可读懂用户情绪的智能助理如何从科幻走入现实，新京报，2024年5月14日。

分享：