OpenAI GPT-4o与Google Gemini竞逐

【2024年5月14日讯】

OpenAI推出GPT-4o,大幅提升语音视觉文本能力;Google推出Gemini系列,整合至搜寻及Android。

OpenAI推出GPT-4o 提升助理能力

OpenAI推出GPT-4o模型

5月13日,OpenAI推出全新AI模型“GPT-4o”,大幅提升ChatGPT能力,使其更近人类语音助理。GPT-4o能即时推理音频、视觉及文本,创新是以统一神经网络处理所有输入输出。

发布会上,前沿研究主管Mark Chen示范GPT-4o感知用户情绪,当他急促呼吸时,GPT-4o风趣地劝他“不要像吸尘器般呼吸”,并建议放缓,在他深呼吸后表示肯定。此外,Mark示范GPT-4o具备情绪语音,能戏剧化、机械及歌唱朗读故事。

研究员Barret Zoph展示GPT-4o实时视觉功能。GPT-4o可以通过手机摄像头实时解决数学问题,如同一位真实的数学老师指导,亦能经前置镜头观察用户面部表情,分析其情绪。

OpenAI技术长Mira Murati宣布,GPT-4o免费向所有用户开放,付费及企业用户可享更多使用次数。

Google推新AI Gemini融入Android

Google举行年度Google I/O大会

翌日5月14日,Google I/O 2024大会上,为应市场需求,Google推出AI模型Gemini 1.5 Flash,力争市场竞争力。同时推出高清影片生成模型Veo,可生成1080p影片,长逾一分钟,支援多种视觉及电影风格。

Google宣布推出AI驱动的智能助手初版“Project Astra”,以及“Ask Photo”。Ask Photo让用户上传照片并提问,Gemini运用图像识别及语言处理技术作答,如“显示每个国家公园最佳照片”,Google Photos将利用GPS及判断“最佳”呈现。用户可请Google Photos为照片生成标题,以便分享社交媒体。

Google宣布在美国搜索结果顶端展示Gemini生成的详尽AI答复,务求提供更丰富准确资讯满足用户需求,此功能拟年底前惠及十亿人亦宣布整合Gemini至Android系统,为用户提供更智能手机体验。

伸延阅读

您可以在维基百科中浏览更多资讯:
您可以在维基百科中浏览更多资讯:

消息来源