8月8日,chatgpt-5上线后,不少用户发现openai停用gpt-4o版本,引发巨大争议。社交媒体出现不少关于gpt-5使用感不佳的吐槽,更有用户直呼“还我gpt-4o”。
面对用户争议,openai发文宣布,重新上线gpt-4o,供plus和team用户使用,若需多平台使用,用户可在chatgpt网页版设置中启用“显示旧版模型”访问gpt-4o。与此同时,下周还将推出迷你版gpt-5和gpt-5thinking。
openai首席执行官萨姆·奥尔特曼同样在x平台上连发两条推文,回复下线gpt-4o与gpt-5上线带来的争议。
奥尔特曼坦言,低估了用户对gpt-4o的喜爱程度,并表示这强化了公司为不同用户提供定制化服务的理念,未来将推出比当前更多的定制化内容。同时,其宣布将允许plus用户继续使用gpt-4o,并将密切关注用户使用情况,考虑旧版本模型的保留期限。
针对用户对gpt-5的负面反馈,奥尔特曼解释称,这是由于自动切换器损坏,致使gpt-5表现异常。他表示,未来将专注于完成gpt-5的部署与改进,并确保其稳定性。
奥尔特曼同时透露,gpt-5上线后,chatgptapi流量在24小时内翻倍增长,openai正在全力优化系统并寻找更多的容量。但他坦言,预计下周仍将面临严峻的容量挑战。
用户对gpt-5的“吐槽”,主要集中在新模型虽提升了回答的专业度,但却缺少了情感交互的温度、个性及想象力。
据每日经济新闻,在8月7日的发布会上,奥尔特曼曾用三个生动的身份,类比了公司三代旗舰模型的演进:gpt-3像是偶有灵光闪现但常伴挫败感的高中生;gpt-4则如同具备了真实智慧与实用价值的大学生;而最新的gpt-5,则被誉为可以按需召唤的“博士级专家”,能够随时助力用户达成各种复杂目标。
openai声称,gpt-5在超高难度的科学问题上刷新了世界纪录,并在与人类专家的对比测试中,有近70%的场景表现更优。此外,gpt-5还与现有的o系列模型进行了无缝整合,能够根据任务的复杂性,自动选择最佳的推理路径。官方数据显示,gpt-5在代码生成和写作领域的准确率均高于gpt-4系列,部分内部测试中的错误率甚至下降了约80%。
为了减少备受诟病的“幻觉”问题,gpt-5还引入了更严格的事实核查与内容过滤机制。具体来看,在联网搜索时,gpt-5的事实错误概率比gpt-4o低约45%;独立思考时,出错概率比o3模型低约80%;在开放式事实性基准测试中,产生“幻觉”的数量更是比o3模型少了约六分之五。
openai在发布会上特别强调了gpt-5在代码生成和写作方面的能力。然而,用户的实际使用体验,似乎并未完全印证官方的说法。
meta公司的一位工程师体验gpt-5后在社交媒体上感叹道:“gpt-5仅用一次调用就重构了我的整个代码库:25个工具调用,3000多行新代码,12个全新的文件。”但他随即话锋一转:“然而,这些代码都无效(无法正常工作),虽然确实写得很漂亮。”
从第三方的基准测试数据来看,gpt-5相较于竞争对手的旗舰模型,其领先优势也微乎其微。根据artificialanalysis的综合排名,gpt-5目前虽然位列第一,但其综合得分仅比自家的老模型o3高出两分,比grok4仅高出一分。而在被誉为agi终极测试的arcprize竞赛中,gpt-5更是被grok4大幅超越。
“gpt-5不太可能‘超越一切预期’,因为大模型的边际收益正在迅速递减。”ai营销与销售专家、太和智库研究员唐兴通在接受每经记者采访时分析指出,“我们今天所看到的所谓‘进步’,更多是来自于工程层面的调优和多模态能力的融合,而非纯粹的智能层面上的突破。”
他认为,ai的发展正面临两大物理限制:“我们必须清醒地认识到,‘数据墙’是客观存在的,高质量的公共训练数据正在被快速耗尽。同时,算力成本的指数级增长,也让过去那种‘大力出奇迹’的暴力美学难以为继。”