OpenAI首批“王炸”来了!上线满血版o1大模型,速度提升近50%,错误率降低了34%,支持图片输入

北京时间12月6日凌晨,OpenAI举行了“12天12场直播”活动的首秀,如预期一样带来了推理大模型o1的满血版本和进阶模式,以及每月收费高达200美元(约合人民币1450元)的ChatGPT Pro订阅服务

OpenAI称,该套餐的订阅用户可以大规模访问OpenAI旗下最佳的模型和工具,包括无限制访问OpenAI最智能的模型OpenAI o1以及同系列较小模型o1-mini、GPT-4o、类人的ChatGPT高级语音模式Advanced Voice。

此外,ChatGPT Pro的套餐中还可以包括名为o1 pro mode的新o1版本,也是ChatGPT Pro独有的o1版本。OpenAI称,这个新版本使用更多的计算,能更深入地思考,并为最困难的问题提供更好的答案。希望未来为ChatGPT Pro添加更强大的计算密集型生产力功能。

图片来源:视觉中国

OpenAI表示,与预览版本相比,现在的o1模型“思维已经被训练得更加简洁”(大概快50%),同时在回答困难现实问题时,出现重大错误的概率减少了34%。

在演示中,在回答“列出2世纪罗马皇帝的名字、任期和主要成就”时,o1模型“思考”了14秒,而o1预览版花了34秒。顺便一提,能力更差的GPT-4o在回答这个问题时会犯错。

o1模型的另一个重要更新在于支持图片输入,现在可以在询问模型“太空数据中心散热问题”时,附上一张手绘的示意图。OpenAI表示,计划在未来几个月里增加网页浏览、文件上传等功能的支持


在数学、科学和编码等具有挑战性的机器学习(ML)基准测试中,o1 pro mode的表现均胜过o1 和 o1-preview。在数学方面,o1 pro mode得分86,o1 和 o1-preview分别为78和50,在编码方面,o1 pro mode得分90,o1 和 o1-preview分别为89和62,在问答博士级别的科学问题方面,o1 pro mode得分79,后两者分别为76和74。

为了突出o1 pro mode的主要优势——可靠性更高,OpenAI还提高了评估门槛,要求只有在四次尝试中四次全部能够正确回答问题、而不是仅一次答对时,才能算作模型解决了问题。即使在这种高标准要求下,o1 pro mode的表现也明显强于o1和o1-preview。

下图可见,在以上四次答问都必须正确的标准下,o1 pro mode相比o1和o1-preview的优势更大。数学方面,o1 pro mode得分80,o1和o1-preview分别为67和37,在编码方面,o1 pro mode得分75,o1和o1-preview分别为64和26,在问答博士级别的科学问题方面,o1 pro mode得分74,后两者分别为67和58。


值得注意的是,ChatGPT Pro是OpenAI推出的最新订阅档次,比ChatGPT Plus贵上10倍。

花费1个月200美元后,用户可以无限量地使用o1模型(Plus用户目前的限制是每周50条信息),以及无限量使用o1 mini和高级语音模式,同时也能用上o1 pro模式。

官方的定义称,o1 pro会使用更多的计算资源进入深入思考,并为“最难的问题提供最好的答案”。OpenAI未来也会给这个订阅档次,添加更多更强大、计算密集型的功能。

在演示中,OpenAI演示了通过设定一系列苛刻的条件,让o1 pro筛选出符合条件的蛋白质。

在OpenAI的公告中,也提到向10名医学研究人员赠送了免费的ChatGPT Pro,研究领域涵盖孤儿病、癌症、痴呆等。这大概也是使用这个订阅服务的人群画像。

在整场发布会的最后,奥尔特曼也提到明天的演示会有“对开发者很棒的东西”。

每日经济新闻综合公开资料