最近推出的 ChatGPT o1(也称为 Strawberry)将整个人工智能 (AI) 领域推向了新的方向。新的 o1 模型不仅有望提供一种改进 LLM 功能的新方法,而且在回答复杂问题方面也更具功能性。
OpenAI 为其 Pro、Plus 和 Team 用户推出了两款型号,全新完整版 o1 和迷你版 o1。
这些推理能力为任何主动采用新 OpenAI o1 模型的企业提供了竞争优势。
那么,让我们看看这个模型与目前提供的其他模型相比如何,我们将介绍。
OpenAI o1 是什么?
OpenAI o1 是一系列新的人工智能模型,旨在通过在响应之前花费更多时间思考来解决复杂的推理任务,例如科学、数学和编码挑战。
o1 Mini 是一款较小的模型,具有进行推理的能力,同时计算效率较高。
目前,这些模型的 加密货币数据 价格为每 100 万输入代币 15 美元,每 100 万输出代币 60 美元。
如果您是用户,您可以在 Plus 和 Team 计划中使用具有较小速率限制的 o1(分别为每月 20 美元和每月 30 美元)。您还可以在 Pro 计划中获得更高的速率限制(每月 200 美元)。正如 Sam Altman 在 Twitter 上澄清的那样,Pro 计划适用于 ChatGPT 的高级用户。
2023 年ChatGPT 4发布后
又有一系列新版本发布。然而,在回复消息方面,没有一个新 LLM 比 ChatGPT 4 有显著的改进。
查看构建 o1 模型的 OpenAI 团队:
OpenAI o1 通过打破范式有效地突破了这一瓶颈。
让我们通过分解问题来以更简单的术语来理解它。
OpenAI LLM 课程分为三个阶段
1. 预训练
预训练是一个计算成本很高的阶段,在这个阶段,Transformer 需要对大量未标记的数据进行训练。但是,在模型中可以进行的预训练数量有两个限制:
a.数据稀缺——2024年 7 月的一项 如何为人工智能撰写优秀的提示 研究估计,到 2025 年,将有更多人类生成的高质量数据来训练新模型。
b.计算成本——一种名为 GPT-MoE 的先进模型 (SOTA),在 1.8 T 代币上进行训练,需要全天候访问 8000 个 H100 GPU 90 天。
这是学习强化和微调模型
所花费的时间。通常,这需要人类不断使用这些模型来改善其反应,以及一个机器学习奖励模型,该模型会随着时间的推移优化模型。OpenAI 引入了PPO,它优化了这些模型。
这是回答问题所花费的时间。通常,模型会识别问题的上下文,然后使用该上下文来制定答案。
到目前为止,LLM 构建的大部分重点都集 短信列表 中在预训练过程上。工作假设是,如果你能在预训练期间向 LLM 输入高质量的数据,它就能更好地推理。
OpenAI o1优化了训练和推理时间。
OpenAI o1 的创新是什么?
OpenAI strawberry (o1) 已经接受了先进(和专有)的 RL 算法的训练,以最大限度地提高准确性和推理能力。
这使得它能够在竞争性任务中胜过人类专家,并参加CodeForces的比赛并获胜。
推理
与之前的模型不同,OpenAI o1 在回答问题之前会“思考”。实际上,它会将复杂的问题分解成小部分,理解上下文,并提供有理有据的答案。
这使得它能够解决竞争性数学问题(在AIME级别)。