中国开源人工智能 DeepSeek R1 与 OpenAI o1 相媲美，成本低 98%

Bitget App

交易“智”变

Bitget

资讯中心

币界网2025/01/25 21:21

作者:币界网

DeepSeek的新R1模型在自由和开源的同时匹配了OpenAI的性能，并以一种引人入胜的方式到达那里。

中国人工智能研究人员已经实现了许多人认为是光明的几年：一种免费的开源AI模型，可以匹配或超过Openai最先进的推理系统的性能。使这一点更加引人注目的是他们如何做到：通过试用和错误，类似于人类的学习方式，就可以让AI自学。

“DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型，无需监督微调 (SFT) 作为初步步骤，展示了卓越的推理能力。”这研究论文读。

“强化学习”是一种方法，即模型以做出良好的决定并因做出坏事而受到惩罚，而不知道哪一个是什么。经过一系列决定，它学会了遵循这些结果加强的道路。

最初，在监督微调阶段，一群人告诉模型他们想要的输出，并为其提供上下文以了解什么是好的，什么是不好的。这导致了下一阶段，即强化学习，其中模型提供不同的输出，人类对最好的输出进行排名。一遍又一遍地重复该过程，直到模型知道如何始终如一地提供令人满意的结果。

中国开源人工智能 DeepSeek R1 与 OpenAI o1 相媲美，成本低 98% image 0

图像：DeepSeek

DeepSeek R1 是人工智能开发的引导者，因为人类在训练中的参与最少。与其他基于大量监督数据进行训练的模型不同，DeepSeek R1 主要通过机械强化学习进行学习，本质上是通过实验并获得有效方法的反馈来找出答案。

研究人员在论文中说：“通过RL，DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。”该模型甚至开发了复杂的功能，例如自我验证和反思，而没有明确编程来这样做。

当模型经历训练过程时，它自然地学会了为复杂问题分配更多的“思考时间”，并发展出发现自己错误的能力。研究人员强调了一个“ A-HA时刻”该模型学会重新评估其最初解决问题的方法 - 这并未明确编程。

性能数字令人印象深刻。在AIME 2024数学基准中，DeepSeek R1取得了79.8％的成功率，超过了Openai的O1推理模型。在标准化的编码测试中，它表明了“专家级别”的性能，在代码方面获得了2,029个ELO评级，并且表现优于96.3％的人类竞争对手。

中国开源人工智能 DeepSeek R1 与 OpenAI o1 相媲美，成本低 98% image 1

图像：DeepSeek

但是真正使DeepSeek R1与众不同的是它的成本或缺乏成本。该模型仅以每百万个代币0.14美元相比Openai的$ 7.50，使其便宜98％。与专有模型不同，DeepSeek R1的代码和培训方法是MIT许可证的完全开源的，这意味着任何人都可以抓住模型，使用并修改它而无需限制。

中国开源人工智能 DeepSeek R1 与 OpenAI o1 相媲美，成本低 98% image 2

图片来源：Deepseek

人工智能领导者的反应

DeepSeek R1的发布引发了人工智能行业领导者的强烈反响，许多人强调了完全开源模型在推理能力上与专有领导者相匹配的重要性。

NVIDIA的顶级研究员Jim Fan博士发表了最尖锐的评论，与Openai的原始任务直接相似。范说：“我们居住在一个非美国公司保持Openai的原始任务的时间表中，这是赋予一切力量的敞开式边界研究。”

粉丝召集了DeepSeek的强化学习方法的重要性：“它们也许是第一个[开源软件]项目，显示了[强化学习]飞轮的持续增长。他还称赞DeepSeek的直接分享“原始算法和Matplotlib学习曲线” “相对于炒作驱动的公告在行业中更为常见。

苹果研究员 Awni Hannun 提到，人们可以在 Mac 上本地运行该模型的量化版本。

传统上，由于与 Nvidia 的 CUDA 软件缺乏兼容性，苹果设备在人工智能方面一直处于弱势，但这种情况似乎正在改变。例如，人工智能研究员 Alex Cheema 在利用 8 个 Apple Mac Mini 设备一起运行后能够运行完整的模型，这仍然比运行当前可用的最强大的人工智能模型所需的服务器便宜。

也就是说，用户可以在其Mac上以良好的准确性和效率运行更轻的DeepSeek R1。

然而，最有趣的反应是在思考开源行业与专有模型的接近程度，以及这一发展可能对 OpenAI 作为推理 AI 模型领域的领导者产生的潜在影响之后。

Stability AI 的创始人 Emad Mostaque 采取了挑衅性的立场，认为这一发布给资金更充足的竞争对手带来了压力：“你能想象作为一个筹集了 10 亿美元资金的前沿实验室，现在却无法发布你的最新模型，因为它无法击败 DeepSeek？”

遵循相同的推理，但提出了更严重的论点，科技企业家Arnaud Bertrand解释说，竞争性开源模型的出现可能对OpenAI有害，因为这使得其模型对否则可能愿意花费一定花费的权力用户的吸引力较低每个任务都有很多钱。

“这本质上就好像有人发布了一款与 iPhone 相当的手机，但售价却是 30 美元，而不是 1000 美元。事情就是这么戏剧化。”

AI的困惑首席执行官Arvind Srinivas的市场影响力构成了释放：“ DeepSeek在很大程度上复制了O1 Mini，并开源了。”在一项后续观察中，他指出了进步的迅速步伐：“看到推理很快就会被商品化有点疯狂。”

斯里尼瓦斯说，他的团队将努力将DeepSeek R1的推理能力带到未来的困扰下。

快速上手

我们进行了一些快速测试，以将模型与OpenAI O1进行比较，首先是一个众所周知的问题：“草莓一词中有多少个RS？”

通常，模型很难提供正确的答案，因为它们不使用文字，而是使用符号、概念的数字表示。

GPT-4o 失败了，OpenAI o1 成功了——DeepSeek R1 也成功了。

然而，o1在推理过程中非常简洁，而DeepSeek则应用了重推理输出。有趣的是，DeepSeek 的回答感觉更人性化。在推理过程中，该模型似乎在自言自语，使用了机器上不常见但人类更广泛使用的俚语和单词。

例如，在反思卢比的数量时，模型对自己说：“好吧，让我弄清楚（这个）。”它还在辩论时使用“嗯”，甚至说“等等，不。”等等，我们来分解一下。”

该模型最终达到了正确的结果，但花费了大量时间推理和吐痰令牌。在典型的定价条件下，这将是一个劣势。但是，鉴于目前的状态，它可以比Openai O1输出更多的令牌，并且仍然具有竞争力。

另一项测试，以查看模型在推理上的表现如何，是玩“间谍”并在短篇小说中识别肇事者。我们从大板凳GitHub上的数据集。（全文可用这里并涉及到一个偏僻的下雪地点的学校旅行，学生和老师面临一系列奇怪的失踪，模型必须找出谁是缠扰者。

两种模型都考虑了一分钟。但是，Chatgpt在解决这个谜之前崩溃了：

但是DeepSeek在“思考” 106秒后给出了正确的答案。思考过程是正确的，该模型甚至能够在得出不正确（但仍然足够逻辑）的结论后纠正自身。

较小版本的可访问性给研究人员留下了特别深刻的印象。就上下文而言，1.5B 模型非常小，理论上您可以在功能强大的智能手机上本地运行它。据 Hugging Face 的数据科学家称，即使是这么小的 Deepseek R1 量化版本也能与 GPT-4o 和 Claude 3.5 Sonnet 面对面对抗Vaibhav Srivastava.

就在一周前，加州大学伯克利分校的Skynove发行了天空T1，一个推理模型也能够与OpenAI O1预览竞争。

有兴趣在本地运行模型的人可以从以下位置下载吉图布或者抱脸。用户可以通过微调来下载，运行它，删除审查制度或将其调整到不同的专业知识领域。

或者，如果您想在线尝试该模型，请访问拥抱聊天或 DeepSeek 的Web门户，这是Chatgpt的一个很好的替代方法 - 尤其是因为它是免费的，开源的，并且是唯一具有用于推理的型号的AI ChatBot界面，除了ChatGpt。

编辑安德鲁·海沃德

免责声明：文章中的所有内容仅代表作者的观点，与本平台无关。用户不应以本文作为投资决策的参考。

PoolX：锁仓获得新代币空投

不要错过热门新币，且APR 高达 10%+

立即参与！