您现在的位置是：首页 > 洗衣机维修

洗衣机维修

OpenAI再次给大模型泡沫续命

2024-09-14 16:06:49洗衣机维修

从大语言模型到推理模型。

编辑丨程曼祺黄俊杰

本周之前，英伟达市值从6月的高点下跌超20%，微软市值也缩水了13%，各自蒸发了几千亿美元。微软CFO称，他们投在大模型领域的数百亿美元，得等15年或更久才能回本。

“泡沫”并不一定是坏事。新技术改变世界之前，都会出现愿景远超现实的阶段。区别在于愿景能不能兑现，什么时候兑现。如果长期不能兑现，就是泡沫破灭、公司破产，严重的泡沫破灭甚至可以击垮一个领域甚至多个经济体。如果愿景兑现了，一切不过是技术进步的注脚。

在此之前，大模型训练已经陷入原有ScalingLaws的瓶颈，模型参数规模扩大后，性能提升逐渐放缓。

专门针对数学、编程、科学问题优化的o1-mini还展现出了不小的应用潜力，它既可以直接帮科学家和开发者提升工作效率，也指示了在其它高价值垂直领域开发性能、安全性都更好的模型的方法。

2016年击败围棋世界冠军的AlphaGo和后续模型AlphaZero就使用了强化学习，让模型自我对弈（self-play），学习在不同状态（棋局）下，用什么策略可以提高胜率。模型还能在不断尝试中生成数据，用来训练模型。

编写一个bash脚本，接收一个矩阵（用字符串表示，格式为'[1,2],[3,4],[5,6]'），并以相同的格式打印出该矩阵的转置。

o1-preview的解题思路（思维链）：

用户请求编写一个bash脚本，该脚本可以接收表示矩阵的字符串，例如'[1,2],[3,4],[5,6]'，并以相同的格式输出其转置。

我们首先来理解输入和输出的格式。

输入：'[1,2],[3,4],[5,6]'，它对应的矩阵是：

因此，输入是一系列由方括号包裹并用逗号分隔的行。

该矩阵的转置为：

135

246

因此，要求的输出为'[1,3,5],[2,4,6]'。

总体任务：

编写一个bash脚本，该脚本接收一个参数（表示矩阵的字符串），并以相同的格式输出其转置。

好的，现在我们来考虑如何在bash中解析输入字符串，构建矩阵（可能使用数组），进行转置，然后输出转置后的矩阵，保持相同的格式。

约束条件：

-由于这是bash，我们必须小心处理字符串解析。

-脚本应接受输入字符串作为参数。

方法：

-解析输入字符串以提取矩阵元素。

-将矩阵构建为一个数组的数组。

-对矩阵进行转置。

-以相同格式输出转置后的矩阵。

实现步骤：

1.将输入字符串作为参数捕获。

2.移除所有空格（如果有的话）。

3.解析输入字符串，将数字提取到数组中。

-由于输入格式为'[1,2],[3,4],[5,6]'，我们可以：

--如果需要，移除外部括号。

--通过'],'分割字符串以获取每一行。

--对每一行，移除'['和']'，然后通过','分割获取元素。

4.在bash中构建二维数组（数组的数组）。

-由于bash数组是一维的，我们需要模拟二维数组。

5.对矩阵进行转置。

-进行转置时，我们需要将行与列交换。

6.以所需格式输出转置后的矩阵。

-重新构造输出字符串，格式为'[1,3,5],[2,4,6]'。

现在，逐步开始编写代码。

潜在问题：

-Bash本身没有原生的多维数组，因此我们需要进行模拟。

-我们需要处理可能是多位数的数字。

接下来，我们可以一步步开始编写这个bash脚本的框架。

【略】

现在让我们使用示例输入'[1,2],[3,4],[5,6]'测试这个脚本。

让我试着模拟下，会发生什么。

我会将其写下来，作为一个答案。

在o1上线前，GoogleDeepMind就在7月发布了用类似方法训练的AlphaGeometry模型更新版，能在国际奥数竞赛IMO中拿银牌。

在数学竞赛、编程竞赛、科学问答数据集测试中，o1-preview、o1大幅超过GPT-4o。

偏向“推理模型”的o1系列并没有全面超过GPT-4o，语言能力是它的相对弱项。

那些GPT-4o解决不了的问题，o1-preview也会出现，比如它同样会“胡说八道”，认为9.11比9.2更大。

思维链带来的更长的响应时间（思考）可能是o1系列实际使用中的短板。在被要求“列出五个第三个字母是A的国家的名字”时，GPT-4o只用3秒，而o1-mini花了9秒，o1-preview花了32秒，是GPT-4o的十倍。对于简单问题基本不可用。

从训练Scaling到推理Scaling，算力竞赛仍将继续

在多位大模型研究者看来，o1最重要的变化是展现出了一种大幅提升大模型能力的新路径。

原来的ScalingLaws意味着，用更多数据和算力训练出参数更大的模型，性能就会更好。

JimFan还提出了大模型未来演进的一种可能：未来的模型可能将推理与知识分离，有小的“推理核心”，同时也用大量参数来记忆事实（知识），以便在琐事问答等测试中表现出色。

不管是o1成为新的主流方法，还是o1与GPT系列结合，演化出下一代大模型，算力需求应该都会进一步提升。

每月花20美元的ChatGPTPlus付费用户，目前每周只能用30次o1-preview和50次o1-mini。而目前GPT-4o的限制是每周4480次（每3小时80次），是o1-mini的90倍，o1-preview的150倍。

对于那些不确定技术演进方向或者一度放缓研究基础模型的公司，现在又有新工作可以做，有新方向可以卷了。o1的发布大概率意味着，在“推理模型”上，竞争差距再一次拉开，一轮加速追赶和投入即将发生。

“是时候正经干点正事了，要不真的就不在游戏里了。”一位中国大模型研究者说。

题图：视觉中国

宙耀家电网

宙耀家电网

洗衣机维修

OpenAI再次给大模型泡沫续命

相关文章