如果你上年的 DeepSeek 时犹豫不决，那就别错过今年的 Kimi 周了！-墙外贴吧

记得2025年1月吗？深度探索（DeepSeek）推出了R1，价格比o1便宜一半，并且一天之内刮起了纳斯达克大盘1万亿美元。

好的，另外一家中国人工智能实验室在深度探索的刺激下，经历了非美国人工智能公司里最重要的一周。该公司名为Moonshot AI，他们的模型名为Kimi。下面是Kimi团队过去一周的进展：

3月16日，Kimi团队在arXiv上发布了一个专利名为"Attention Residuals"，该纸质提议将LLM中基本组件替换，每个LLM模块的实现主要保持不变。由于标准残差连接会对每个层的输出一视同仁。Attention Residuals允许每个模块以自适应的权重回顾之前已获得的结果。结果：性能等同于以1.25倍的计算力训练，但仅有不到2%的推理开支。

埃隆·马斯克转发了这篇论文。安德烈·卡尔帕奇（Andrej Karpathy）加入讨论并指出，也许我们没有用尽地“注意力即尽所有”（Attention is all you need）的名言。Jerry Tworek，OpenAI研发负责人，在Training o1计划中，并且转发了推文，认为或许我们的整个领域需要重新思考，深度学习2.0即将开始。“当当前前沿推理模型的研发者公开表示，中国实验室的一个论文可能值得重视，那是一个强烈的信号。

2月中旬，Cursor被发现泄露了Kimi K2.5。

上周，Cursor总值为293亿美元推出了“作曲家2”，宣称是他们内部的前沿编程模型。在24小时内，一名开发者拦截了API流量并发现了模型ID：kimi-k2p5-rl-0317-s515-fast。Cursor高管随后承认了：“是的，Composer 2基于开源模型.”

3.竞争对手抄袭

此外，在中国一家GitHub分析公司发现，另一家主要的中国人工智能公司MiniMax在他们的-agent平台中直接使用了Kimi的整个办公室技能代码库，随后替换相关字符串。13个字节相同的文件。此外，在源代码中留下了固定的‘kimi’用户名和一个编译。NET二进制文件，其建构路径里仍然读取“kimiagent/.kimi/skills/”。”

那么干嘛呢？

没有比同侪行为更容易感化人的东西。当卡尔帕奇参与讨论，Cursor利用Kimi模型，竞争对手抄袭代码时，那里的三种信号指向同一方向：Kimmi被过低估计。

不是财务建议。Moonshot AI目前仍处于私有化阶段，没有直接运用。

我只是觉得众多人睡着了，因为每张报头都被单独报道，没有人将它们联系起来。

如果你上年的 DeepSeek 时犹豫不决，那就别错过今年的 Kimi 周了！

评论 (0)

推荐帖子