如果去年你错过了深海寻找的时刻，那就别错过今年的奇米周。-墙外贴吧

回忆一下2025年的1月？DeepSeek公布了R1，低成本匹配o1，并在一天内将纳斯达克指数的价值减少了近1万亿美元。另一个中国AI实验室就迎来了自从DeepSeek的巨震以来最具影响力的周。该公司是Moonshot AI。他们的模型是Kimi。

发生在一周之间的那些事情：

1. 注意力残余

3月16日，Kimi团队在arXiv上public了题目为“注意力残余”的paper，提议取代了从2015年以来基本保持不变的现代LLM的每个组成部分。标准的残余连接器给予每层的输出一样的对待。注意力残余使得每层可以选择性地回顾以前的层级，使用学习到的输入依赖权重。结果：性能相当于使用1.25倍更多的计算，但在不到2%的预测开支。埃隆·马斯克重新发布了这一论文。Andrej Karpathy参与到了这一讨论并提出了这样一个观点，可能我们之前并没有真正地理解“注意力是你所需要的”的标题。Jerry Tworek，即OpenAI研发总监，曾组织过o1训练计划，引用了一条推文：“重新思考一切。深度学习2.0即将到来。”当建造当前前沿推理模型的人们在公开上说这个paper可能会是新的-paradigm的开始时，那么这一点是一个强烈的信号。

2. 突击队员公布了Kimi K2.5

上周，拥有29.3亿美元估值的Cursor推出了“Composer 2”，其被市场化为他们的自家前沿编码模型。24小时后，一名开发人员拦截了API流量，发现了模型ID：kimi-k2p5-rl-0317-s515-fast。Cursor的VP之后承认：“是的，Composer 2基于一个开源base的起点。”

3. 一家竞争商被拿到了Kimi的code

与此同时，在中国一侧，一份GitHub分析显示，另一家主要的中国AI公司MiniMax以find-and-replace级别的修改，拷贝了Kimi的工作技能codebase，包括13个字节一致的文件。 13个硬编码的“kimi”用户名留在了源代码中，一份编译好的.NET二进制文件的构建路径中甚至写有 kimiagent/.kimi/技能/.

那么呢?

什么也比同行行为更有说服力。Karpathy与你的paper互动，Cursor在你的模型上建筑，而竞争性公司拷贝你的代码，那么这一点就是三个独立的信号，指向了同一方向——Kimi被低估了。

Moonshot AI仍然是私有的，由阿里巴巴（BABA）和香港山（原本是Sequoia China）等人支持，所以目前尚无直接的投资机会。然而，如果你持有BABA或正在追踪中国AI的暴露，那么值得关注这一点。

以上不包含任何投资建议。只是我认为大多数人这里都会睡着，因为每个头条都单独被覆盖，没有人连接起来这些点。

如果去年你错过了深海寻找的时刻，那就别错过今年的奇米周。

评论 (0)

推荐帖子