回忆一下2025年的1月?DeepSeek公布了R1,低成本匹配o1,并在一天内将纳斯达克指数的价值减少了近1万亿美元。另一个中国AI实验室就迎来了自从DeepSeek的巨震以来最具影响力的周。该公司是Moonshot AI。他们的模型是Kimi。

发生在一周之间的那些事情:

1. 注意力残余

3月16日,Kimi团队在arXiv上public了题目为“注意力残余”的paper,提议取代了从2015年以来基本保持不变的现代LLM的每个组成部分。标准的残余连接器给予每层的输出一样的对待。注意力残余使得每层可以选择性地回顾以前的层级,使用学习到的输入依赖权重。结果:性能相当于使用1.25倍更多的计算,但在不到2%的预测开支。埃隆·马斯克重新发布了这一论文。Andrej Karpathy参与到了这一讨论并提出了这样一个观点,可能我们之前并没有真正地理解“注意力是你所需要的”的标题。Jerry Tworek,即OpenAI研发总监,曾组织过o1训练计划,引用了一条推文:“重新思考一切。深度学习2.0即将到来。”当建造当前前沿推理模型的人们在公开上说这个paper可能会是新的-paradigm的 开始时,那么这一点是一个强烈的信号。

2. 突击队员公布了Kimi K2.5

上周,拥有29.3亿美元估值的Cursor推出了“Composer 2”,其被市场化为他们的自家前沿编码模型。24小时后,一名开发人员拦截了API流量,发现了模型ID:kimi-k2p5-rl-0317-s515-fast。Cursor的VP之后承认:“是的,Composer 2基于一个开源base的起点。”

3. 一家竞争商被拿到了Kimi的code

与此同时,在中国一侧,一份GitHub分析显示,另一家主要的中国AI公司MiniMax以find-and-replace级别的修改,拷贝了Kimi的工作技能codebase,包括13个字节一致的文件。 13个硬编码的“kimi”用户名留在了源代码中,一份编译好的.NET二进制文件的构建路径中甚至写有 kimiagent/.kimi/技能/.

那么呢?

什么也比同行行为更有说服力。Karpathy与你的paper互动,Cursor在你的模型上建筑,而竞争性公司拷贝你的代码,那么这一点就是三个独立的信号,指向了同一方向——Kimi被低估了。

Moonshot AI仍然是私有的,由阿里巴巴(BABA)和香港山(原本是Sequoia China)等人支持,所以目前尚无直接的投资机会。然而,如果你持有BABA或正在追踪中国AI的暴露,那么值得关注这一点。

以上不包含任何投资建议。只是我认为大多数人这里都会睡着,因为每个头条都单独被覆盖,没有人连接起来这些点。