记得2025年1月吗?深度探索(DeepSeek)推出了R1,价格比o1便宜一半,并且一天之内刮起了纳斯达克大盘1万亿美元。
好的,另外一家中国人工智能实验室在深度探索的刺激下,经历了非美国人工智能公司里最重要的一周。该公司名为Moonshot AI,他们的模型名为Kimi。下面是Kimi团队过去一周的进展:
- 3月16日,Kimi团队在arXiv上发布了一个专利名为"Attention Residuals",该纸质提议将LLM中基本组件替换,每个LLM模块的实现主要保持不变。由于标准残差连接会对每个层的输出一视同仁。Attention Residuals允许每个模块以自适应的权重回顾之前已获得的结果。结果:性能等同于以1.25倍的计算力训练,但仅有不到2%的推理开支。
埃隆·马斯克转发了这篇论文。安德烈·卡尔帕奇(Andrej Karpathy)加入讨论并指出,也许我们没有用尽地“注意力即尽所有”(Attention is all you need)的名言。Jerry Tworek,OpenAI研发负责人,在Training o1计划中,并且转发了推文,认为或许我们的整个领域需要重新思考,深度学习2.0即将开始。“当当前前沿推理模型的研发者公开表示,中国实验室的一个论文可能值得重视,那是一个强烈的信号。
2.
2月中旬,Cursor被发现泄露了Kimi K2.5。
上周,Cursor总值为293亿美元推出了“作曲家2”,宣称是他们内部的前沿编程模型。在24小时内,一名开发者拦截了API流量并发现了模型ID:kimi-k2p5-rl-0317-s515-fast。Cursor高管随后承认了:“是的,Composer 2基于开源模型.”
3.竞争对手抄袭
此外,在中国一家GitHub分析公司发现,另一家主要的中国人工智能公司MiniMax在他们的-agent平台中直接使用了Kimi的整个办公室技能代码库,随后替换相关字符串。13个字节相同的文件。此外,在源代码中留下了固定的‘kimi’用户名和一个编译。NET二进制文件,其建构路径里仍然读取“kimiagent/.kimi/skills/”。”
那么干嘛呢?
没有比同侪行为更容易感化人的东西。当卡尔帕奇参与讨论,Cursor利用Kimi模型,竞争对手抄袭代码时,那里的三种信号指向同一方向:Kimmi被过低估计。
不是财务建议。Moonshot AI目前仍处于私有化阶段,没有直接运用。
我只是觉得众多人睡着了,因为每张报头都被单独报道,没有人将它们联系起来。
评论 (0)