2022 年,各大公司都在看不起 NVIDIA 股价暴涨至 $950。而在此期间,这些股民买入了无数钓鱼船。随后是内存的时期,然而事实证明,AI 的前向传播是一个与 GPU 相关的内存带宽问题。美光科技(MU)在内存业务取得了飞速增长,而韩国半导体公司 SK Hynix 成为全球最重要的公司,而许多人仍无法正确拼写这个公司的名字。接下来的就是电源的时代,三星电子的 VST CEG NRG 因为有人第一次问出了数据中心后面的“真相”,而此股暴涨至瘋州。随后逐步关注到消耗性品质。然后出乎意料的氦气,因为芯片制造工厂需要在高阶模块时需要大量氦气,而在此之前,卡塔尔就遭到了轰炸。

每一次,我们都会发现一个小人物,找出了瓶颈,提前买入,赚取了一大笔钱,然后大家又落后了六个月才跟进。

这个 AI 金钱机器的每一层都已经被发现和围剿了,除了数据层,在那里 RDDT 是最大的赢家。人类生成的、未经过滤、有时完全疯狂的信号,使这些模型变得没有那么愚笨。你无法用 synthetically 的方法伪造这些,否则模型质量会大幅下滑。您正以阅读这些作为阅读本文为例。

“好吧,愚蠢的,你问了 YouTube 和 Wikipedia?”您会问。这是 garbage-in garbage-out 的事实,Wikipedia 则是一本由谨慎的处女编写的有序百科全书,然而它们是静态且贫乏的。Reddit 则可以每个月生成整个百科全书。斯蒂夫·哈芬当上周四的收益电话中就是这么说的。它不仅仅是volume 的问题,而是结构。具有专家知识的区域在Reddit 论坛进行了活跃的多层线索讨论,以至于它们不愿将这些内容写在其履历中。upvotes 自然而然的过滤出了有价值的信号和噪音,正好符合前沿模型训练所需的属性,而你无法在任何其他地方将它们复制出来。

那么,为什么市场到现在为止未能发现这一点呢?因为没有一个物理瓶颈可以拍下来供众人讨论。就像人们无法看得见一个空的氦气箱或 GPU 等待排队的队伍一样。因此,华尔街只简单地把 Reddit 视为一家中级广告技术公司,偶尔做些离子事情。

Google 早期的授权协议签署之前,人们还未意识到Reddit 的数据价值。这些续约协议即将到期。Reddit 还正在与 Anthropic 和 Perplexity 等公司官司纠纷,不是因为数据挖掘,而是这些公司未经授权就将数据挖掘掉了。如果他们胜诉或可以成功和谈,这不仅会有助于 Reddit,且可以为整个行业重新定价训练数据的价值。

前沿实验室目前是数据受限,而不是计算机受限。艾尔图曼已经这么说过了。Reddit 生成的正是他们所需的,永远的。

每个瓶颈都有自己的时间,这一次是数据的时间,而 Reddit 是唯一的纯玩家。

推荐持股数: 5000 股