Plaza 新闻汇总

深seek:中国AI竞赛中低调的巨头

深seek是一家中国人工智能初创公司,其最新的R1模型在多个推理基准测试中击败了OpenAI的o1模型。尽管其知名度不高,但深seek已成为中国人工智能领域最值得关注的实验室。

在创立深seek之前,首席执行官梁文锋的主要创业项目是幻方,一家中国顶级量化对冲基金,估值曾高达80亿美元。深seek完全由幻方资助,目前没有融资计划。它专注于构建基础技术而非商业应用,并承诺将其所有模型开源。它还凭借极具竞争力的API价格,单方面引发了中国人工智能领域的降价竞争。尽管如此,深seek仍有能力继续参与规模化竞争:凭借对幻方计算集群的访问权限,Dylan Patel推测他们拥有超过“5万个Hopper GPU”,其计算能力比他们公开承认的1万个A100 GPU高出几个数量级。

深seek的战略植根于其构建通用人工智能(AGI)的雄心。与之前围绕这一主题的各种尝试不同,深seek的使命宣言没有提及安全、竞争或对人类的意义,而只是“带着好奇心解开AGI的奥秘”。相应地,该实验室一直专注于研究可能改变游戏规则的架构和算法创新。

深seek已经取得了一系列令人印象深刻的技术突破。在R1-Lite-Preview之前,他们就已经积累了更长的成功记录:诸如多头潜在注意力(MLA)和稀疏专家混合(DeepseekMoE)等架构改进,大幅降低了推理成本,从而引发了中国开发人员之间的价格战。同时,深seek在这些架构上训练的编码模型也优于7月份的GPT4-Turbo等开放权重竞争对手。

为了初步了解深seek背后的故事,我们翻译了一篇关于首席执行官梁文锋的罕见深度访谈,该访谈最初于今年7月发表在36氪的一个子品牌上。该访谈包含了一些深刻的见解,例如:

* 深seek对AGI的雄心如何贯穿其研究策略

* 为什么它认为开源是主要策略,以及它为何引发价格战

* 他如何招聘和组织研究人员,以比其他斥巨资聘用海归人才的实验室更好地利用国内年轻人才

* 为什么中国企业满足于复制和商业化,而不是进行“核心创新”,以及梁文锋如何希望深seek能够在中国经济中激发更多“核心创新”。

在人工智能浪潮中——硅谷的故事占据了主导地位——这是一个罕见的事件。几位业内人士告诉我们,这种强烈的反响源于架构层面的创新,这是国内大型模型公司乃至全球开源大型模型的罕见尝试。一位人工智能研究人员表示,自注意力架构提出以来,多年来几乎没有成功地对其进行修改,更不用说在大规模上进行验证了。“这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。”

另一方面,国内大型模型此前很少涉足架构层面的创新,部分原因是普遍认为美国人在0到1的技术创新方面表现出色,而中国人则擅长1到10的应用创新。此外,这种行为的盈利能力很差——毕竟,几个月后必然会涌现新一代模型,因此中国公司只需要跟进并专注于下游应用即可。创新模型架构意味着没有可以遵循的路径,这意味着多次失败以及大量的时间和经济成本。

深seek显然是在逆势而为。在大型模型技术注定会趋同且跟随是一种更聪明的捷径的喧嚣声中,深seek重视通过“弯路”积累的经验,并认为中国大型模型企业家可以超越应用创新,加入全球技术创新潮流。

深seek的许多选择都与常态不同。迄今为止,在七家主要的中国大型模型初创公司中,它是唯一一家放弃了“既要又要”的做法,迄今为止仅专注于研究和技术,没有toC应用程序。它也是唯一一家尚未完全考虑商业化、坚定选择开源路线甚至没有进行融资的公司。虽然这些选择常常使它默默无闻,但深seek却经常在社区内获得有机用户推广。

深seek是如何做到这一切的?我们采访了深seek鲜为人知的创始人梁文锋,以了解详情。

这位80后创始人自幻方时代起就一直幕后从事技术工作,在深seek时代也延续了他低调的风格——“每天看论文、写代码、参与小组讨论”,就像其他研究人员一样。

与许多拥有海外对冲基金经验和物理或数学学位的量化基金创始人不同,梁文锋始终保持着本土背景:早年,他在浙江大学电气工程系学习人工智能。

多位业内人士和深seek的研究人员告诉我们,梁文锋在中国人工智能行业是一位非常罕见的人——他“既拥有强大的基础设施工程和建模能力,又能够调动资源”,“他能够做出准确的高层判断,同时在细节方面也比一线研究人员更强”。他具有“可怕的学习能力”,同时,“一点也不像老板,更像是一个极客”。

这是一次非常罕见的访谈。在这里,这位技术理想主义者提供了在中国科技界尤其稀缺的声音:他是少数将“是非观”置于“利害观”之前的人之一,他提醒我们关注时代的惯性,并将“原创式创新”放在议程的首位。

一年前,深seek首次面世时,我们采访了梁文锋:“疯狂的幻方:一家隐形AI巨头的大模型之路”。如果说“务必要疯狂地怀抱雄心,且还要疯狂地真诚”当时仅仅是一个美丽的口号,那么一年后,它已经变成了行动。

第一部分:价格战的第一枪是如何打响的?

波澜:深seek V2发布后,迅速引发了大型模型市场激烈的价格战。有人说你已经成为了行业的鲶鱼。

梁文锋:我们并不是有意成为鲶鱼——只是意外地成为了鲶鱼。【译者注:这可能是对王家卫新剧《繁花》的引用,其中鲶鱼因其食肉性而成为市场颠覆者的象征。】

波澜:这个结果让你感到意外吗?

梁文锋:非常意外。我们没想到定价对每个人都如此敏感。我们只是按照自己的节奏做事,然后对价格进行了核算和设定。我们的原则是既不补贴也不获取暴利。这个价位只让我们在成本之上获得一小部分利润空间。

波澜:智谱AI五天后也跟进降价,随后是字节跳动、阿里巴巴、百度、腾讯等大型企业。

梁文锋:智谱AI降低了入门级产品的价格,而他们与我们类似的模型仍然很贵。字节跳动是第一个真正跟进的,将其旗舰模型降价至与我们相同的价格,随后引发了其他科技巨头纷纷降价。由于大型公司的模型成本远高于我们,我们从未想过有人会亏本这样做,但最终还是变成了互联网时代熟悉的补贴烧钱逻辑。

波澜:从外部来看,降价很像是在争夺用户,这在互联网时代的价格战中通常是这种情况。

梁文锋:争夺用户不是我们的主要目的。我们降价是因为,一方面,我们在探索下一代模型架构时降低了成本,另一方面,我们也认为API和人工智能应该对每个人都触手可及且价格合理。

波澜:在此之前,大多数中国公司会直接复制当前一代的Llama架构用于应用程序。你为什么从模型结构开始?

梁文锋:如果目标是制作应用程序,使用Llama结构进行快速产品部署是合理的。但我们的目标是AGI,这意味着我们需要研究新的模型结构,以便在资源有限的情况下实现更强大的模型能力。这是扩展到更大模型所需的基础研究领域之一。除了模型结构之外,我们还在其他领域进行了广泛的研究,包括数据构建和使模型更像人类——所有这些都反映在我们发布的模型中。此外,Llama的结构在训练效率和推理成本方面,估计比国际前沿水平落后了两代。

波澜:这代际差距主要来自哪里?

梁文锋:首先,存在训练效率差距。我们估计,与国际最佳水平相比,中国最佳能力在模型结构和训练动力方面可能存在两倍的差距——这意味着我们必须消耗两倍的计算能力才能达到相同的结果。此外,在数据效率方面也可能存在两倍的差距,即我们必须消耗两倍的训练数据和计算能力才能达到相同的结果。两者相加,意味着需要四倍的计算能力。我们正在努力缩小这些差距。

波澜:大多数中国公司选择同时拥有模型和应用程序。为什么深seek选择只专注于研究和探索?

梁文锋:因为我们认为现在最重要的是参与全球创新浪潮。多年来,中国企业习惯于他人进行技术创新,而我们则专注于应用变现——但这并非不可避免。在这波浪潮中,我们的出发点不是利用机会快速获利,而是要达到技术前沿,推动整个生态系统的发展。

波澜:互联网和移动互联网时代让大多数人相信,美国在技术创新方面表现出色,而中国则擅长应用开发。

梁文锋:我们认为,随着经济发展,中国应该逐渐成为贡献者,而不是搭便车者。在过去30多年的IT浪潮中,我们基本上没有参与真正的技术创新。我们习惯于摩尔定律从天而降,躺在家里等待18个月后出现更好的硬件和软件。这就是规模化定律被对待的方式。

但实际上,这是通过几代人由西方领导的技术社区不懈努力创造出来的。只是因为我们之前没有参与这个过程,所以我们忽略了它的存在。

第二部分:真正的差距不是一两年,而是原创创新与模仿之间的差距。

波澜:为什么深seek V2让硅谷的很多人感到惊讶?

梁文锋:在美国每天发生的无数创新中,这很普通。他们感到惊讶是因为这是一家中国公司作为创新贡献者加入了他们的游戏。毕竟,大多数中国公司习惯于跟随,而不是创新。

波澜:但在中国语境下选择创新是一个非常奢侈的决定。大型模型是一场重资金投入的游戏,并非所有公司都有资本只进行研究和创新,而不是首先考虑商业化。

梁文锋:创新的成本肯定不低,过去不加区分地借鉴的倾向也与中国过去的情况有关。但现在你看到了,无论是中国的经济规模,还是字节跳动和腾讯等巨头的利润——从全球标准来看,这些都不低。我们在创新方面缺乏的绝对不是资本,而是缺乏信心以及如何组织高密度人才进行有效创新的知识。

波澜:为什么中国公司——包括大型科技巨头——都默认将快速商业化作为其第一优先事项?

梁文锋:在过去的30年里,我们只强调赚钱,而忽略了创新。创新并不完全由商业驱动;它也需要好奇心和创造的欲望。我们只是受到旧习惯的束缚,但这与特定的经济阶段有关。

波澜:但你最终是一个商业组织,而不是一个公共利益研究机构——那么当你选择创新并开源你的创新时,你的护城河在哪里?你在5月份发布的MLA架构不会很快被其他人复制吗?

梁文锋:面对颠覆性技术,封闭源代码创造的护城河是暂时的。即使OpenAI的封闭源代码方法也无法阻止其他人赶超。因此,我们将我们的价值锚定在我们的团队——我们的同事通过这个过程成长,积累专业知识,并形成一个能够创新的组织和文化。那是我们的护城河。

开源、发表论文,实际上对我们来说没有任何成本。对于技术人才来说,让其他人跟随你的创新会带来极大的成就感。事实上,开源更多的是一种文化行为,而不是商业行为,为之做出贡献赢得了我们的尊重。对一家公司来说,这样做也具有一定的文化吸引力。

波澜:你如何看待那些相信市场的人,比如【GSR Ventures的[朱啸虎?

梁文锋:朱啸虎的逻辑是自洽的,但他的玩法更适合快速赚钱的公司。如果你看看美国最赚钱的公司,它们都是高科技公司,它们在取得重大突破之前都积累了深厚技术基础。

波澜:但当涉及到大型模型时,纯粹的技术领先地位很少形成绝对优势。你押注的是什么更大的东西?

梁文锋:我们看到的是,中国人工智能不可能永远处于跟随地位。我们经常说中国人工智能与美国之间存在一两年的差距,但真正的差距在于原创与模仿之间的区别。如果这种情况不改变,中国将永远只是一个追随者——因此,一些探索是不可避免的。

英伟达的领导地位不仅仅是一家公司的努力,而是整个西方技术社区和产业共同努力的结果。他们看到了下一代技术趋势,并且手中有路线图。中国人工智能发展需要这样的生态系统。许多国内芯片开发举步维艰,因为它们缺乏支持性的技术社区,并且只掌握二手信息。中国不可避免地需要有人站在技术前沿。

第三部分:更多投资并不等于更多创新

波澜:深seek现在有一种类似于OpenAI早期的那种理想主义的光环,而且它是开源的。你以后会转向封闭源代码吗?OpenAI和Mistral都从开源转向了封闭源代码。

梁文锋:我们不会转向封闭源代码。我们认为,首先拥有强大的技术生态系统更为重要。

波澜:你是否有融资计划?我看到媒体报道说幻方计划将深seek分拆上市。硅谷的人工智能初创公司最终不可避免地会与大型公司绑定。

梁文锋:我们短期内没有融资计划。钱从来都不是我们的问题;先进芯片的运输禁令才是问题。

波澜:许多人认为发展AGI和量化金融是完全不同的努力。量化金融可以悄无声息地进行,但AGI可能需要一种高调而大胆的方法,形成联盟来放大你的投资。

梁文锋:更多的投资并不等于更多的创新。否则,大公司早就垄断了所有的创新。

波澜:你现在不专注于应用是因为你缺乏运营方面的专业知识吗?

梁文锋:我们认为当前阶段是技术创新而非应用爆炸性增长的时期。从长远来看,我们希望创建一个生态系统,让行业直接利用我们的技术并输出成果。我们将继续专注于基础模型和前沿创新,而其他公司可以基于深seek的基础构建B2B和B2C业务。如果能够建立一个完整的产业价值链,我们就没有必要自己开发应用。当然,如果需要,没有什么能阻止我们开发应用,但研究和技术创新将永远是我们的重中之重。

波澜:但当客户选择API时,他们为什么要选择深seek而不是大型公司的产品?

梁文锋:未来的世界很可能是一个专业分工的世界。基础大型模型需要持续创新,而大型公司在能力方面存在局限性,这可能并不一定使它们成为最佳选择。

波澜:但技术本身真的能创造出巨大的差距吗?你之前也提到过,没有绝对的技术秘密。

梁文锋:技术上没有秘密,但复制需要时间和成本。英伟达的显卡,理论上没有技术秘密,也很容易复制。但是,从零开始组建一支团队并赶上下一代技术需要时间,因此实际的护城河仍然相当宽。

波澜:一旦深seek降低了价格,字节跳动也随之跟进,这表明他们感受到了一定程度的威胁。你如何看待初创企业和大型企业之间新的竞争方式?

梁文锋:说实话,我们并不太在意,因为这只是我们在前进过程中做的事情。提供云服务不是我们的主要目标。我们的最终目标仍然是实现AGI。

现在我还没有看到任何新的方法,但大型公司也没有明显的优势。大型公司拥有既有的客户,但他们的现金流业务也是他们的负担,这使得他们随时可能受到颠覆。

波澜:你认为其他六家大型模型初创公司的最终结局是什么?

梁文锋:两三家可能会存活下来。他们目前都处于“烧钱”阶段,因此那些拥有清晰的自我定位和更好的运营精细化管理的公司,更有可能成功。其他公司可能会发生重大转型。有价值的东西不会凭空消失,而是会以不同的形式存在。

波澜:幻方在竞争方面的方法被描述为“不屈不挠”,因为它很少关注横向竞争。你在考虑竞争时,你的出发点是什么?

梁文锋:我经常思考的是,是否能提高社会运营效率,以及能否在其产业链中找到一个优势点。只要最终目标是使社会更有效率,那它就是有效的。中间的很多东西都只是暂时的阶段,过度关注它们会导致困惑。

第四部分:一群年轻人做着“高深莫测”的工作

波澜:OpenAI的前政策主管、Anthropic的联合创始人杰克·克拉克说,深seek聘用了一批“高深莫测的奇才”。深seek V2背后的这些人是怎样的人?

梁文锋:没有奇才。我们大多是来自顶尖大学的应届毕业生、读博四五年级的博士生,以及一些毕业几年的小年轻。

波澜:许多LLM公司痴迷于招聘海外人才,而且经常有人说,这个领域排名前50的人才可能根本不在中国公司工作。你的团队成员来自哪里?

梁文锋:V2模型背后的团队没有一个人是从海外回国的——他们都是本地人。排名前50的专家可能不在中国,但也许我们可以自己培养这样的人才。

波澜:MLA创新是如何产生的?我听说这个想法源于一位年轻研究人员的个人兴趣?

梁文锋:在总结了注意力机制的一些主流演化趋势后,他只是想设计一个替代方案。然而,将想法变成现实是一个漫长的过程。我们专门为此组建了一个团队,花了几个月的时间才让它运行起来。【Jordan:这让人想起Alec Radford对GPT系列的早期贡献,也印证了我们过去在ChinaTalk中提出的论点,即算法创新与在半导体制造等方面推动技术前沿从根本上不同。你不需要博士学位和多年的行业经验才能真正发挥作用,你只要足够敏锐和有干劲,就可以成为20多岁的年轻人(中国有很多这样的人!)。Dwarkesh与OpenAI的Sholto Douglass和Anthropic的Trenton Bricken的访谈很好地说明了这种动态。Dwarkesh以“撰写《外交》论文的Noam Brown对Sholto说:‘他进入这个领域只有1.5年,但人工智能领域的人都知道他是双子座取得成功的最重要的几个人物之一。’”开头。】

波澜:这种发散性思维的出现似乎与你创新驱动的组织结构密切相关。在幻方时代,你的团队很少自上而下分配目标或任务。但AGI涉及前沿探索,存在诸多不确定性——这是否导致了更多的管理干预?

梁文锋:深seek仍然完全是自下而上的。我们通常不预先定义角色;相反,分工是自然发生的。每个人都有自己独特的经历,他们带着想法而来,所以没有必要强迫任何人。在我们探索的过程中,如果有人发现了问题,他们会自然而然地与其他人讨论。但是,如果一个想法显示出潜力,我们会自上而下分配资源。

波澜:我听说深seek在调动GPU和人员等资源方面非常灵活。

梁文锋:团队中的任何人都可以随时访问GPU或人员。如果有人有想法,他们可以随时访问训练集群卡,无需批准。同样,由于我们没有等级制度或独立的部门,只要存在共同的兴趣,人们就可以跨团队协作。

波澜:这种松散的管理风格依赖于拥有高度自我驱动的员工。我听说你在通过非传统的评估标准识别优秀人才方面非常出色。

梁文锋:我们的招聘标准一直是热情和好奇心。我们团队中的许多成员都有不同寻常的经历,这非常有趣。他们对做研究的渴望往往优先于赚钱。

波澜:Transformer诞生于谷歌的AI实验室,ChatGPT诞生于OpenAI。你如何比较大型公司AI实验室与初创公司创新价值?

梁文锋:谷歌的AI实验室、OpenAI,甚至中国科技公司的AI实验室都非常有价值。OpenAI取得成功,部分原因是由于一些历史巧合。

波澜:那么,创新在很大程度上是运气问题吗?我注意到你办公室中间一排会议室的两侧都有门,任何人都可以打开。你的同事说,这种设计为偶然性留下了空间。Transformer的创造就涉及到有人无意中听到了一次讨论并加入进来,最终将其变成了一个通用的框架。

梁文锋:我相信创新始于信念。为什么硅谷如此创新?因为他们敢于去做。ChatGPT出来后,中国科技界缺乏对前沿创新的信心。从投资者到大型科技公司,他们都认为差距太大,选择专注于应用开发。但创新始于信心,我们通常在年轻人身上看到更多这种信心。

波澜:但你没有融资,甚至不与公众交流,因此你的知名度低于那些积极融资的公司。你如何确保深seek仍然是LLM从业者的首选?

梁文锋:因为我们正在解决最困难的问题。顶尖人才最渴望解决世界上最棘手的挑战。事实上,中国顶尖人才被低估了,因为社会层面几乎没有发生核心创新,导致他们没有得到认可。我们正在解决最困难的问题,这让我们天生就对他们具有吸引力。

波澜:当OpenAI的最新版本没有给我们带来GPT5时,许多人认为这表明技术进步正在放缓,并开始质疑规模化定律。你怎么看?

梁文锋:我们相对乐观。我们整个行业似乎都在满足预期。OpenAI不是神,他们不一定会永远走在最前沿。

波澜:AGI将在多久后实现?在发布DeepSeek V2之前,你已经有数学和代码生成模型,并且也从密集模型切换到专家混合模型。你的AGI路线图上的关键点是什么?

梁文锋:可能是两年、五年或十年——无论如何,它将在我们有生之年发生。即使在我们公司内部,关于路线图也没有统一的意见。也就是说,我们在三个方向上下了真赌注。首先是数学和代码,其次是多模态,第三是自然语言本身。

数学和代码是自然的AGI测试场,有点像围棋。它们是封闭的、可验证的系统,可以通过自学达到很高的智能水平。另一方面,多模态和与真实人类世界的互动也可能是AGI的要求。我们对不同的可能性持开放态度。

波澜:你认为大型模型的最终结局是什么?

梁文锋:将会有专门的公司提供基础模型和服务,在供应链的每个节点实现广泛的专业化。更多的人将在此基础上构建,以满足社会的多样化需求。

第五部分:所有方法都是上一代的产物

波澜:过去一年,中国大型模型初创公司发生了很多变化。例如,王慧文(人人网和美团的联合创始人)在去年初非常活跃,中途退出,后来加入的公司开始表现出差异化。

梁文锋:王慧文自己承担了所有损失,让其他人毫发无损地退出。他做出了对自己最不利但对其他人都有利的选择,所以他为人处世非常厚道——这一点我真的很钦佩。【王慧文创办了光年之外基础模型公司,但很快将其合并回美团。有关美团和人工智能的更多信息,请参阅最近的36氪专题报道。】

波澜:你现在主要精力放在哪里?

梁文锋:我的主要精力集中在研究下一代大型模型上。还有很多未解之谜。

波澜:其他大型模型初创公司坚持追求“技术与商业化并重”,毕竟技术并不能带来永久的领先地位,利用窗口期将技术优势转化为产品也很重要。深seek敢于专注于模型研究,是因为其模型能力还不够吗?

梁文锋:所有这些商业模式都是上一代的产物,未来可能不再适用。用互联网商业逻辑来讨论未来人工智能的盈利模式,就像马化腾创业时讨论通用电气和可口可乐一样。这是毫无意义的(刻舟求剑)。

波澜:过去,你的量化基金幻方在技术和创新方面拥有强大的基础,其发展也相对平稳。这是你乐观的理由吗?

梁文锋:在某种程度上,幻方增强了我们对技术驱动型创新的信心,但并非一帆风顺。我们经历了一个漫长的积累过程。外界看到的是2015年以后的幻方,但事实上,我们已经做了16年了。

波澜:回到创新的主题。现在经济开始下行,资本不再像以前那样宽裕,这会抑制基础研究吗?

梁文锋:我不一定这么认为。中国产业结构的调整必然会更多地依靠核心技术创新。当人们意识到过去快速赚钱可能是由于幸运的窗口期时,他们会更愿意谦卑自己,进行真正的创新。

安勇:所以你对此也持乐观态度?

梁文锋:我出生在80年代广东的一个五线城市。我父亲是小学老师。90年代,广东有很多赚钱的机会。当时,很多家长都来我家;他们基本上认为学习没用。但现在回过头来看,他们都改变了看法。因为赚钱已经不容易了——甚至连开出租车的机会可能很快都会消失。这仅仅花费了一代人的时间。

未来,核心创新将变得越来越普遍。现在人们不容易理解,因为整个社会需要在这方面接受教育。一旦社会允许致力于核心创新的人获得名利,那么我们的集体心态就会适应。我们只需要一些例子和一个过程

原文地址
2024-12-31 12:11:47