哈希游戏- 哈希游戏平台- 哈希游戏官方网站
中国杭州的人工智能创业公司 DeepSeek 是近一段时间硅谷的 AI 研究者和开发者的心魔。它在 2024年12月发布的大语言模型 DeepSeek - V3 被认为实现了诸多的不可能:550万美元和2000块英伟达 H800 GPU(针对中国市场的低配版 GPU)训练出的开源模型,多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等顶级开源模型,亦与 GPT-4o 和 Claude 3.5-Sonnet 这样世界顶级的闭源模型不相上下——而训练后者的成本保守估计也要数亿美元和几十万块最强劲的英伟达 H100。
可以想象它在人工智能界引发的震撼 —— 尤其是在 AI 领域的研究人员、创业者、资金、算力和资源最扎堆的硅谷。不少硅谷 AI 领域的重要人士都不吝惜对 DeepSeek 的称赞,比如 OpenAI 联合创始人 Andrej Kaparthy 和 Scale.ai 的创始人 Alexandr Wang。尽管 OpenAI CEO Sam Altman 发了一条疑似影射 DeepSeek 抄袭借鉴其它先进成果的推文(很快就被人回怼“是指把Google 发明的 Transformer 架构拿过来用么?),但 DeepSeek 收获的赞誉确实是广泛而真诚的,尤其是在开源社区,开发者用脚投票。
很多中国人将 DeepSeek - V3 视作“国货之光”, 也是中国式创新的一个范式。确实,中国聪明的研究人员和工程师非常擅长“多快好省” 干大事,在资源紧缺有限的情况下(很多时候我们也不想),通过技术方法的创新和精进,实现超预期的成果。DeepSeek - V3 对高性能算力的依赖如此之小,将训练和推理当作一个系统,给出了诸多新的技术思路,注重用工程思维高效解决算法和技术问题,集中力量办大事,这确实是中国公司、中国团队和中国研究人员更擅长的。Alexandr Wang 从DeepSeek 总结的经验是:美国人在休息,中国人在奋斗,以更低的成本、更快的速度和更强大的战斗力追赶。
很有意思,美国科技界对中国比较友善的人士——其中包括马斯克——经常总结中国在一些领域的成功经验是聪明、勤奋和有方法,这当然没什么问题。但它解释不了,至少在 AI 领域解释不了的一个问题是:中国的其它大模型公司和 AI 人才同样聪明、勤奋和擅长方法创新,他们的很多技术方法创新也卓有成就(DeepSeek 的分布式推理,我第一次注意到类似的创新是月之暗面的 Mooncake),但为什么没有引发如此轰动的世界级效应?当然今后他们可能也会,但至少,为什么这次是DeepSeek?
将 DeepSeek 比喻成 “AI 界的拼多多” 是偏颇的,认为 DeepSeek 的秘方就是多快好省也是不全面的。中国的大多数 AI 公司都缺卡,也都因为缺卡而拼命搞架构创新,这点没什么不同。要知道,DeepSeek 在硅谷受到关注和追逐不是这两周刚发生的事。早在2024年5月 DeepSeek - V2发布的时候,它就以多头潜在注意力机制(MLA)架构的创新,在硅谷引发了一场小范围的轰动。V2 的论文就引发了 AI 研究界的广泛分享和讨论。当时,一个非常有意思的现象是:X 和 Reddit 上 AI 从业者在讨论 DeepSeek - V2,同时,DeepSeek 在国内舆论场被描摹成了“大模型价格战的发起者”,有点平行时空的感觉。
2022年之前的 OpenAI 和 DeepMind 是什么样子?非营利性学术研究机构。尽管已经被微软投资并转型为了营利性公司,但当时 OpenAI 的整体工作方式——至少是首席科学家 Ilya Sustkever 和联合创始人 Andrej Kaparthy 为代表的那群人——仍是非营利机构性质的,公司没有对外的正式产品,2020年公布的 GPT-3 是一个学术研究成果,而且还开源了。DeepMind 尽管名义上是一家创业公司,但无论是它独立在伦敦存在的时期,还是被 Google 收购但尚未与Google Brain 整合之前,都更像是一家研究机构的存在,无论 AlphaGo 还是 AlphaFold,都是研究项目,而不是产品。
DeepSeek 有自己的“产品”么?不能说没有,毕竟普通用户也可以直接跟它的模型聊天,它还顺带手向开发者卖一卖低价的 API。可是它连个移动 APP 都没有,看上去也没对产品做什么运营,不投放流量广告,也不搞社交媒体营销,也不给用户准备各种贴心的 prompt 模板。有个网站,普通人也可以用,就够了。光就这一点看 DeepSeek 就很不中国 AI 公司。在企业和开发者一侧,除了基于架构创新的成本下降让它狠狠砸了一锤子 API 的价格,也看不到它搞什么“加速计划”、“开发者大赛”、“产业生态基金”等等很多企业都搞的项目。这只能说明:现在它是真心不打算做生意。
另一方面,DeepSeek 的研究人员密度是显而易见的。量子位近期对 DeepSeek - V3 论文作者的梳理,为我们了解这家公司的研究人员构成和特点提供了非常有价值的探索:清华、北大、北航等中国顶级高校的应届博士毕业生、顶刊论文发表者、信息竞赛获奖者是 DeepSeek 研究团队的主力,甚至包括硕博在读生。团队构成极其年轻。DeepSeek 创始人梁文锋接受 36 氪旗下“暗涌”采访时透露过招人标准:看能力,不看经验,核心技术岗位以应届和毕业一两年为主。这是典型的为研究人员,而非为产品、市场和工程等岗位招人定制的标准。也像极了 OpenAI 和DeepMind 早期的人才结构:用最年轻、最聪明、最不受拘束的头脑,创造一些前人没创造过的东西。
它营造了一种氛围:这些最聪明的年轻人进入到了一家外表看起来是公司的机构,然后在这里继续延续他们的学术生涯,可以调动比在纯粹的学术机构(比如高校实验室)多得多的计算资源和研究数据。科技公司的研究机构是科学家的“国中之国”,取代高等院校成为学术成果主要贡献者的趋势益发明显。它越不受到公司商业目标的干扰,产生颠覆性学术成果的机会越大。Google 的研究人员提出生成式人工智能的基础—— Transformer 架构是在 Google 的 AI 商业化目标尚不清晰的 2017年,这两年反而鲜有成果。OpenAI 的 GPT-3 和 GPT-3.5 两个关键时刻的诞生都是在聚光灯之外,而当它越来越像一家公司的时候,一切都乱了。
这也是 DeepSeek 区别于大多数中国的 AI 创业公司,反而更像是一家研究机构的地方。这轮 AI 创业的创始人基本都是科学家和研究人员,但他们拿了 VC 和 PE 一轮又一轮的钱,就不能随心所欲地搞研究和发 paper,而必须聚焦产品化和商业化(这很可能不是他们最擅长的事)。科技巨头养得起研究机构和科学家,但一旦要求研究成果迅速应用于产品和商业,团队也会变得更复杂,而不再有纯研究人员的简单和清澈。美国的一些科技巨头有不受商业目标干扰的研究机构,但时间过久,又难免沾染了学术界论资排辈的门阀气息。都是由最聪明的年轻人组成的商业公司的研究机构,只在关键的几个时间点出现过——几年前的 OpenAI 和 DeepMind,以及现在的DeepSeek。
一个证据就是:DeepSeek 最好的“产品”除了模型,还有它的论文。无论是 V-2 还是 V-3 的发布,DeepSeek 的两篇对应论文都得到了来自全球研究者的仔细阅读、分享、引用和大力推荐。相比之下,GPT-4 发布之后 OpenAI 公布的论文几乎不能叫做论文。这年头做模型的都在抢在各种 benchmark 上拿名次,注重论文质量的已经不多了。而一篇详尽、规范和实验细节丰富的论文,仍然能获得业界额外的尊重。
聪明的年轻 AI 研究人员 + 研究机构的氛围(配上大厂的package)+ 开源社区的分享和交流,提高了 DeepSeek 在全球 AI 领域影响力和声望。对一家以产生 AI 研究成果而非发布商业化产品为主要目标的机构而言,Hugging Face 和 Reddit 就是最好的发布会会场,数据集和代码库就是最好的 demo,论文就是最好的新闻稿。DeepSeek 基本就是这么做的,而且做得很讲究。所以即便 DeepSeek 的研究人员和 CEO 鲜少接受媒体采访,也几乎从不在论坛和活动上分享技术经验和洞察,但你不能说它没做营销。反之,以证明中国 AI 原创研究可以引领全球趋势、招聘最聪明的研究人员的目的来说,DeepSeek 的“营销”是极其精准和有效的。
这里值得提一句,过去的一年中国的开源大模型主要玩家确实在全球 AI 研究和产品方面赢得了不少尊敬。一个越来越普遍的看法是:比起美国和欧洲的一些开源模型,中国的开源大模型在开源程度上更为彻底,更容易被研究人员和开发者直接拿过来上手研究或优化自己的模型。DeepSeek 就是一个典型代表,除了 DeepSeek,阿里巴巴的通义(Qwen)也被 AI 研究领域普遍认为开源态度较为真诚,面壁智能的小模型 Mini-CPM-Llama3-V 2.5 因为被斯坦福本科生团队直接套壳也意外走红了一把。