DeepSeek量化团队取得了重大突破,开源了两大模型V3和R1,展现出强大的能力。
2.V3和R1分别在训练方法和强化学习技术方面做了巧妙设计,实现了低成本的训练。
3.然而,DeepSeek的成就并非完全由其技术突破推动,也有赖于整个AI领域的创意和进步。
4.由于DeepSeek的成功,AI界的竞争势态将发生明显的变化,提前了AI改造各行业的时间表。
春节前后Deepseek横空出世,我忙着过节,学习不多,昨天回上海花了些时间补课。
说起来,Deepseek背后的幻方量化算量化同行,而且我们的工作中也大量用到AI技术,说不定是业内对深度学习怎么样用于量化投资探索最早、用得最多、对策略贡献最大的团队(或之一),对AI技术也有些自己的理解。
当然,Deepseek是Deepseek,幻方是幻方,两者不能画等号,我也不太相信Deepseek的技术对幻方的量化策略有很大的影响。必须得说,梁文峰在赚钱之后的选择很有意义,虽然在不久之前还被视为玩票,现在成了英雄。
目前,DeepSeek开源了两大模型,一个是V3,另一个是R1。实际上,这两个模型存在内在联系。V3可看作是一个基础大语言模型,而R1则是在V3的基础上,更多地运用强化学习技术,以提升其在推理、数学、代码等特定领域能力的版本。
无论是V3还是R1,都展现出了超强的能力,与此前在业内领先的OpenAI的o1模型不相上下。而且,DeepSeek在训练成本远低于OpenAI的情况下,实现了这一突破,这究竟是怎么样才能做到的呢?这着实令人震惊。当然,其成就不相其表面上这么大,
1)给人影响深刻的表现是呈现在其自己挑选的几项指标上,在别的一些指标上,o1的能力更强;
打了这些折扣之后,Deepseek的成就仍旧令人惊叹。追溯起来,这一突破并非凭空而来。无论是V3还是R1,都切实做出了突破性技术贡献。
就V3而言,或许是为突破算力限制,其在训练方法上进行了巧妙设计。它的技术基础架构,依旧沿用自GPT以来的主流路线。不过,在MLA、混合专家架构(MoE)以及多token预测目标等方面,确实提出了一些巧妙的工程设想。从本质上讲,这些设想并非高深莫测。毕竟,整个深度学习领域的进步,并非像理论物理那般高深,而是体现在工程设计思路上。
与此同时,团队绕过CUDA并利用PTX(Parallel Thread Execution)语言对GPU底层进行了优化,并重新配置了计算资源。依靠这些优化以及工程设计方面的进展,它能够以较低成本取得不错的训练质量。
然而,除了工程方面的进步以及团队的智慧外,实则存在一个灰色地带。关于这一点,有诸多猜测,截至目前,尚无权威说法。我个人猜测是,在模型训练过程中,非常有可能借助了“蒸馏”技术。所谓“蒸馏”,能够理解为你如果先有一个teacher model ,那就能借助它来改进student model的训练,从而让teacher model被蒸馏在student model中。
如果是自己企业内部训练的模型,所有权重都开放给自己,做蒸馏是容易的。在我们的工作中,也对这一技术做过很多尝试。但如果是外部模型(例如OpenAI的o1),实现蒸馏有点儿困难,但不是不可以做。如此,让OpenAI在过去大量投入与训练基础上所获得的模型能力,被移植到了V3的模型训练中。这一做法显然违反了OpenAI的服务条款。倘若你是个道德洁癖者,这无疑是个问题。
然而,站在推动整个AI进步的角度看,在拥有高质量、大规模的领先模型后,通过某种“蒸馏”方式来避免走重复之路,似乎也是一种必然。
如此,我猜测V3的能力来源主要有两点:其一,是工程设想方面的巧妙构思以及整个团队的创意;其二,自然是站在了前人的肩膀上。
除V3之外,更加引发围观的注重推理能力的R1模型。R1模型在V3基础上大量使用强化学习,它有两个版本,分别是R1Zero和R1。虽然放出来的是R1,但从技术层面而言,R1Zero更重要。在训练好V3基础模型后,Deepseek将其与强化学习算法相结合,让模型进行自我演化,直至出现“恍然大悟”时刻。这种模型的自我训练,将其的能力从(某项测试中)15.6%提高到 71.0%,并且通过多数投票,得分进一步提升到 86.7%。
那么,该如何评价DeepSeek呢?我比较认同这样一种评估观点,即DeepSeek对整个AI领域的贡献,自深度学习兴起以来,大概占5%左右。虽说其成果令人惊艳,但实际上,这些技术思路和措施并没那么了不起。它只是打破了一种错觉,即像OpenAI这样的行业领先者拥有坚不可摧的技术壁垒。其实这种错觉本就不该存在,毕竟OpenAI也是后来居上。
在此之前,比如谷歌发明的Transformer,以及之前中国人研发的resnet,在当时都是领先的模型。然而,它们领先的时间很短暂。2022年,OpenAI惊艳登场,仅仅三年后,DeepSeek就大幅缩小了与领先模型的差距。这是正常现象,并不值得大惊小怪。从本质上讲,AI领域的进步是由一个个巧妙的创意推动的。这种进步几乎时刻都在发生,每周、每月、每季度、每年都不间断。
DeepSeek打破的这种错觉,让人们明白,所谓的领先并非牢不可破。正如AI教父Hinton所言,硅谷人士不该如此自傲,误以为全世界最绝妙的点子都被他们这个小部落垄断,实则不然。想出卓越idea并非难事。所谓“AI界最厉害的50个大脑都不在中国”这种观点,并无太大意义。即便一名刚毕业的博士,只要接受过充分良好的训练,想出一些别人尚未想到的绝妙点子,也并非什么惊人之事。
其次,在AI时代,保守技术秘密难度很大,但一马当先的优势不完全是技术的领先。大模型曾经拥有的技术一马当先的优势,很难靠注入服务条款之类的防御手段真正守住。在Deepseek事件之后,大模型训练与推理成本的大幅度降低将迅速引发应用层面的热潮。
DeepSeek把大模型的成本降低至之前的十分之一。照此趋势,未来半年到一年,成本或许还会继续下降,比如再降10倍,而其能力可能比现在更强。当大模型的能力实现“商品化”,即以极低的成本就能获取时,AI对所有行业的变革速度将大幅加快。之前我坚信AI 有能力改写所有行业,如今看来,这一进程的时间表正在提前。换言之,硬件的进步与创意的进步并驾齐驱,二者都能推动 AI 能力实现突飞猛进的发展。
颇具讽刺意味的是,中国的这种突破并非由大学、科研机构或国家投入重金的基金推动实现的。DeepSeek背后的公司幻方量化,在一些人眼中,量化基金公司似乎该被口诛笔伐,被视作虚拟经济,认为其对实体经济毫无贡献。要知道,创新是无法被规划的,它是由充满好奇的头脑在自由的环境中创造、涌现出来的。政府的支持与监管并非必要,恰恰是因为在深度学习领域,政府没有过度干预,才有了如今千模竞争的局面,也才有了DeepSeek的脱颖而出。倘若因某一些原因,有人建议政府全面管控这些领域,那么中美在AI方面的差距,才真正到了大幅拉大的时候。
有了DeepSeek的成功示范在前,我坚信整个AI界的竞争态势将发生有意义的变化。OpenAI的一马当先的优势被大幅度缩短后,或许仍会有大量资金投入到提升算力、增强基础大模型能力上,但也会有更多资金开始思考,如何将大模型的能力与改造所有行业这一重任相结合。也许2025年,才是AI全面改造各行业的元年。
如果问Deepseek到底突破了什么?我觉得最有用的答案就是,Deepseek改变了AI届的竞争势态,有力地提前了AI改造各行业的时间表。
当然,由此开启的新一轮产业革命将在哪个国家落地生根,并非由一两家企业决定,而是取决于这一个国家的整体政策环境与产业配套环境。截至目前,美国仍具备得天独厚的条件。此次事件冲击之后,需关注美国的创投界、产业界、金融界以及政府政策能否做出恰当反应。
中国亦是如此。以中国全球第二的经济规模,庞大的企业家和工程师队伍而言,有足够底气诞生诸多局部创新,甚至是突破性创新。过去十几年间,这一点已展现得淋漓尽致。中国面临的挑战并非在此,而是如何整治中国经济制度和结构中根深蒂固的弊端。否则,一些创新成果将难以真正转化为中国经济的快速地发展。