第623章 前世的终局与今生的起手-《高二分科,我选校花也选亿万身家》


    第(2/3)页

    “这是军工级的加密U盘,防暴力破解的。”

    “但在物理层面上,它只需要一杯不小心洒出来的咖啡,或者一次安检时的遗失就会报销。”

    顾屿语气平静,却带着压迫感。

    “少卿,能让你凌晨三点不管不顾飞过来的东西,其价值不需要我多说。不管这U盘里装的是什么成果,它现在都是公司最高级别的商业机密。下次再遇到这种情况,让林溪派专机和安保团队去接你。别替我省这个钱。”

    任少卿张了张嘴,显然被顾屿这种保密意识震了一下,但还是老实地点了点头。

    “行了。还有,别叫顾总。”

    “那叫什么?”

    “随便,叫名字就行。”

    任少卿没纠结这个问题。

    他把电脑打开,插上U盘,解密后屏幕上出现了一份技术文档,图表密密麻麻。他转过屏幕朝向顾屿,手指点在一张折线图上。

    “ImageNet验证集,TOp-5错误率,5.08%。五十层卷积神经网络。”

    顾屿盯着那个数字看了三秒。

    “人类标注员的平均水平是5.1%。”

    任少卿的声音压得很低,但语速在加快,

    “我们的模型精度已经追平了人类,甚至略微超过。核心突破点是一个我称之为'残差连接'的结构。简单来说,就是给深层网络开了一条捷径,让训练信号可以跳过中间层直接回传,解决了层数堆叠之后信号衰减的老大难问题。”

    他翻到下一页,是不同层数网络的对比实验数据。

    二十层、三十层、四十层、五十层,精度曲线一路攀升,没有出现以往深层网络必然遭遇的性能坍塌。

    “以前整个学术界都默认,网络超过二十层就没法有效训练了。这个假设,被我们推翻了。”

    顾屿靠在椅背上,目光停留在屏幕上那条稳步上升的曲线上。

    他没说话。

    不是因为震惊。而是因为他太清楚这个东西是什么了。

    残差网络。ReSNet。

    前世,这篇论文在2015年12月发表,第一作者正是任少卿。

    它不仅横扫了当年所有计算机视觉的顶级竞赛,更从根本上改写了整个深度学习的工程范式。

    从此以后,“网络可以无限加深”不再是空想,而是被数学和实验双重验证的事实。

    它是后来所有大模型架构的地基之一。

    没有残差连接,就没有后来的GPT,没有BERT,没有任何你能叫得出名字的大语言模型。

    而现在是2014年4月。

    任少卿提前了将近一年半。

    顾屿闭上眼睛。

    前世的记忆潮水般漫上来,不受控制。

    2020年。他拿到天使轮的那个夏天,北京五道口的一间地下室办公室,八个人,六台电脑,空调坏了三天没人修。

    他站在白板前画TranSfOrmer的架构图,给团队讲什么是自注意力机制,什么是多头注意力,什么是位置编码。那时候他以为自己看到了未来。

    2022年。A轮融资到账,团队扩到四十多人,搬进了望京的写字楼。

    他们基于TranSfOrmer训练中文大语言模型,做垂直行业应用,对标ChatGPT。烧了两个多亿,模型效果勉强能打。投资人说,再坚持一轮,B轮估值翻三倍,上市不是梦。

    他信了。

    然后2024年底,DeepSeek的技术报告发了出来。

    不到六百万美金的训练成本。

    用了一种叫MOE的混合专家架构,让模型学会了“只激活需要的那部分参数”,不用的部分直接休眠。

    配合极致的底层算力优化和开源策略,效果直接对标上亿美金训练出来的顶级模型。

    一夜之间,他那套靠堆参数、堆数据、堆算力硬撑出来的商业故事,全部归零。

    投资人撤资的邮件是凌晨两点发来的,措辞很客气,意思很残忍:赛道逻辑变了,我们需要重新评估。

    客户解约的电话是第二天早上九点打来的,对方甚至没听他解释完,只说了一句“DeepSeek免费开源的效果比你们收费的还好,我们没有理由继续付费”。
    第(2/3)页