“如果不在百度,可能就不是我了。”
在百度十大科技前沿发明颁出这一天,入围者这样说。
一个人这样说多半是谦虚,但他们中的一半人都这样说——而且还是量子位现场问到的所有人,或许就在反映着什么。
但仍然有诸多相关的谜团待解。
一个产业化公司搞啥发明?有什么用?如何开始的?又会往哪里去?以及最重要的:这些发明含金量几何?
百度十大科技前沿发明百度可能是中国最重视技术创新和专利保护的公司。
特别是进入AI技术创新周期后,每年的AI专利进展都会成为关注的对象。但今年有所不同,这次在专利积累之上,推出的百度十大科技前沿发明更成为关注的焦点。
这十大发明,基本都是数字技术、智能技术上的突破和积累。
与AI生成和创造相关的如:跨模态通用可控AIGC、知识增强大模型、数字人智能化生产。
与“AI司机”自动驾驶相关的如:无人车传感器融合处理系统、面向自动驾驶的车路协同关键技术、自动驾驶多模态行人运动预测。
还有深度学习通用异构参数服务器架构、基于AI的生物计算平台PaddleHelix、智慧城市全要素双总线技术,以及全平台量子软硬一体,也基本是AI驱动的时代级技术革新。
整体来看,都是目前全球技术创新竞速中的最前沿阵地。具体到所处的赛道,百度的发明项目进展不仅展现着原创性,也展现出领先性。
比如AIGC,国外有微软加持的OpenAI出品的GPT、DALLE,谷歌的Imagen,都是文和图生成方面的各自代表性工作。
但百度的通用可控AIGC,实现了能力上的集大成和效果上的可控。百度的AIGC不仅在全球首次实现了语言和视觉大一统的理解与生成,而且单一模型一经出炉就登顶了视觉和语言榜,横扫VQA、VCR、aNLI三大国际权威榜单。
又比如量子计算方面,在硬件打造和量子优越性争夺之外,百度还新增开辟出了产业化加速路线,通过基于“乾始”研发的全球首个全平台量子软硬一体化解决方案“量羲”,提供私有化部署、云服务、硬件接入等一系列服务,简化量子硬件部署到量子服务的全流程,实现不同量子芯片的“即插即用”。
还有自动驾驶,在百度TOP发明中十中有三,不仅秀的是该领域上的技术实力,而且也已经通过落地,在订单数、里程数和落地城市数量上实现技术驱动下的全球领先——目前全球最大的自动驾驶出行平台,是百度旗下的萝卜快跑。
与发明形成呼应和反差的,是背后的发明者。
或许你对百度在技术上的影响力和吸引力并不陌生,也多少听过百度内部以技术声名在外的专家、大牛和大神。但在这次十大科技前沿发明和专利发明人中,不少人低调十足,基本没有过对外亮相。
他们有各自具体性的一面,有人应届毕业就来了,有人在其他同样以技术标签知名的公司待过,还有人之前履历都在学术界。
然而共性一面是工龄司龄都不短,基本对外处于隐身无闻状态,并且被问到发明背后的关键时表述不同但指向一致:
如果不在百度,几乎不会成为这项技术的发明人。
“不在百度成不了发明人”上述异口同声的共同归因,需要结合发明的源起才能更好理解。
比如跨模态通用可控AIGC、知识增强大模型、数字人智能化生产,都可以理解为在百度过往技术和业务基础上生长出的新能力。
跨模态通用可控AIGC的发明人之一严萧,中科院计算所博士,正高级工程师,毕业不久就加入了百度,迅速成长为百度主任架构师,并且在业内公认的百度NLP沃土上斩获50多项授权发明专利,相关成果被广泛用于搜索、推荐、输入法和云服务等业务场景中。
严萧说,近一年以来,AIGC确实成了风口,大小玩家也都进入了赛道,但AIGC底层的统一模型,百度早就在预研和攻坚了。在GPT-3和DALL·E打响名气之时,百度内部已经在紧锣密鼓的推进包含文章、图片都在内的语言视觉大一统模型,并且完成了第一代版本发布。
“你可以借助开源很快做出点什么,但做不到随心所欲,我们希望它能像人一样想生成什么风格就生成那个风格”,严萧回忆,百度团队从一开始就铆足劲“北坡登珠峰”,在AIGC方向上实现通用且可控,因为这样才能在效果上实现工业化落地应用。
整个AIGC的立项很快,一方面是百度在这个方向上有积累也有人才,NLP和搜索等技术都具备领先性,把需要的人才横向抽调出来,就搭建好了班底架构;
另一方面,百度还具备技术落地的业务场景,AIGC相关的模型,从撰写资讯、文章到生成图片,都能在百家号、搜索、输入法和云业务中落地、迭代、再训练、再迭代,日臻进化。
所以在时势和英雄的命题上,严萧很坚定:如果他不在百度,几乎不会成为如此领先技术的一个发明人。
费扬昭也表达了相同的观点。他是数字人智能化生产的发明者之一,入职百度3年多,之前在其他科技公司从事计算机视觉技术方面的工作。
他认为数字人是一个必然发生的技术趋势,但如果不身处百度,很难完成智能化、规模化生产和应用。
费扬昭刚入职,就加入了百度与某重点客户的数字人打造项目中,那也是业内最早的商用数字人产品,据说造价成本高达百万元。这种制作门槛,一方面是因为技术难,另一方面是因为数字人CG资产制作和训练数据采集上的费时费力费资本。
但在百度,语音和NLP(自然语言处理)方面的技术积累,早在小度等产品就展现过,从技术到数据都具备基础,核心攻坚集中于自动化、批量化打造和应用上。
费扬昭透露,现在数字人的生产“智造”,到了“寻常百姓家”前夜,而且百度的数字人不仅通过商用实现了商业价值,更通过手语数字人等落地,推动了社会价值。
“百度在这方面不仅有基础,还有技术实现能力和决心,管理层也非常支持这种投入,在其他地方不敢想的…”
不过,这种基于固有业务生长出的发明,只是小比例的一部分。解释不了百度在自动驾驶、量子计算等赛道上的投入原因。
所以杨吉林给出了他的归因:技术信仰。
百度创始人李彦宏在最重要的场合,都会谈到百度对于技术的信仰。比如回港股二次上市,表达的是即便只有1块钱也会坚定投技术。比如在疫情之下的财报季,内部全员信中传递的都是再难不会难研发。
而在杨吉林那里,这种“技术信仰”是7年时间垒起的实践总结。他是清华汽车方向的博士,在校期间就围绕L2级智能驾驶展开研究,并在2015年底百度首次将无人车驶上五环后,深受震撼,加入成为百度自动驾驶团队一员,是十大发明中自动驾驶多模态行人运动预测的发明者。
杨吉林说,即便是2016年百度开始建立事业部推进自动驾驶时,L4级自动驾驶仍是一项短期看不到利润的业务,而且全球入局者寥寥,当时中国更是仅此一家,可以说是孤军作战。但即便如此,百度在自动驾驶投入上没有过犹疑,可以孤军投入、长期投入,还坚信可以第一个到达。
“这背后没有技术信仰,根本做不到。”
辛望也表达了同样的观点。他是悉尼科技大学量子计算博士,毕业后在美国马里兰大学从事量子计算理论的研究,2018年受到导师段润尧——百度量子计算研究所所长感召回国,是十大发明中“全平台量子软硬一体”的核心研发成员。
辛望对这个话题提供了另一种维度——通常科技公司、商业公司,重要的表彰往往会颁向那些跟钱更近的项目,比如给公司赚了几个亿,或者给公司省了几个亿…
但量子计算作为一个具有产业革命潜力的科技项目,还属于前沿,前期投入就需要巨大且持续,然而百度投入很坚决,百度在2021年工信部发布的量子计算高价值专利及创新驱动力排名中,取得了全球第三、国内第一的认可。
辛望认为,量子计算方面的投入,并没有对短期利益过多追求,而是以更加长远的战略视角进行技术布局,努力在量子科技关键领域去实现技术积累与突破,而且他自己归国后的感受来看,这样前瞻性的技术布局是百度不同于一般科技公司、商业公司的显著特色,也将为百度积蓄起支撑未来发展的强大势能。
当然,也有发明者笑称:如果不在百度,没有百度这样的专利保障体系,可能也不会成为发明者。
虽然有幽默的成分,但表达的依然是事实:百度确实是国内最重视创新和专利的公司,甚至没有之一。
毕竟百度的成立源起,就是发明专利的成果转换。工程师李彦宏的“超链分析技术”,让高效准确的中文信息检索成为了可能,从一项发明开辟了一个中文搜索时代。
到了新一轮技术创新周期中,百度也是人工智能发明专利最知名的公司。深度学习专利申请量到2021年已是全球第一,自动驾驶专利族数量也排名全球第一,人工智能全球专利申请量2.2万件,中国超1.6万件,中国授权专利4600多件,荣获AI交互领域的唯一中国专利金奖,成为AI领域获得中国专利奖项最多、级别最高的科技企业。
百度也是国内最早建制专利事务部的公司之一,2011年就成立了专门团队,将技术创新转化形成发明专利,培育创新的文化。
所以这次的十大发明成果,也是一次完善的发明体系的展现,从台前具体的技术创新、突破,到幕后的协同后勤团队及组织文化,相辅相成,缺一不可。
“少有人来百度前就是大神”在百度搞发明是种怎样的体验?
十大发明的获奖者回答不一,但都提到了相似的关键词:
自由度高,工程师氛围,不用说服,可以一直干下去。
硕士毕业于北大计算机系的黄烁华,2015年校招中加入百度,两次荣获百度最高奖,这次十大发明荣誉中也有他参与的知识增强大模型。
知识增强大模型是百度在预训练模型上的创新突破。在业内围绕“大力出奇迹”方向,堆砌训练数据、堆叠参数的时候,百度依托在NLP和知识计算方面的积累,利用知识增强的方法,实现了从规模知识和海量无结构数据中融合学习,学习效率更高、效果更好,具有良好的可解释性。
知识增强大模型初代目大魔王是2019年3月中国率先开源的预训练模型文心ERNIE 1.0,目前则已经升级成了产业级知识增强大模型家族,涵盖了自然语言处理(NLP)大模型、计算机视觉(CV)大模型以及跨模态大模型,在产业落地中输出生产力,成为大模型产业化落地和应用的头号玩家。
据黄烁华回忆,大概在2018、2019的时间点,百度内部的模型也展现出海量数据训练后的提效表现,展现出一种崭新的技术范式,但基本还停留在专用模型解决任务的范畴,于是思考用更通用的模型解决通用问题。
“都懂技术,不用怎么说服”,很快这个新想法就得到立项、批研发预算,并且可以“占领一间会议室”做封闭开发。
在百度,即便有着数量众多的会议室,但依然在更大的需求面前显得僧多粥少,抢到、成功预订会议室都是项目推进的重要组成。
而大模型研发团队,在立项通过后就获得了一间容纳20、30人的会议室,多少能说明些什么。
黄烁华说,对大模型跑起来那天的场景记忆犹新,虽然会议室里都是不善言谈的工程师,但激动和兴奋洋溢在每个人脸上。而再过一些时间,他们才知道自己成为了该领域的中文开创者,从技术创新到应用效果,都将带来巨大改变。
“如果不在百度,不一定有这样的机会和空间”,黄烁华在加入百度前,有过外资科技巨头和国内创新公司的实习,但那种技术相关的工作激情,他说百度的最强烈。
现在回看大模型,似乎顺理成章所有巨头都有入局。但黄烁华认为,在当时那个时间点,这样的创新不仅需要技术视野、技术自信,还需要敢投入的勇气,毕竟在AI领域,更多的数据、更大参数,就意味着更多的显卡和计算资源在燃烧,如果失败,就是一次完全打水漂的尝试。
但在整个过程中,没有因为投入而担心过。
如果大环境持续不行,你会担忧百度节流技术研发吗?
在现场,这个问题同样被问到了所有发明者,但给出的答案仍然一致:
不担忧。
通用可控AIGC的发明者之一严萧,来百度快10年了,他说百度做的很多技术投入和创新,都有业务场景驱动落地,不是为了创新而创新,不会因为大环境冷与热而改变。
同样快10年司龄的杨吉林,则认为可以听其言观其行,可以用已经发生的事实去推测未来。
而事实是,百度过去十年来对技术研发的持续投入只增不减,从比例上来看,2021年研发投入占比收入,甚至超过了23%,这种平均赚100块就有20块投入技术研发的案例,在中国罕见,在全球也不多。
杨吉林再次用自动驾驶举例,即便知道自动驾驶有光明的未来,但在没人能给出清晰路径的时候就敢投入、持续投入,没有任何一家其他中国公司敢于这样做。
在中国科技互联网的发展史上,更保险稳妥的办法是“后发制人”,看清楚第一个吃螃蟹的人怎么吃,然后快速依靠人才密集度、勤奋度和市场运营能力跟上,实现后发先至的超车。
但在自动驾驶领域不存在这样的条件,杨吉林承认,谷歌Waymo确实出发更早,但大家也都知道大概方向,细节都是各自摸索的,跟登月、造原子弹差不多——他还强调,现在百度Robotaxi落地比谷歌Waymo更快,没有背后的细节技术上的领先,做不到。
有意思的是,百度在自动驾驶与人工智能领域的持续投入,也成为了量子计算博士辛望回国加盟的影响因子之一。
他在马里兰大学做的是量子计算理论的研究,当时的量子计算发展距离产业化爆发还有相对明显的距离,但在百度量子计算研究所去推动量子计算机的研制,有望成为带动量子计算产业化的先行者时,他心动了。
“一家在自动驾驶、人工智能等前沿科技投入那么多年的公司,一家在创新投入和研发布局均走在国际前列的公司,是有明显技术坚持和技术自信在基因里的,相信至少会是一家具有战略眼光的长跑型公司。”
后来加入后,辛望说他想的没错,这样以技术创新为信仰的基因,从创始人、管理团队那里就写下了。
在AIGC之前,严萧的技术研发和应用涉及过很多业务,比如信息流、输入法,让他印象深刻的是几次来自厂长(李彦宏)的反馈,看得非常技术也非常细节。
费扬昭因为参与数字人项目,也接触了不少百度的其他团队和工程师,他觉得跟之前履历相比,百度的管理者都是技术出身,沟通起来很简单。
在交流中,这些发明者也在表达,百度上上下下的这种技术性,也是他们认为可以在这里一直做下去的核心原因,既可以年轻力壮时冲在一线,也可以在技术视野的磨砺中,站到后方提供弹药和把关。
至少目前为止,很多大神——外面知道的不知道的,就是这样的,他们就站在那里,让你知道可以一直做技术。这些大神名字里,被提到最多的是王海峰、吴华、陈竞凯…
但百度不也有“黄埔军校”的名声吗?意味着人来人往里的聚散流失。
从2016年以来始终身处百度自动驾驶的杨吉林,对此给出自己的回答:
很少有人来前就是大神,是在百度成了大神,这个土壤养成了大神。
“被迫有了一种民族紧迫感”所以百度为啥还要证明技术性?
在现场,针对这些发明的价值和意义的提问,让工程师们惊诧。
黄烁华认为,现在这些发明落地很多成了赛道风口,大模型、AIGC、自动驾驶……但这些发明百度没有一项是在风口时出发的,都是出于技术判断和信仰提前出发,苦功突破,最终实现引领。别人或许等风来,百度却是造风口。
他还举出新例子,量子计算和生物计算,距离风口都还有时间吧?但百度又已经提前出发了,“百图生科像不像5年前的自动驾驶?”
杨吉林则补充,从无到有做成无人驾驶是难如登月的,但如果未来一定会实现,Robotaxi注定成为所有人出行的普遍选择,那相信百度会是第一个到达这个目的地的公司。
即便大环境下行,财报和业绩传递出的压力感知得到,但让杨吉林更加坚定信心的是投入的一直持续,他说他们的部门一直在扩张。从人到公司的底色上,就是写满了技术,围绕着技术,这种东西已经深入骨髓,干事情很爽。
“如果还觉得百度不够技术,我会邀请他乘坐我们的无人车,无人车够技术含量了吧?”
有意思的是,百度的量子计算硬件实验室,也选在跟无人车运营相近的地方——北京亦庄。
所以辛望说他在工作间隙,也直接感受了一次无人车,情绪很特别,有兴奋,有惊喜,也有自豪。
这种特别的情绪,在他回国完全投身量子计算后,有了更明确的表达。
现在国际上对于关键信息技术的逐步封闭,使得他们这样的核心研发人员无形中多了一种民族紧迫感,更加深刻意识到在关键领域实现自主可控的重要性与使命感。
所以现在研发中积累专利的意义是什么?
辛望觉得意义在于从头就有了技术和专利,可以从实际产品、知识产权等多个角度避免了未来被卡脖子。
实际上,这也是近几年来谈论技术创新时再也无法绕开的挑战。太平洋风云变幻,每一次东海岸传来的新消息,今天这个不能用了,明天那个也收紧了。
但也是这种大背景下,百度在中国科技公司中的某种“独家性”反而被不断凸显,因为在以AI为核心的这波技术创新周期中,百度的技术、研发和布局,不仅够基础源头,还全栈全链,最重要的是具备竞争力和领先性。
所以有一种说法,也是在这种大背景下提出的,说在AI领域,以及百度技术创新和发明已经展现成果的领域,中国其实都多了一种选择、拥有了一项珍贵的自由:免于断供恐惧的自由。
这或许不是百度搞发明和技术布局时的全部出发点,但也确实成了不争的事实和结局。
(受访者意愿,文中受访工程师用了化名。)
标题:在百度搞发明的人
地址:http://www.hmhjcl.com/gzdm/3869.html