AGI与AI的区别?什么是端到端?
[汽车之家 技术讲堂] 2023年11月,特斯拉宣布已开始向员工推出完全自动驾驶(FSD)V12版本,该版本会引入神经网络系统,使用最新的端到端自动驾驶技术,不再依赖于复杂冗长的代码。2024年,FSD V12开始全面推送,与此同时,FSD入华也成为可能。一时间,“端到端”成为全世界自动驾驶领域最热门的词汇。
端到端到底是什么?落地端到端意味着车将会成为“机器人”吗?大模型、多模态、神经网络学习等对全自动驾驶有多大帮助及影响?中国公司在AGI领域的实力究竟如何?前段时间我们探访了商汤总部,对话了行业专家,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚博士,在采访中我们也进一步了解了商汤绝影在汽车行业的发展和规划。
「商汤是AGI领域的佼佼者」
「商汤的业务遍布全球」
一、AGI和传统的AI有什么区别?什么是端到端?
AI代表人工智能,能够执行特定任务或解决特定问题,如语音识别、图像处理和自然语言处理等,能表现出高度专业化但局限于特定领域,现如今AI技术已经成熟并广泛应用于医疗、金融、交通等行业。
「AI被应用于高铁检测」
「AI被应用于矿井作业」
「AI被应用于医学检查」
AGI(通用人工智能)指的是具有人类般通用智能的系统,能够在不同任务和领域中表现出广泛的适应能力。开发特定领域的人工智能系统相对简单,通过大量数据和特定算法训练模型即可,而AGI需要模拟人类的广泛认知能力和自我学习能力,实现难度极高。
「AGI对技术的要求更高」
「商汤的人工智能大装置」
想要更好地理解端到端,需要和传统的自动驾驶控制逻辑进行比较:传统的自动驾驶系统采用模块化部署策略,其中每个功能,如感知、预测和规划,都是单独开发并集成到系统中的,执行时需要一个环节接一个环节递进。端到端自动驾驶则能像人一样,“看”到外界场景后直接就能做出判断,从信息输入到决策执行一气呵成,没有中间环节。
直接感知强调系统直接从原始数据中获取环境信息,不经过太多的中间处理和转换环节,这是端到端中的一个关键起始点。直接决策则是基于感知结果直接生成驾驶策略和行动指令,减少了中间复杂的推理和转换过程,也是端到端的重要体现。
端到端能够实现整个自动驾驶流程的连贯性和整体性,除了感知和决策,还包括将决策转化为实际车辆控制动作以及整个过程中的无缝衔接和高效协同。所以,直接感知和直接决策是端到端的核心特征之一,但也不能简单地将它们与端到端完全等同,端到端是一个更全面、涵盖整个自动驾驶体系从输入到输出的概念。
「端到端是AGI技术发展的关键进程」
当然,端到端不仅可以应用在智驾领域,这种大模型更像是人的思考方式,省去了中间繁琐的步骤,减少了数据的损失,从信息输入到策略输出,都使用同一套算法模型,往往是包含大量数据及信息的大模型。端到端的应用,是AGI技术发展的关键进程。
二、发展AGI技术的核心是原创性
AGI技术是近几年全世界各行业的发展重点,身为AGI领域的顶级专家,王晓刚也和我们分享了一些观点。
谈及AGI,就不能不提现今最火的Chat GPT,新的GPT-4o,将大语言模型和多模态相结合,引领了整个行业的发展。但在成功的背后,也是多家顶尖科技公司的共同进步,微软为Open AI提供了大型软硬件基础设施,而相关的基础算法和Transformer神经网络模型,谷歌已经研究多年。
「商汤如影数字人视频生成平台」
国内虽然也有层出不穷的大语言模型及相关应用,但大部分的原创度并不高,很可能会陷入“价格越卷越低,但核心技术进步缓慢”的尴尬境地。
因此,大模型的发展不应急于商业化,而应着重提升其自身能力。未来的关键在于多模态数据的联合训练,这需要物理学、心理学、认知科学、数据科学和数学等多个领域的合作,多样化的数据有助于平衡偏见,减少错觉,使大模型更稳定可靠。
「语言大模型是近两年的热门」
目前,Open AI已经在视频、图片、语音和文本等多模态数据的融合训练上取得一定进展,虽然低延迟和仿生交互只是表象,但其背后蕴藏着AGI的雏形。AGI的实现路径依赖于训练数据的质量和多样性,多模态数据在高维空间中的对齐和融合是当前最大的技术难点。AGI的发展不仅需要技术,还需要信念和热爱,中国的AGI需要自己的奥本海默,企业应专注于提升核心竞争力和技术的原创性,而非陷入价格战,以推动中国AGI的长远发展。
「商汤一直坚持技术原创」
商汤一步步走来,一直坚持技术原创,这也是为什么在那么多人工智能相关的公司中,商汤能够傲视群雄。早在2014年,商汤团队就发布了DeepID系列人脸识别算法,首次超过人眼识别率,甚至超过了Facebook同期发布的DeepFace算法,实现了从0到1的突破。
「商汤团队在国内一众人工智能公司中傲视群雄」
2018年,商汤开始大模型相关的研究,当时并没有能提供足够算力的基础设施,甚至连国内顶级的互联网公司阿里和腾讯都没有,商汤开始在上海临港进行基础建设,AIDC人工智能计算中心,提前为之后的AI云计算、云服务布局。有了自己的大型基础设施,商汤在行业内的发展能够更加游刃有余。
「AIDC人工智能计算中心位于上海临港」
2023年,端到端技术伴随着特斯拉发布FSD V12成为行业关键词,但早在2022年,商汤就发布了端到端技术,并表示端到端是未来。近日伴随着GPT-4o爆火的多模态,对于商汤而言并非什么新技术,已经研究多年并投入应用。不久前,商汤的SenseChat V5以总分80.03分的成绩刷新SuperCLUE国内最好成绩,并且在中文综合成绩上超过GPT-4-Turbo-0125,这是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。
「商汤的SenseChat V5刷新了SuperCLUE国内最好成绩」
商汤一直坚持AGI相关技术的原创,走到世界前列。王晓刚认为,同质化的竞争会导致资源浪费,原创性是推动全球人工智能行业向前发展的源动力。当然,原创也意味着更多的不确定性和更大的风险,但如果成功,对于整个行业而言,突破是巨大的,这也是商汤想要实现的。
AGI技术与纯视觉方案
三、AGI技术如何改变汽车行业
虽然汽车行业更像是传统制造业,和人工智能行业有所区别,但如今越来越多的前沿技术开始改变汽车行业,王晓刚认为,汽车行业同样需要原创精神。特斯拉发布了端到端自动驾驶,成为了整个行业的追逐目标,这一定是未来趋势,但其实也产生了另一种形式的同质化。
「绝影智能驾驶具有前瞻性」
汽车的智能化,其实有更多值得原创的方面,人工智能远不止端到端,GPT-4o多模态人机交互,在汽车环境中也能展示相关的技术场景。在座舱内,多模态交互会更加自然,应用人工智能,能进一步拓展人的能力,是智能汽车的发展方向之一。
「智能化是汽车行业的未来方向」
当然,无论是端到端自动驾驶,还是多模态人机互动,都需要控制维度、控制能力的提升,技术的融合,包括语音、文字、图像在内,来自不同信息源的数据深度处理,都会导致技术难度的大幅度增加。这也需要相关供应商能够和车企有深度合作,获取相关的数据,和车厂深度融合,共同推进产品的定义、用户体验的提升。
「将智舱和医疗相结合是一种新思路」
「智舱可以和更多应用相结合」
王晓刚认为,作为商汤的汽车事业独立品牌,商汤绝影在汽车的未来智能化发展中有着很强的潜力和竞争力。在AGI技术方面的原创性和AIDC人工智能计算中心,已经展现了商汤的综合实力。在此基础上,商汤绝影专注于智能汽车行业,把AGI相关技术和汽车行业相结合。
「专注于智能汽车业务的商汤绝影」
虽然一些老牌供应商已经在汽车领域深耕多年,但往往只聚焦于单一技术模块,不具备商汤的AGI能力。以多模态人机交互为例,每增加一种模态,就需要综合能力、研究能力及落地能力的大幅度提升,无论是图像、语音、文字还是3D信息,商汤都有着成熟的经验。
「商汤绝影在多模态人机交互领域有着成熟的经验」
Open AI虽然相关能力更强,但没有专注于汽车方向的团队,平台性的公司,在汽车领域的专注度往往不够。另外,手机和电脑应用,并不是真正的多模态,获取的信息很有限。相较而言,智能汽车是非常自然的多模态交互场景,汽车产量大,终端用户多,信息的形式多且数据量大,商汤绝影的团队正在这一领域深耕,用人工智能改变汽车行业,在汽车行业开发更先进的人工智能。
「商汤绝影在智能汽车领域具有多个优势」
四、选择纯视觉方案并不是因为成本
除了多模态人机交互,自动驾驶是智能汽车的另一个主要发展方向,为何未来属于视觉方案而不是激光雷达,王晓刚给出了具有行业高度的解释。
虽然,更多人关注到的是成本方面的降低,但这并不是影响特斯拉、商汤绝影等公司的决策的主要原因,信息量的差异以及对AGI技术的未来展望,让这些公司坚定不移地选择了纯视觉方案。
「视觉方案在未来有着更多可能性」
激光雷达在自动驾驶技术刚起步时更容易利用,但相较于人眼观察到的世界,会有很多信息损失。摄像头就像是人的双眼,采集到的信息更加丰富,天花板更高,伴随着AGI能力的逐步提升,端到端大模型的应用,从信息采集到做出决策都更像是一个真正的人类,视觉优势会更加明显。
五、面对端到端的全自动驾驶能力,商汤绝影与特斯拉的差距并不大
那么在智能化汽车方面,商汤绝影相较于行业头部的特斯拉,又有哪些优势和不足呢?
在人机交互方面,王晓刚对商汤绝影的信心十足。虽然特斯拉的机器人应用已初见雏形,但在车的场景中还未发力,闭环自研很难覆盖全部维度。在这方面,商汤绝影已经积累了大量的经验,和多家车企有着深度的合作。
「商汤绝影在人机交互方面已经积累了大量经验」
在自动驾驶方面,特斯拉和商汤绝影使用的都是基于端到端大模型的纯视觉方案,这类方案需要大量的数据和充足的算力,特斯拉和商汤都有着庞大的基础设施,近几年,特斯拉大规模购入高算力GPU,算力中心由10万块GPU组成,截止目前,商汤有4万5千块GPU,总算力已高达1.2万PFLOPS,是其他车企或汽车行业供应商难以匹敌的高度。
「商汤的AIDC人工智能计算中心能够提供充足的算力」
PFLOPS是"Peta Floating Point Operations Per Second"的缩写,表示每秒千万亿次浮点运算,如果用业内常用的TOPS表示,1 PFLOPS等同于1000 TOPS,1.2万PFLOPS也就等同于1200万TOPS,大约相当于240万台家用计算机的算力。
「人工智能的发展需要有充足的算力作为基础」
除了在算力方面的不断积累,在数据的获取和模型的训练上,商汤绝影也使用了和特斯拉相同的思路。特斯拉会使用采集到的真实场景数据构建虚拟世界,在虚拟世界中可以高频训练各类情况,增强对物体的感知判断,最终能够给出更高效的决策。2023年,商汤也开始合成视频对模型进行训练,不再需要消耗大量算力和人力从海量数据中提取有效数据。
「训练模型需要大量的有效数据」
当然,身为车企的特斯拉,已经售出超过600万辆车,有着海量的真实数据,能够闭环完成全过程,更加高效。商汤绝影主要依赖于车企合作,和特斯拉相比,效率和信息量有一定差距,分享多少信息给供应商,车企会有选择。但是,伴随着合作的扩展和加深,效率会进一步提升,车企也会开放更多的信息。
六、商汤绝影的未来发展
未来如何和车企进行合作,体现商汤绝影的价值,也是我们所关心的。
王晓刚表示,虽然商汤绝影已经有量产的经验,但还是需要更多的宣传和曝光——让车企知道商汤绝影是一家怎样的公司,商汤绝影的技术有什么价值。无论是特斯拉FSD入华,还是Chat GPT的演进,对整个行业来说都是正向的,和商汤绝影一起推动了市场对端到端、多模态等前沿人工智能技术的理解和认知。
「商汤绝影已经有智驾的量产经验」
和车企的合作方式,商汤绝影也在不断探索中,但始终会秉承着开放的态度。商汤绝影会一直专注在自己擅长的AGI领域,车企也能做自己擅长的,双方的合作开放且深度。从基础的模型和引擎,到模块、应用乃至完整的方案,商汤绝影都能够提供,同时也能协助车企提升平台化能力和效率。商汤绝影看重的是长期且优质的合作,在合作过程中,也能不断加强自身的核心发展项。
「商汤有着丰富的技术储备」
商汤绝影在国内算得上是一家稀缺的全栈技术领先供应商,他们拥有"算力+算法+量产经验"这三重全面能力。他们不只满足于赋能客户,更主张成为核心技术伙伴。依托商汤大装置深厚的算力储备、原生汽车垂类大模型、领先的软硬件架构以及全栈数据生产管线等实力,商汤绝影展现出强大的全栈综合能力,有可能推动智能汽车更快速地驶入AGI时代。值得一提的是,他们的目标非常明确——希望与汽车厂商建立起战略合作关系,而这恰好也是商汤绝影和王晓刚所期待的。
「商汤绝影期望与汽车厂商建立起战略合作关系」
商汤科技取“绝影”之名,这匹让人惊叹、一骑绝尘、迅疾如影的千里马,源自曹操的坐骑“绝影”。在《魏书》中记载其因流矢受伤,但依旧忠诚可靠,我想这也能象征商汤绝影强大的技术实力和可靠的原创品质。相信其能助力更多车企,实现全自动驾驶能力落地。截至2023年12月,商汤绝影已与本田、比亚迪、长城、广汽、红旗、极氪、哪吒、奇瑞、蔚来等超过30家国内外车企携手合作,覆盖超90款车型,累计交付195万辆智能汽车。而最新的端到端大模型,也计划于2025年落地。(访谈/李店斌 黄正桥 庞珅 文/庞珅 图/黄正桥)
在今年的北京车展上,商汤绝影展示了真端到端自动驾驶解决方案UniAD的视频,所有操作行云流水,仿佛真的有了人的智慧。但需要说明的是,视频中的只是测试车,大洋彼岸的特斯拉,在FSD V12版本已经使用了端到端架构,且已全面推送给车主。FSD入华的消息沸沸扬扬,很多人翘首期盼,但在中国的道路上,同样是端到端,同样是虚拟世界训练出的大模型,中国自己的AGI领头羊、拥有原创技术团队的商汤绝影更值得我们期待。
相关视频——