商汤绝影多模态大模型以人为本,引领智能汽车交互革新

日期:2024-07-06


在自动驾驶领域,商汤绝影凭借其原生多模态大模型的车端部署,实现了低至300毫秒的首包延迟和每秒40 Tokens的推理速度,覆盖多种主流算力平台;其DriveAGI技术提供了可解释、可交互的多模态体验,增强了驾驶安全性;行业首个「随心界面」(FlexInterface)开创了车载生成式交互的新纪元;作为2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)期间唯一L4自动驾驶接驳小巴,其累计行驶里程超过了300万公里,展示了其技术的成熟度和可靠性。


覆盖多种主流算力平台的强大算力

在7月4日-7日在上海举行WAIC 2024)上,商汤绝影携多款基于全新发布的商汤「日日新5.5」原生多模态大模型打造的智能驾驶和智能座舱产品惊艳亮相,引领「以人为本」的智能汽车交互革新。

加速智能汽车驶入AGI时代

在由WAIC 2024战¬略合作伙伴商汤科技精心筹办的“大爱无疆•向新力”人工智能高端论坛上,商汤科技发布了国内首个所见即所得模型「日日新5o」。该模型以实时流式多模态交互体验直接对标行业标杆GPT-4o,彰显了商汤科技在混合端云协同专家架构下打造的「日日新5.5」大模型所蕴含的非凡实力与前瞻性技术视野。
商汤科技联合创始人、首席科学家兼绝影智能汽车事业群总裁王晓刚先生,在论坛上发表了振奋人心的演讲。他强调:“原生多模态大模型无疑是解锁通用人工智能(AGI)时代大门的金钥匙。商汤绝影正以前所未有的热情与决心,激发AGI的无限创造力,深度推进多模态大模型与智能汽车领域的融合创新,旨在打造一系列颠覆性的车载智能化产品。”这不仅将加速智能汽车向超级智能体的跨越式进化,更将引领一场以用户为核心,重塑智能汽车交互体验的革命性变革,让未来出行更加智能、便捷、人性化。



王晓刚分享商汤绝影最新技术和产品进展

据了解,商汤绝影作为引领智能汽车疾驰进入AGI时代的关键战略合作伙伴,不仅展示了其自主研发的可解释性强、高度交互性的自动驾驶大模型DriveAGI,更在行业内首开先河,发布了「随心界面」(FlexInterface)。这款革命性的车载生成式交互界面,以及「随意操控」(AgentFlow)等一系列车载AI Agent创新应用,为用户带来了前所未有的智能出行体验。这些成果标志着商汤绝影在推动自动驾驶与AI技术深度融合、优化人机交互体验方面又迈出了重要一步。

“以人为本”就要真真切切

“以人为本”的理念正在智能科技领域得到前所未有的充分体现。商汤的多模态大模型技术,正是这一理念的生动实践,它实现了语音、文字、图像、手势、视频等多种信息模态的高效深度融合,为用户带来了前所未有的自然、丰富的人机交互体验。
回顾过往,在处理多模态信息时,往传统模型往采用“转化-分析-再转化”的间接方式,这不仅导致了大量信息流失,还引入了不必要的延迟。而商汤基于「日日新5.5」体系构建的全新多模态大模型则实现了真正的端到端处理,各类模态信息直接输入,模型统一解析后直接输出对应模态的反馈。其技术难度虽呈几何级增长,这正是商汤在原生多模态能力上领先行业的直接证明。
特别值得一提的是,「日日新5.5」作为「日日新5.0」的全面升级,不仅在数学推理、英文能力、指令跟随等方面显著提升,更在交互效果和核心指标上实现了对标GPT-4o,展现了国产大模型的强劲实力。


日日新5.5

相比手机,智能汽车以其独特的场景优势成为了多模态大模型落地的理想落地场景。车内外的摄像头全天候工作,为实时多模态交互提供了可能;而智能汽车市场的持续增长,则为模型迭代优化提供了丰富的数据滋养。这一切,共同指向了一个激动人心的未来:智能汽车正逐步进化为超级智能体,而多模态大模型正是这一进化的核心引擎。
作为智能汽车领域的核心供应商,商汤绝影凭借其深厚的智能驾驶与智能座舱量产经验,正引领着智能汽车交互方式的深刻变革。从“以车为中心”到“以人为中心”,商汤绝影通过多模态大模型,实现了座舱内外、物理与数字世界的无缝连接,让每一个与“人”相关的信息都被精准捕捉、充分利用,真正实现了主动服务用户的愿景。这种真真切切的“以人为本”,正引领着智能汽车交互进入一个全新的时代。


率先实现原生多模态大模型的车端部署

车端模型的高效部署能力,无疑是推动智能汽车交互创新不可或缺的技术基石。商汤绝影凭借其卓越的全栈部署策略,涵盖云侧、端云融合及纯端侧等多种模式,灵活且高效地将多模态大模型融入智能汽车生态系统,确保了商汤原生多模态技术的迅速落地应用。
目前,商汤绝影已率先在行业内完成了原生多模态大模型的车端部署,并在WAIC上展示了其跨越不同算力平台的强大适配能力,成功运行了从2.1B到8B级别的端侧多模态大模型。这一里程碑式的成就,不仅彰显了商汤绝影在技术创新上的领先地位,更为智能汽车领域树立了新的标杆。
值得一提的是,相较传统云上部署方案普遍存在的数秒级延迟问题,商汤绝影车载端侧的8B多模态模型实现了惊人的性能突破,首包响应延迟缩短至300毫秒以内,推理速度高达40Tokens/秒。这一显著提升,极大地优化了用户体验,为智能汽车提供了更为流畅、即时的人机交互体验,彰显了“以人为本”的智能汽车交互理念,引领了未来智能出行的新风尚。

多模态DriveAGI为端到端智驾安全赋能

2022年末,商汤科技及其联合实验室推出了业界首个集感知与决策于一体的自动驾驶通用模型UniAD,并在2023年国际计算机视觉与模式识别会议(CVPR)上荣获最佳论文。今年北京车展以来,UniAD凭借其持续的数据积累、精准的真值标注、高效的模型训练及实车验证,系统稳定性实现了质的飞跃,驾驶体验在连续性与舒适性方面均得到了显著提升。在本届WAIC上,商汤绝影展示了仅依赖7个摄像头的UniAD如何在无高精度地图辅助下,游刃有余地穿梭于城市复杂路况与乡村小径,实现了一镜到底的实车演示,标志着端到端智能驾驶模型的持续迭代进化。
尽管UniAD极大地增强了智能驾驶系统的能力,但商汤深知,纯粹的端到端模型并非自动驾驶的终极形态。为了实现智能汽车向超级智能体的跨越,关键在于赋予其更强大的开放世界感知、逻辑推理、精准决策及自然交互能力。为此,商汤绝影开创性地研发了首个针对驾驶决策规划设计的智驾大模型DriveAGI。该模型基于多模态大模型构建,使端到端智能驾驶系统具备可解释性,让车辆能够像人类一样深刻理解复杂的现实环境,洞悉交通参与者的行为意图,迅速掌握并适应多变的交通规则与路况信息。同时,它支持用户交互,能向乘客清晰阐述驾驶决策的推理路径,增强了用户的信任与安全感。
目前,商汤绝影的DriveAGI智驾大模型已展现出非凡的能力,能在无明确标识的宽阔道路上,精准判断并安全穿越由两个石墩构成的狭窄空间;面对公交专用道、潮汐车道及施工区域等复杂交通标识,它亦能准确识别并灵活应对,自主执行变道或避让操作。特别是在紧急情况下,如后方救护车逼近,DriveAGI能够迅速进行逻辑推理,果断采取避让措施,确保道路安全与畅通。


识别和主动让行执勤救护车

UniAD与DriveAGI智能驾驶大模型的卓越表现依赖于商汤绝影强大的模型构建能力,这一成就背后,离不开海量且高质量数据支持学习和训练。作为“新质生产力”的典范,以多模态融合为代表的大模型极大地加速了从端到端的智能驾驶训练到迭代优化的全周期效率。

让钢铁侠的人工智能帮手「贾维斯」

如今的智能汽车不仅搭载了先进而全面的硬件装备,更构建了一个专属于用户的沉浸式交互空间,成为AGI应用落地的最佳场景。商汤绝影,作为行业创新的领航者,正以前沿的多模态技术为基石,将智能座舱推向前所未有的高度,让每一位驾驶者都能享受到如同钢铁侠身边的「贾维斯」般的智能陪伴。
商汤绝影匠心独运,倾力打造「座舱大脑」(CockpitBrain)——一款集多模态大模型强大感知与交互能力于一体的引擎产品。这一创举不仅构建了AI大模型座舱的产品矩阵,更让“贾维斯”式的智能助手跨越科幻界限,成为智能汽车中不可或缺的AI出行伙伴,为用户的每一次出行增添无限可能。
在WAIC上,商汤绝影正式发布了行业首个生成式交互界面产品「随心界面」(FlexInterface)及「随意操控」(AgentFlow)等车载AI Agent。FlexInterface凭借其AI大模型的即时生成与界面优化能力,能够根据用户的个性化需求及外部环境变化,如天气、节日等,自动调整界面风格,让每一次驾驶都充满新鲜感与惊喜。
而AgentFlow则展现了更为惊人的智能操作力,它利用大模型的深度推理,模拟人类操作习惯,直接操控APP与网站,实现复杂任务的自动化处理。用户只需以自然语言发出指令,AgentFlow便能智能筛选并组合多个工具,完成从搜索到预订的一站式服务,如自动预约观赛酒吧,让出行生活更加便捷高效。
现场演示中,商汤绝影以“欧洲杯”为主题,生动展示了FlexInterface与AgentFlow的协同魅力。用户轻松生成充满赛事氛围的中控界面,同时AgentFlow即时响应,播放起足球相关的音乐,让整个车厢瞬间沉浸在浓厚的足球盛宴之中。


FlexInterface通过大模型生成「欧洲杯」主题车载界面

此外,商汤绝影还在传统智能汽车「哨兵模式」基础上,匠心独运地推出了「多模态哨兵」。这一创新之作,能够以前所未有的精准度与敏锐度,全面洞悉并有效应对开放道路环境中各类潜在的随机威胁行为,包括但不限于恶意划车、车身喷涂、暴力拍打与砸击、门把手的非法拉拽、撬门企图以及踹车等,确保爱车安全无虞,防护无死角。
依托强大的多模态大模型技术,商汤绝影不仅让智能汽车拥有了更加智能的防护铠甲,更将其提升为用户的专属「贾维斯」,为用户带来前所未有的安全、便捷与智能化出行体验。

量产盛景绽放,重塑出行未来元

作为引领智能汽车加速冲刺至AGI时代的战略合作伙伴,商汤绝影不仅在大模型技术上引领潮流,其产品化的量产进程更是遍地开花,硕果累累。在智能座舱方面,商汤绝影大模型技术已深度融入多家主流车企的量产车型,如小米SU7的小爱语音助手车载语音场景应用。
6月25日,随着翼真L380的上市,商汤「日日新」大模型也实现了量产上车。依托「商量」大语言模型与「秒画」文生图模型的强大能力,商汤绝影为翼真L380量身打造了「AI闲聊」、「美图壁纸」、「童话绘本」、「AI问诊」等一系列创新AI大模型座舱产品,将「陆地空客」的智能座舱体验提升至全新维度。
智能驾驶领域,商汤绝影同样成绩斐然。其量产智驾产品已广泛搭载于广汽埃安LX Plus、合众哪吒S、广汽昊铂GT、红旗等众多知名品牌车型,高速NOA等高级功能正逐步落地应用。同时,商汤绝影持续推动更多车型的交付进程,展现出从感知到规控的全栈智驾技术量产交付的强大实力。随着广汽与一汽入选国内首批L3级自动驾驶试点项目,商汤绝影更是为其提供了面向L3的顶尖感知算法支持,并前瞻布局,确保多个量产智驾方案未来可无缝升级至端到端架构。
在更高阶的L4自动驾驶领域,商汤绝影自动驾驶小巴更是大放异彩,成为WAIC 2024唯一承担接驳任务的L4级自动驾驶车辆,为参会者提供了便捷高效、需求响应式的自动驾驶巴士出行新体验。这背后,是商汤绝影深厚的技术底蕴与卓越的落地执行能力的完美展现。


商汤绝影L4级自动驾驶小巴

截至目前,商汤绝影L4级自动驾驶小巴的测试与运营总里程已突破300万公里大关,在江苏无锡、陕西西咸新区等多地成功开展自动驾驶接驳服务,展现了其广泛的适用性与稳定性。特别是在上海临港,商汤绝影与上海临港新片区公共交通有限公司携手打造的智能网联公交场景,通过“响应式公交”模式,实现了医疗专线与上海海洋大学专线的精准服务,累计预约乘坐人次已超过16,000,赢得了社会各界的广泛赞誉。
综上所述,商汤绝影正以大模型产品为核心驱动力,全面融入智能汽车与智慧出行的每一个角落,不断开辟出行新范式,引领智能汽车产业加速驶向AGI时代的辉煌未来。

订阅我们的通讯!

电子邮件地址