下半年交火点:智驾全国都能开,智舱多模态大模型

“你猜一猜我现在参加什么样的活动呢?”

“你参加的是WAIC,就是那个人工智能的大Party,超多科技高手都在这……”

“你帮我介绍一下这本书吧。”

“这书叫《反脆弱,从不确定性中获益》,讲的是怎么在混乱里找机会,作者塔勒布,来自土耳其,还写了《黑天鹅》,里面提了不少新词,像反脆弱者,书里挺有给我启发的东西……”

以上两段对话来自7月5日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)上,商汤科技发布的“日日新5.5”原生多模态大模型现场演示对话。大模型能从工作人员脖子上佩戴的胸卡带子上的文字识别出所在活动,随便翻开一本书,都能归纳总结整本书或者任何一页的内容,而且都在瞬间完成。

当天,商汤旗下智能汽车事业群商汤绝影发布了自动驾驶大模型DriveAGI,以及行业首个车载生成式交互界面“随心界面”(FlexInterface)、“随意操控”(AgentFlow)等基于多模态大模型的车载AI Agent应用。

图片

3月28日小米SU7发布会上的语音演示中,车主可以问小爱同学“这条隧道有多长?”“旁边路过的河是什么河”“前面的车是什么车”“有没有离簋街和望京都很近的川菜馆”,车载语音交互的历史进程向前迈进了一大步。

小米SU7语音交互背后就有商汤大模型的支持。商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚透露,商汤与小米的合作从去年的小爱手机开始,小米汽车语音的特点是与手机、其他终端由由同一套体系支撑,汽车语音需要根据用车场景做适度修改,早期有其他供应商平行推进。

到今年1月,雷军体验过车机语音后认为模型效果不够好,其他供应商没有做出快速整改,绝影用了一个多星期时间根据要求做出了适应用车要求的模型。比如小米要求首次响应的延时必须控制在2秒之内,也就是说,使用者说了一段话,输入一堆文字,车机反馈时,即使是云端的反馈,也需要在一两秒内迅速响应。

这对每家供应商都有挑战,绝影通过各种资源优化和保障措施最终完成得比较好。优化的背后需要一个专注汽车领域的团队,让模型更好地为汽车服务。这次考验后,商汤正式成为小米SU7语音大模型的供应商。

6月25日,吉利控股集团旗下子品牌翼真汽车(LEVC)旗下首款豪华纯电MPV翼真L380上市发布,商汤绝影为翼真 L380定制化打造了“AI闲聊”、“美图壁纸”、“童话绘本”、“AI问诊”等AI大模型座舱产品和功能。

图片

大模型发力自动驾驶之前,已经在智能座舱上多点落地。

多模态大模型能够将语音、文字、图像、手势、视频等各种模态进行高效且深度地融合,提供更加丰富且自然的人机交互体验。

过去模型处理不同模态信息是先把语音等输入转化为文字,文字和图像结合进行分析,输出反馈也是先生成文字,根据文字再生成语音输出,会有大量信息丢失和很高的延迟。多模态大模型是一种端到端的模型,文字、语音、视频等不同模态一同输入,模型统一处理后输出相应模态的信息,相较于过去的方案,多模态融合的体验与技术难度都呈几何倍数的提升。

智能座舱被改变。

图片

为智能座舱带来多大变化

大模型在2023年成为人工智能的最大风口,很快形成百模大战局面。

有公开数据称,截至2024年4月底,国内共推出305个大模型,10亿参数规模以上的大模型数量已超100个,数量可观。

2024年成为大模型真正落地元年。

汽车领域,大模型上车两个最大的应用是自动驾驶和智能座舱多模态交互,后者落地速度更快,问界借助华为旗下盘古大模型、极越利用百度文心一言都实现了车端落地,蔚小理这些新势力车企选择自研,小米、LEVC是与供应商合作的代表。

大模型能为智能座舱带来多大变化?

图片

首先是语音能够实现连续多轮对话,更像人与人的交互。此前的语音系统不支持多轮对话,每次对话都是独立的,缺乏记忆功能,车机无法记住之前的信息。大模型支持多轮对话,能够记住之前的对话内容,并能从大量输入中总结出有用信息,甚至可以处理长达100万token的上下文输入,理解整本书的内容。这是大模型特有的能力。

其次,犹如增加了一位线上助理。大模型能帮助管理日程表,只需简单指示,它能在开车等不便操作的情况下,为车主找到合适的时间安排会议,并在有冲突时协助调整。

大模型能在视频会议结束后生成会议总结,包括会议要点,每位与会者说了什么话、重点是什么、计划和行动是什么,都能总结提炼出来。

最大的变化是,大模型能根据使用者的指令跨APP完成复杂任务。

王晓刚举例:“你现在开车说我要看欧洲杯,能不能给我找一个酒馆,我一边看欧洲杯,一边吃饭,你到小红书上查一查,有没有比较好的馆子。”

如果做任务分解,这件事分几个步骤:首先激活小红书APP,大模型需要理解每个页面是什么内容,每个按钮代表什么操作,每条评论有什么价值。这涉及到的文字大模型、多模态大模型的能力,能够像人一样读懂文字信息、图片信息、视频信息。读懂之后选择符合要求的餐馆。第二个步骤是上美团APP找到这个餐馆订餐。第三个步骤是导航到该餐馆。

以往的语音控制体系是一条指令对应一个执行动作或一个APP,上述举例给出的是一个复杂任务,需要多个动作、调用多个APP分步骤完成,是一系列执行动作的组合,相比以前的人机交互是革命性的,拥有了类似人类的协调资源、解决问题的能力。

图片

大模型还带来一些小彩蛋,比如车机界面可变,每天心情不同、关注点不同,就可以设置不同的界面。比如最近关注欧洲杯,就可以让中控大屏显示欧洲杯主题,有最新战报,还可以随时播放比赛信息。

图片

训练一个模型要上亿投入

上述跨APP完成复杂任务的难点在于让大模型准确理解每个APP页面的信息含义、每个操作按钮的含义。

“多模态的模型可以去自动地分析几百万个图形界面,分析后知道每个图形界面是干什么的。另外还有任务分解,我说了一段话,你要把它分解成一个工作流,我说的是到小红书上看看再定,我并没有清楚地告诉它你第一步干什么,第二步、第三步干什么,它要自己理解这件事,然后把工作流排出来。它本质上带来的就是一个人机交互变革的大模型。”王晓刚说。

功能实现背后是对大模型的海量训练和硬件支撑,并不是所有公司具备这样的条件,王晓刚认为大部分汽车公司自研大模型是不现实或者性价比很低的。

“一个语言模型的训练有几千亿参数,几千张卡,要训练三个月,光这里面投入的成本要几千万甚至上亿。还有数据的清洗、计算的资源,它是一个研发体系。把3000张卡放在一起去训练一个模型,这件事儿本身就很难,因为3000张卡这么多硬件,中间某一个硬件出了问题,整个系统就失效了。要让这个系统能够稳定运行一个月以上,这里面有很多软硬件基础的建设。另外训练大模型的研发团队也很烧钱,经验丰富的团队都是资源和钱堆出来的。”王晓刚说。

图片

硬件方面,商汤拥有4.5万张GPU,总算力在国内仅次于BAT和头条,国内汽车公司拥有的计算卡数量一般在几千张不等。

2021年成立的商汤绝影最初的核心业务是智能座舱,截止2023年底已经与自主、新势力、合资、海外各类型30多家车企合作,覆盖90款车型,累计交付195万辆。

相比OpenAI等通用大模型公司,商汤绝影的优势在于他们有更符合汽车行业要求的大模型解决方案。比如汽车是私密空间,用户非常在意隐私保护,多模态大模型大部分的任务必须在车端完成,需要有云侧、端云结合、端侧等全栈方式灵活部署多模态大模型的能力。

王晓刚7月5日在WAIC上宣布商汤绝影在行业内率先实现了原生多模态大模型的车端部署,相较于动辄就有几秒钟延迟的云上部署方案,绝影车载端侧8B模型首包延迟可低至300毫秒以内,推理速度40 Tokens/秒,并且能够覆盖主流算力平台。

作为大模型落地元年,2024年已经过去一半,智能驾驶的竞争点从开城数量集体转向“全国都能开”,智能座舱的竞争,也将因为大模型的陆续上车,进入新的阶段。


如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/43453.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

闲聊C++与面向对象思想

艾伦凯曾说,“I made up the term object-oriented, and I can tell you I did not have C in mind.”(“我发明了术语‘面向对象’,可以告诉您我没有C”)。 今天看到这句话,激发了笔者写一篇文章聊聊C与面向对象思想…

搞不清啊?伦敦金与上海金区别是?

进入黄金市场的朋友,有可能会被各式各样的黄金交易品种带得眼花缭乱,其实各品种虽然都以黄金作为投资标的物,但是也是各有不同的,下面我们就来比较一下相似的投资品种——伦敦金和上海金。 首先在比较之前,我们要搞清楚…

基于泰坦尼克号生还数据进行 Spark 分析

基于泰坦尼克号生还数据进行 Spark 分析 在这篇博客中,我们将展示如何使用 Apache Spark 分析著名的泰坦尼克号数据集。通过这篇教程,您将学习如何处理数据、分析乘客的生还情况,并生成有价值的统计信息。 数据解析 • PassengerId &#…

快速排序[原理,C++实现,注意事项,时间复杂度分析]

模板&#xff1a; //本模板来自ACwing void quick_sort(int q[],int l,int r) {if(l>r) return;int xq[lr>>1],il-1,jr1;while(i<j){do i;while(q[i]<x);do j--;while(q[j]>x); if(i<j) swap(q[i],q[j]);}quick_sort(q,l,j);quick_sort(q,j1,r); };原理&…

江苏高防服务器都有哪些优势?

江苏高防服务器所针对的应用群体是不同的&#xff0c;高防服务器与普通服务器的应用效果和功能上是有着很大的差别&#xff0c;所以企业与用户在进行挑选高防服务器时&#xff0c;会更加看重服务器的质量与服务效果&#xff0c;本文就来聊一下江苏高防服务器的优势有哪些吧&…

1509.三次操作后最大值与最小值的最小差

1.题目描述 给你一个数组 nums 。 每次操作你可以选择 nums 中的任意一个元素并将它改成 任意值 。 在 执行最多三次移动后 &#xff0c;返回 nums 中最大值与最小值的最小差值。 示例 1&#xff1a; 输入&#xff1a;nums [5,3,2,4] 输出&#xff1a;0 解释&#xff1a;我们最…

字典操作(获取类操作、添加更新类操作、字典删除类操作)

字典数据获取类操作 keys() 用来获取字典中所有的 key, 保存到一个列表中&#xff0c;并以 dict_keys类型返回 stu {name: Tom, age: 23, gender: male, address: BeiJing} ks stu.keys() print(ks)values() 用来获取字典中所有的 value &#xff0c;保存到一个列表中&#…

注册中心组成结构和基本原理解析

假如你正在设计和开发一个分布式服务系统&#xff0c;系统中存在一批能够独立运行的服务&#xff0c;而在部署上也采用了集群模式以防止出现单点故障。显然&#xff0c;对于一个完整的业务系统而言&#xff0c;这些服务之间需要相互调用并形成复杂的访问链路&#xff0c;一种可…

Casual decoder 和prefix decoder 区别

Causal Decoder&#xff08;因果解码器&#xff09;和Prefix Decoder&#xff08;前缀解码器&#xff09;是两种不同的语言模型架构&#xff0c;它们在处理文本生成任务时采用不同的注意力机制。 Causal Decoder是一种自回归模型&#xff0c;它在生成文本时只能依赖于已经生成…

mysql面试题 Day5

1 什么是事务&#xff1f; 事务是指 多个数据库操作组成一个逻辑执行单元&#xff0c;满足ACID四个条件。 A是指原子性&#xff0c;事务保证操作要么全部完成&#xff0c;要么全部不完成&#xff0c;不会出现部分完成的情况&#xff1b; C是指一致性&#xff0c;事务执行后&…

C++ 定时器触发

c定时器&#xff0c;能够定时触发&#xff0c;即每隔一段固定时间执行一下函数 #include <iostream> #include <thread> #include <chrono> #include <signal.h> #include <time.h> #include <cstring> #include <glog/logging.h>#…

SQL Server解决Float字段使用ISNULL时报错

SQL Server解决Float字段使用ISNULL时报错 一、前言1.报错内容2.解决案例 一、前言 1.报错内容 > [42000] [Microsoft][ODBC Driver 17 for SQL Server][SQL Server]从数据类型 varchar 转换为 float 时出错。 (8114)。这个错误通常是由于SQL Server在执行ISNULL函数时遇到…

防抖和节流使用场景

防抖&#xff08;Debounce&#xff09;和节流&#xff08;Throttle&#xff09;是两种常用的性能优化技术&#xff0c;用于限制某些高频率执行的函数的调用次数&#xff0c;从而优化性能和用户体验。它们的主要区别在于控制函数执行频率的策略不同。 防抖&#xff08;Debounce…

Mini-L-CTF-2022 minispringboot Thymeleaf模板注入 spel的绕过

Mini-L-CTF-2022 minispringboot Thymeleaf模板注入 spel的绕过 就是一个低版本的Thymeleaf注入 漏洞点 public class MainController {GetMapping({"/{language}"})public String test(PathVariable(name "language") String language, RequestParam(…

codesys多段直线电机跨电机控制

1. 电机描述 在X轴上有多段直线电机&#xff0c;如下图有9个&#xff0c;从X1到X9. 2.codesys程序结构 程序名称&#xff1a;Pou_two_motors 动作名称&#xff1a;ACT_move 把这个程序搞到任务配置里面 通过ethercat总线命名一下这些电机&#xff0c;方便调用。 3.程序内容 P…

油烟监测仪:守护厨房,让蓝天白云成为常态

夏日炎炎&#xff0c;白天的酷暑让人们更加向往夜晚的凉爽与惬意。在这样的季节里&#xff0c;品尝各式烧烤、小龙虾&#xff0c;再搭配一杯冰镇啤酒&#xff0c;成为了许多市民夜晚消遣的不二选择。然而&#xff0c;随之而来的餐饮油烟问题也进入了高发阶段&#xff0c;对周边…

智能锁赛博化,凯迪仕携全球顶尖科技亮相建博会!

7月8日&#xff0c;作为大家居建材行业全球规模第一大展&#xff0c;2024中国建博会&#xff08;广州&#xff09;在广交会展馆正式拉开序幕。据官方数据显示&#xff0c;本届展会展出规模展览总规模近40万平方米&#xff0c;建筑装饰领域各细分题材的一线品牌几乎全部参展。 其…

构建安全稳定的应用:SpringSecurity实用指南

以下是关于构建安全稳定的应用&#xff1a;Spring Security 实用指南的详细介绍&#xff1a; 一、Spring Security 概述 Spring Security 是一个功能强大且高度可定制的安全框架&#xff0c;旨在为 Java 应用程序提供全面的安全解决方案。它涵盖了认证&#xff08;Authenticati…

循环练习题

思路&#xff1a; 代码&#xff1a; public static void main(String[] args) {double sum0;for (int i1;i<100;i){if (i%2!0){sum1.0/i;}else {sum-1.0/i;}}System.out.println(sum);} 结果为&#xff1a;

Java 方法中的参数:灵活应用与技巧

Java 方法的参数是在方法定义中声明的变量&#xff0c;用于接收调用者传递的数据。参数可以是基本数据类型&#xff08;如整数、浮点数&#xff09;、对象引用或者特定类型&#xff08;如数组、枚举&#xff09;。方法可以根据参数的类型和数量来执行不同的逻辑&#xff0c;通过…