女性门户网站织梦模板深圳百度推广电话

web/2025/9/26 20:13:34/文章来源:
女性门户网站织梦模板,深圳百度推广电话,自助建设视频网站,微信应用开发平台设想一下#xff0c;你在家中准备起身#xff0c;前往橱柜取东西。一个集成 SIF3D 技术的智能家居系统#xff0c;已经预测出你 的行动路线#xff08;路线通畅#xff0c;避开桌椅障碍物#xff09;。当你接近橱柜时#xff0c;系统已经理解了你的意图#xff0c;柜门…设想一下你在家中准备起身前往橱柜取东西。一个集成 SIF3D 技术的智能家居系统已经预测出你 的行动路线路线通畅避开桌椅障碍物。当你接近橱柜时系统已经理解了你的意图柜门在你达到之前就已自动打开无需手动操作。 视频中左边为3D场景和预测结果红色人体表示真实序列蓝色人体表示预测结果中间为运动序列最有可能和场景发生交互的点云右边为每一个人体pose最有可能和场景发生交互的点云红交互可能性大蓝色交互可能性小 SIF3DSense-Informed Forcasting of 3D human motion即场景感知运动预测技术由小红书创作发布团队提出目前已被计算机视觉顶会 CVPR2024 收录。SIF3D 的先进之处在于其多模态感知能力。它结合人过去的动作序列、真实 3D 场景信息以及人的视线三个方面预测未来的人体运动。 这项技术特别擅长于理解和预测在复杂环境中的动作如避开障碍物这对于自动驾驶、机器人导航、游戏开发和虚拟现实等领域至关重要。比如使得汽车能够更准确地提前预测马路上的行人、车辆未来可能的运动趋势或是应用于医疗康复诊疗提前对病人可能发生的不安全运动行为进行预警等。 SIF3D 的工作原理是通过两种创新的注意力机制——三元意图感知注意力TIA和场景语义一致性感知注意力SCA——来识别场景中的显著点云并辅助运动轨迹和姿态的预测。TIA 专注于预测人的意图和全局动作轨迹而 SCA 则专注于局部场景细节确保每一帧的姿态预测都与环境保持连贯性。 实验结果表明SIF3D 在多个大规模场景感知运动预测的数据集上的卓越性能SOTA预测时长突破目前算法边界达到 5 秒时长。它能够有效地识别场景中那些可能与人的运动相关联、相耦合的部分显著性区域并通过场景中显著性区域的特征辅助运动预测。这一开创性的方法不仅推动了人体运动预测技术的发展也为未来在更多场景下应用场景感知人体运动提供了新的方向和可能性。 人体动作预测Human Motion Forecasting即根据观测到的人体运动序列预测其将来的动作这是机器智能MI、自动驾驶汽车AD和人机协作HRI等领域的关键技术。在现实生活中人类的动作是与周围环境紧密相连的比如我们会因为障碍物而改变行走路径。然而在现有的运动预测研究中场景信息却常常被忽略大大制约了技术在真实 3D 场景下的应用。 在机器人技术中场景信息通常被表达为 3D 点云。现有的场景感知运动预测的方法通常会将整个 3D 点云进行编码而后通过全局嵌入或索引、插值等手段将其作为条件引入至运动预测任务当中。尽管该方法可行但我们注意到并非点云中的所有信息都与运动预测任务同等相关相反往往只有小部分的场景点云会对我们当前序列的运动预测起到作用我们称其为显著点云salient point clouds。 此外人眼的凝视点与场景的交汇点也是一种能够体现人的运动意图的表现。我们期望通过联合分析 3D 场景和人眼凝视点可以捕捉人类向特定位置的运动行为从而更准确地预测其运动序列。 3D 场景左传统运动预测中与本文提出的场景感知预测右的对比 为了解决上述挑战我们提出了一种全新的多模态场景感知的运动预测方法 SIF3DMultimodal Sense-Informed Forecasting of 3D Human Motions。SIF3D 主要包含以下两个核心组件 ●三元意图感知注意力机制ternary intention-aware attentionTIA通过观测序列、场景点云、人眼凝视的三元多模态联合分析预测人的意图并区分全局显著点云global salient points用于辅助人体运动轨迹预测 ●场景语义一致性感知注意力机制semantic cohenrence-aware attentionSCA逐帧分析运动序列与场景语义的连贯性与一致性区别得到逐帧的局部显著点云local salient points用于辅助人体姿态预测 通过在新引入的大型数据集上的广泛实验SIF3D 在真实场景下的 3D 人体运动预测方面取得了最优越的性能证明了其捕获显著点云的准确性以及通过显著点云辅助运动预测的有效性。此外这些发现同样为将来基于真实场景的高保真运动预测、人机交互等领域的应用提供了新的视角和可能性。 SIF3D 算法流程图 如图所示SIF3D 主要涉及以下三个核心步骤 ●Encoding通过点云网络PointNet和 Transformer 分别提取 3D 场景的空间信息与运动序列的时间、空间信息并将其编码为高维隐藏特征 ●Crossmodal Attention通过提出的三元意图感知注意力机制TIA与场景语义一致性感知注意力机制SCA提取 3D 场景中的全局与局部显著点云并通过跨模态注意力机制分别辅助运动轨迹与姿态的预测 ●Decoding融合 TIA 与 SCA 预测的轨迹与姿态并使用真伪判别器进一步监督预测序列的保真度。 2.1 多模态编码Multimodal Encoding 由于 SIF3D 使用到了三种模态的信息运动序列、3D 场景点云、人眼凝视点在对它们进行联合分析之前我们首先需要将运动序列与 3D 场景点云编码并映射至同一空间而人眼凝视点则作为索引用于获取凝视点的 3D 场景特征。具体操作如下 a. 运动序列编码对于长度为 T T T 的观测运动序列 X 1 : T { x 1 , x 2 . . . . , x T } X_{1:T}\lbrace{x_1,x_2....,x_T}\rbrace X1:T​{x1​,x2​....,xT​} 我们希望能够预测将来 △ T \bigtriangleup T △T 长度的运动序列 Y 1 : △ T { y 1 , y 2 . . . . , y T } Y_{1:\bigtriangleup T}\lbrace{y_1,y_2....,y_T}\rbrace Y1:△T​{y1​,y2​....,yT​} 。在运动编码时我们直接编码整个长度为 T △ T T\bigtriangleup T T△T 的序列。我们首先将观测序列的最后一帧重复 △ T \bigtriangleup T △T 次并拼接到 X 1 : T X_{1:T} X1:T​ 后作为运动编码器的输入。最终它们将会被模型的预测结果所替换 b. 3D 场景编码对于场景点云 S S S我们利用点云网络 PointNet 对其进行编码得到每个点的场景特征 S ^ \hat{S} S^ 与全局的场景特征 S ^ g l o b a l \hat{S}_{global} S^global​ 2.2 三元意图感知注意力机制TIA 三元意图感知注意力机制ternary intention-aware attentionTIA通过分析观测序列与场景之间的关系同时基于“人们大多数时候总是会走向看着的地方“这一先验来分析这三种模态间的关联并通过以下步骤辅助路径规划 a. 运动特征编码与聚合短期内人的意图在运动序列中具有唯一性且不会随着运动的持续进行而发生变化因此我们首先对运动特征进行进一步编码并将整个序列的运动特征聚合为一个向量 b. 全局显著性点云识别将聚合得到的运动特征与场景特征进行跨模态注意力分析寻找出场景中那些响应当前观测序列的点云作为全局显著点云我们仅会利用全局显著点云用于提取跨模态意图特征并用于辅助轨迹预测 c. 人眼凝视点特征融合由于人们在运动过程中往往会习惯性地看向想去的地方因此人眼凝视点被定义为人眼视线发出的射线与 3D 场景的交点也是一种能够反映人的运动意图的重要信息。我们首先通过索引得到凝视点的场景特征将其用观测序列的最后一帧补全至长度为 T △ T T\bigtriangleup T T△T 后经由凝视编码器得到凝视点提供的特征进一步完善人体意图分析 d. 全局特征特征融合通过三元多模态感知我们试图从多个维度来分析人的运动意图最后我们通过标准的多层感知机MLP来融合这些全局特征作为 TIA 的输出 2.3 场景语义一致性感知注意力机制SCA 不同于 TIA 关注全局特征与人的运动意图场景语义一致性感知注意力机制SCA则更加关注每一帧的局部显著性场景细节用来更好地指导每一帧局部姿态的预测 a. 局部点云显著度我们首先对运动特征进一步编码得到每一帧的姿态特征并将它们分别与场景特征进行跨模态注意力分析来找到场景中响应每一帧运动姿态的局部显著性点云。 b. 空间显著度偏置由于 SCA 会更关注场景中的一些可能影响人体姿态的细粒度信息且正对着人的朝向且距离更近的场景点往往更可能会影响人体姿态我们基于每个场景点相对于每一帧中人体的距离与方向额外对于局部点云显著性引入了一项空间显著度偏置 s s p a t i a l s_{spatial} sspatial​ c. 局部特征特征融合结合了局部点云显著度与空间显著度偏置我们同样只利用局部显著性点云来辅助姿态预测 而后利用多层感知机MLP来融合局部特征作为 SCA 的输出 2.4 运动序列解码与生成 预测未来的运动序列需要同时考虑轨迹和姿势。TIA 通过识别全局显著点云分析了人的意图而 SCA 则识别局部点云以维持每一帧人体与环境的连贯性与一致性因此我们利用 TIA 的特征预测轨迹而用 SCA 的特征预测人体姿态 由于分别预测得到的轨迹与姿态可能存在不一致因此我们利用一个基于图网络GCN的解码器来融合它们并得到最终结果 其中 J ^ \hat{J} J^ 表示 SMPL 关节点的位置。同时我们还引入了一个真伪判别器来进一步提高预测序列的保真度。 3.1 实验设置 本文基于 GIMO 与 GTA-1M 两个近期发布的包含 3D 场景点云的人体运动数据集将 SIF3D 与包含经典方法、最新最优方法在内的 4 个方法进行了对比基于图网络的 LTD、SPGSN基于 Transformer 的 AuxFormer以及考虑了场景信息的 BiFu。 本文从轨迹与姿态两个维度对 SIF3D 与对比方法进行了评估轨迹评估计算了预测轨迹与真实轨迹之间的偏差姿态评估了则计算了每个关节点的位置与真实位置的平均偏差。 对于所有的指标我们都从所有的预测帧与最终的预测帧两个方面来评估包括 ●Traj-path衡量了整个预测序列中平均的轨迹偏差 ●Traj-dest衡量了最终预测帧的轨迹偏差 ●MPJPE-path衡量了整个预测序列中的平均姿态关节点偏差 ●MPJPE-dest衡量了最终预测帧的平均姿态关节点偏差。 3.2 实验结果 我们首先统计了引入不同多模态信息时3D 场景点云 Scene人眼凝视点 Gaze各个方法的预测性能表 1而后详细展开统计了不同场景以及不同时间点下各个方法的预测性能表 2 表 1考虑了不同模态时3D 场景点云 Scene人眼凝视点 Gaze各个方法的预测结果 表 2不同场景以及不同时间点下各个方法的详细预测性能 3.3 可视化对比结果 可视化结果提供了一种更为直观的方法将 SIF3D 与传统方法进行了对比。 通过识别场景中的全局与局部显著点云我们可以更高效地利用场景信息辅助运动预测得到更为精准与真实的预测序列。我们可以清楚地看到SIF3D 不但能更好地识别场景元素还能感知人的意图其预测结果不但更接近真实序列也具有更高的保真度。 3.4 消融实验 消融实验Ablation Study旨在评价 SIF3D 中不同组件的重要度以及对最终预测性能的影响即通过移除或修改某些部分来评估模型性能的变化。主要包括 a. 移除主要组件 包括 TIASCA运动解码器真伪判别器与场景编码器 PointNet。它们是构成 SIF3D 最主要的五个部件通过比较移除这些组件前后的预测误差可以评估它们在提高预测准确性方面的重要性如下表所示。可以看出本文提出的组件均不同程度地有主提高最终的预测效果尤其是意图注意力模组和场景编码模块。 b. 调整场景点云大小 原始的 LiDAR 传感器采样得到的场景点云可能包含 50 万以上的顶点数量为了更高效地利用点云数据我们对其进行了下采样。然而过度下采样可能影响点云对于场景的表征能力因此我们需要权衡下采样的点云大小如下表所示。本文实验采用了 4096 作为场景点云的大小。可以看到在点云数量为4096时算法在内存开销、推理速度、最终性能等方面取得了最佳平衡。 c. TIA 中的运动特征聚合方法 在 TIA 中我们将编码得到的运动特征聚合为一个向量用于计算与场景点云间的全局显著性这里我们研究了不同聚合方式对于性能的影响包括 Last采用最后一帧的运动特征Mean采用所有帧运动特征的均值Max采用帧间最大池化Conv利用三层卷积网络进行下采样Transformer引入单层 Transformer 解码器用于聚合。结果如下表所示。可以看出使用运动特征的最后一个时间维度的特征作为计算场景相关性的key-query取得了最佳的性能这也意味着 1最后一帧的运动特征可能包含了之前所有时间的上下文信息 2最后时刻的运动信息对于人类未来轨迹起到的作用最大。 在本研究中我们提出了一个开创性的多模态感知信息框架 SIF3D用于在真实世界的 3D 场景中进行人体运动预测。通过结合外部客观的 3D 场景点云和主观的人眼凝视点SIF3D 能够通过 TIA 与 SCA 注意力机制感知场景和理解人类意图的。在 GIMO 与 GTA-1M 两个数据集中SIF3D 均取得了目前最佳的预测性能。与此同时我们的发现强调了 3D 场景与人眼凝视点在场景感知的运动预测中的重要性。此外我们认为在现实世界的 3D 场景中深入研究高保真度的不同人体运动生成任务有望成为未来探索的一条引人注目的途径。 项目地址https://sites.google.com/view/cvpr2024sif3d 娄震宇 本科毕业于浙江大学目前为浙江大学博士生。发表多篇期刊和会议论文主要研究方向为人体运动预测3D 计算机视觉。崔琼杰 博士毕业于南京理工大学。在 CVPR、ICCV、ECCV、IJCAI、AAAI 等国际会议上发表多篇论文担任多个国际顶级计算机视觉人工智能会议的审稿人。目前主要研究方向为人体运动分析与合成。王浩帆 小红书创作发布组- AIGC 方向算法工程师硕士毕业于卡内基梅隆大学在 CVPR、ICCV、NeurIPS、3DV、AAAI、TPAMI 等国际会议和学术期刊上发表多篇论文。目前主要研究方向为图像、视频、3D生成。 创作发布团队-算法实习生 AIGC 方向 【岗位职责】 1.负责 AIGC 生成业务在小红书平台的落地和上线。 2.负责调研前沿技术参与创新性算法的研究以及开发工作如有较好成果可支持论文发表。 【任职要求】 1.熟悉目前 AIGC 常用技术链并有实际项目或论文经验如 LoRA、ControlNet 的训练了解近期图像、视频生成领域的最新进展。 2.具有良好的沟通、编程、合作能力。在知名赛事有获奖名次或在顶级会议上已发表过至少一篇论文的优先。 3.现场入职北京、上海均可实习至少三个月以上如有科研意向至少半年以上。 欢迎感兴趣的朋友发送简历至: REDtechxiaohongshu.com 并抄送至: wanghaofanxiaohongshu.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/81409.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

贵阳市网站优化新网站开发

perfetto是知名的Android系统性能分析平台。我们还可以用它去分析Linux系统和Chrome(需要装扩展)。本文我们只介绍如何安装的验证。 部署 我们使用Docker部署perfetto ui系统。 FROM ubuntu:20.04 WORKDIR /perfetto-ui RUN apt-get update -y RUN ap…

深圳网站制作公司讯想在网上做外卖 上什么网站好

在业务场景要求高的数据库中,对于单条删除和更新操作,在 delete 和 update 后面加 limit 1 绝对是个好习惯。比如,在删除执行中,第一条就命中了删除行,如果 SQL 中有 limit 1;这时就 return 了,…

合肥浦发建设集团网站宝塔没有域名直接做网站怎么弄

AlphaFold3 中 MmcifObject类 是 解析 mmCIF 文件的核心数据结构,用于存储解析后的蛋白质结构信息,包含PDB 头部信息、Biopython 解析的结构、链序列信息等。 下面代码包含 Monomer 、AtomSite、ResiduePosition、ResidueAtPosition、 MmcifObject以及ParsingResult数据类的…

网站下载视频方法网站建设全网营销客户资源

通过使用搜索引擎、扫描器、发送简单的HTTP请求或者专门精心制作的请求,都有可能导致应用程序泄漏诸如错误信息、版本信息以及所使用的技术等信息。 一、测试robots.txt文件 现在,我们首先介绍如何测试robots.txt文件。Web蜘蛛/机器人/爬虫可以用来检索网…

网站规划的主要内容wordpress视频教程 电驴

Glibc 中的 GKeyFile 库 GKeyFile 是一个用于存储和检索按键值对的文件格式,其中按键名称和值可以是任意字符串。在 GKeyFile 文件中,每个条目都由一行文本组成,其中键和值由等号()分隔。 以下是一个使用 g_key_file…

查建设工程规划许可证网站做网站一个月赚多少钱

给定一个字符串 S,返回 “反转后的” 字符串,其中不是字母的字符都保留在原地,而所有字母的位置发生反转。 示例 1: 输入:"ab-cd" 输出:"dc-ba"示例 2: 输入:&q…

青岛网架公司新乡网站关键字优化

12、虚函数的应用、虚析构函数 运行时类型信息(RTTI)动态类型转换(dynamic_cast)typeid操作符 虚 析构函数空虚析构函数 一个类中,除了构造函数和静态成员函数外,任何函数都可以被声明为虚函数 运行时类型信息(RTTI) 动态类型转换(dynamic_cast) 用于…

一键注册所有网站杭州职称评审系统网站

文章目录 前言一、什么是 min period?二、为什么检查 min period?三、如何设置 min period?四、如何检查 min period?五、如何修复 min period?总结 前言 我们在实际设计中可能会碰到这种情况,如果我们的m…

哪家网站设计公司好app软件开发的费用设计

由于I / O单元和模块的布放已经在布图规划时完成,因此布局的剩余任务主要是对标准单元的布局。布局方案在布图规划时就已经做了决定,要么选择展平式布局,要么就是层次化布局。 一、布局目标 布局的目标也即布局内容实施之后所要达到的预期值…

建站网站图片不显示专门网站建设

在Ubuntu中使用CSDN复制的代码时,可能会出现\u200的符号,这个符号会影响代码的编译和运行,因此需要找到一种快速删除这种符号的方法。 通过搜索找到了一种替换为空的删除方式,笔者编写了一个适用于Rust的shell脚本,需要…

手机 dns 国外网站鼓楼区建设局网站

ARM v8 Cortex R52内核 02 程序模型 Programmers Model 2.1 关于程序模型 Cortex-R52处理器实现了Armv8-R架构。这包括: 所有的异常级别,EL0-EL2。 每个异常级别下的AArch32执行状态。 T32和A32指令集,其中包括: 浮点运算。 …

win2003怎么做网站微小店网站建设官网

一、前言 开发提供数据的WebApi服务,最重要的是数据的安全性。那么对于我们来说,如何确保数据的安全将会是需要思考的问题。在ASP.NET WebService服务中可以通过SoapHead验证机制来实现,那么在ASP.NET WebApi中我们应该如何保证我们的接口安全…

搭建网站是什么静态网站开发基础

实验室开放项目实验报告 实验名称:实验一输入输出格式 实验目的:熟练掌握程序设计竞赛中通常采用的输入输出格式和掌握不同格式输入输出数据的处理方法 实验内容: 在本地电脑中新建一个文件夹,用于存放C源程序,文件…

一元购物网站建设江苏建设监理网站

实现方案 直接依赖 这种方式实现简单,但是耦合太严重,不方便维护与开发,当工程逐渐增大模块逐渐增多,依赖关系会非常复杂,不推荐这种方式。 事件或广播通信 EventBus: 我们非常熟悉的事件总线型的通信框…

商城网站制作深圳网站制作郑州软件开发学校

以下内容以本人遇到的真实问题为例,从找到加装固态硬盘后出现黑屏及蓝屏的原因,到成功解决问题,请各位看官听我娓娓道来,也希望为遇到同样问题的广大网友拨云见日,废话不多说,走起……一、问题描述:1. 背景…

淄博网站建设网站推广网络推广好的公司

题目 题目链接 题意 据说这道题要用一道叫做LCT的数据结构,然而我不会。。。 一排有n个弹簧装置,从第ii个可一往后跳k[i]" role="presentation" style="position: relative;">k[i]k[i]步。 修改:修改某个位…

南通网站外包wordpress文档案例

本文收录于专栏《Python等级认证CCF-GESP真题解析》,专栏总目录:点这里,订阅后可阅读专栏内所有文章。 一、单选题(每题 2 分,共 30 分) 第 1 题 小杨父母带他到某培训机构给他报名参加CCF组织的GESP认证考试的第1级,那他可以选择的认证语言有几种?( ) A. 1 B. 2 C…

长沙公众号开发合肥seo优化

name input("请输入你的名字:") age input("请输入你的年龄:") print("我的名字是:"name" 年龄是:"age) #print(name) #print(age) 这是在本地调试的结果。因为程序是在远程服务器上执…

学做窗帘要下载哪个网站做软件的公司网站有哪些

一、 数据查看让我们先来回顾一下表格的基本构成,最上面的为表头,横为行,纵为列,内容区每一组展示数据区域为单元格。 表格的设计,虽然看似简单,但是作为用户最常用的组件之一,我们需要对视觉和…

上传网站标志唐山市住房和城乡建设局官方网站

前言 最近在学习Python爬虫的知识,既然眼睛会了难免忍不住要实践一把。 不废话直接上主题 代码不复杂,简单的例子奉上: import requests from lxml import etreecookie 浏览器F12网络请求标头里有 user_agent 浏览器F12网络请求标头里有…