【三维生成】StarGen:基于视频扩散模型的可扩展的时空自回归场景生成

在这里插入图片描述


标题:《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》
项目:https://zju3dv.github.io/StarGen
来源:商汤科技、浙大CAD、Tetras.AI

文章目录

  • 摘要
  • 一、引言
  • 二、相关工作
    • 2.1 Reconstruction Models
    • 2.2 Generation Models
    • 2.3 Combining Reconstruction and Generation
  • 三、时空自回归(Spatiotemporal Autoregression)
  • 四、时空条件的视频生成(Spatiotemporal-Conditioned Video Generation)
  • 五、下游任务
  • 实验


摘要

  近年来,大型重建和生成模型的研究进展显著改善了场景重建和新的视图生成。然而,由于计算的限制,这些 大型模型的每个推理都局限在一个小的区域内,这使得长期一致的场景生成具有挑战性。为了解决, StarGen使用了一个预训练的视频扩散模型,以自回归的方式进行远程场景生成 每个视频clip 的条件是(空间上)相邻图像和先前生成的clip 的(时间上的)重叠图像的 3D warping,通过精确的姿态控制提高远程场景生成的时空一致性。时空条件与各种输入条件兼容,促进了各种任务,包括稀疏视点插值sparse view interpolation、永久视角生成 perpetual view generation和基于布局的城市生成 layout-conditioned city generation。
  

一、引言

  近年来,大型模型的快速发展推动了在三维重建和生成方面取得的重大进展,这两个领域日益相互交织和互补。在重建方面,大型重建模型[30,70,75]的出现成功地减少了对密集多视图捕获的依赖。与此同时,生成模型已经被用来解决在稀疏捕获的视图[40,61,71]中填充不可见区域的挑战。在生成方面,3D重建技术促进了将2D生成模型提升到3D生成任务,要么通过将2D分布提取为3D表示 [LucidDreamer,DreamFusion,ProlificDreamer] ,要么通过从2D生成的图像 [LucidDreamer Text2RoomText2NeRF] 重建3D表示。此外,大型重建模型也被用来增强生成的二维多视图图像[21,71,81]之间的一致性。

  这些大型重构和生成模型的一个主要限制是,在有限的计算资源下,在单一推理中只能处理有限数量的令牌(token)。因此,目前的方法通常局限于生成单个对象或短程场景,这使得支持远程场景生成具有挑战性。虽然有时间自回归方法将当前视频剪辑的第一帧设置在之前生成的剪辑的最后一帧上,以实现long range视频生成,但它们只在短时间[16,22]内保持时间一致性。随着时间的推移,误差会累积,空间一致性变得难以保持。例如,当在同一区域内来回移动时,每个pass 可能会在同一位置产生不一致的内容

  StarGen是一个long range 的场景生成的时空自动回归框架。如图1,关键思想是将每个视频clip的生成不仅在时间上相邻的图像上,而且在与当前窗口共享共同内容的空间上相邻的图像上。我们引入了一个大型的重建模型,该模型从空间条件化图像中提取三维信息,并将重建的潜在特征渲染到每个新的视图中,通过精确的姿态控制来指导生成。贡献总结如下:

  • StarGen,一种新的自回归框架,它结合了空间和时间条件,以支持long range场景生成和精确的姿态控制。

  • 我们提出了一种新的架构,补充了一个精心设计的大型重建模型预训练的视频扩散模型用于时空条件视频生成

  • 我们通过在框架内实现三个任务来演示StarGen的多功能性,包括稀疏视图插值、永久视图生成和布局条件下的城市生成。
      

在这里插入图片描述

二、相关工作

2.1 Reconstruction Models

2.2 Generation Models

2.3 Combining Reconstruction and Generation

在这里插入图片描述

  LangSplat提出了一种预测三维潜在空间中语义高斯的方法,可以通过轻量级生成的2D architecture 进行splat和decode。现有的可推广的三维重建方法要么不能扩展到大的场景和分辨率,要么局限于近距离输入视图的插值。LangSplat结合了基于回归和生成方法的优势,同时纯粹在现成的真实视频数据上进行训练,方法的核心是变分三维高斯,这是一种有效地编码由三维特征高斯组成的潜在空间内的变化不确定性的表示。从这些高斯分布中,特定的实例可以通过高效的喷溅和快速生成的解码器进行采样和渲染。

在这里插入图片描述
  Epipolar Transformer 是一种用于处理稀疏特征的技术,主要用于解决多视图几何中的特征匹配问题。它的核心思想是利用**极线约束(Epipolar Constraint)**来引导特征匹配和特征提取,从而在稀疏特征点(如关键点或角点)的场景中,利用极线约束优化特征的位置和描述符。

  该方法的核心是三维表示,将场景编码为一组语义三维高斯,通过附加的视图相关的特征向量描述场景外观。此外,通过存储球谐系数正态分布的参数µ和σ,而不是显式特征向量,分别对每个语义高斯分布的不确定性进行建模。总的来说,一个场景被表示为N个变分高斯的集合:

在这里插入图片描述

  采样语义高斯。我们区分了高斯表示的两种状态,变分高斯和语义高斯。后者可以通过对所有高斯数分布的重参数化技巧对显式球谐系数进行采样得到:

在这里插入图片描述

  

三、时空自回归(Spatiotemporal Autoregression)

  给定一个长的位姿轨迹,StarGen为每个位姿生成一个图像。与以往基于视频扩散模型 [Streetscapes,Vista] 的时间自回归方法相似,长轨迹生成通过短视频clip的重叠滑动窗口{ W k W_k Wk} k = 1 K ^K_{k=1} k=1K进行,如图1(a).中的虚线框所示。当前(新的)窗口 W k W_k Wk的生成,以前一个(已知)窗口 W k − 1 W_{k−1} Wk1的temporally overlapping image I k t e m p I^{temp}_k Iktemp 为条件,如蓝色实心框所示。为了处理时间上非相邻图像可能与当前窗口共享相同内容的情况,引入空间相邻图像以增强空间一致性。

  具体的,将生成的场景表示为一组稀疏采样的图像{ I i s p a t I^{spat}_i Iispat} i = 1 M ^M_{i=1} i=1M,每个图像与输入位姿 P i P_i Pi和生成的深度图 D i D_i Di配对。首先识别两个当前窗口具有最大公共区域的空间条件图像 ( I i 1 s p a t , I i 2 s p a t ) (I ^{spat}_{i1},I^{spat}_{i2}) Ii1spatIi2spat,如绿色梯形区域。这些时空条件图像 ( I i 1 s p a t , I i 2 s p a t , I k t e m p ) (I ^{spat}_{i1},I^{spat}_{i2},I^{temp}_k) Ii1spatIi2spatIktemp被输入一个时空条件视频生成模型,生成当前的视频clip,如图1(b)所示。最后,从当前clip中均匀采样两个图像,并添加到采样图像集中,窗口向前滑动,继续生成

在这里插入图片描述

四、时空条件的视频生成(Spatiotemporal-Conditioned Video Generation)

在这里插入图片描述

图2.时空条件下的视频生成。给定两幅带pose图像作为空间条件(左边的绿色框),重建模型对它们的深度图和特征图进行回归。两个特征图 F i 1 s p a t F^{spat}_{i1} Fi1spat F i 2 s p a t F^{ spat}_{i2} Fi2spat被渲染成新视图特征 F n o v F^{nov} Fnov,并暂时压缩到CogVideoX的潜在空间,得到 z s p a t z^{spat} zspat。同时,对时间条件图像(右边的蓝框)进行编码,以取代(也可以说成补充) z s p a t z^{spat} zspat 中相应的latent,得到时空条件 z s t − c o n d z^{st-cond} zstcond,通过ControlNe给CogVodoX的生成添加条件。

  

  3D重建模型,与预训练的视频扩散模型相结合,生成一个基于之前生成的内容的视频clip,如图2所示。鉴于空间条件 C s p a t = C^{spat}= Cspat={ I i s p a t , P i I^{spat}_i,P_i Iispat,Pi} i = i 1 , i 2 _{i=i1,i2} i=i1,i2,时间条件 C t e m p = C^{temp}= Ctemp={ I k t e m p I^{temp}_k Iktemp},文本提示 T T T,和新视角 P n o v P^{nov} Pnov = { P j P_j Pj} j = 1 N ^N_{j=1} j=1N,目标是为新视图 x = x= x={ x j x_j xj} j = 1 N ^N_{j=1} j=1N生成图像的条件分布建模:

在这里插入图片描述
其中θ表示模型参数,N表示每个视频clip中的图像数量。该公式使模型能够利用空间和时间条件来指导新视图生成。

   空间条件 。受LatentSplat[60]的启发, 1.【重建】首先利用一个大型重建模型(LRM)从两张空间条件图像 ( I i 1 s p a t , I i 2 s p a t ) (I ^{spat}_{i1},I^{spat}_{i2}) Ii1spatIi2spat中预测场景结构 。与现有的仅依赖颜色信息的方法不同,输入还包含了先验深度图和 Plucker坐标。完整的LRM输入是 { I i s p a t , D ^ i s p a t , P ^ i s p a t I^{spat}_i,\hat{D}^{spat}_i,\hat{P}^{spat}_i Iispat,D^ispat,P^ispat} i = i 1 , i 2 _{i=i1,i2} i=i1,i2,包括RGB图像 I ∈ R H × W × 3 I∈R^{H×W×3} IRH×W×3,Depth Anythinig V2预测的深度图 D ∈ R H × W × 1 D∈R^{H×W×1} DRH×W×1,以及来自输入位姿的Plucker坐标 P ∈ R H × W × 6 P∈R^{H×W×6} PRH×W×6

2.【回归】按照GS-LRM ,我们将LRM的输入stack, patchify, concatenate到一个token序列中,输入一个Transformer网络,回归对应于两个条件视图的 深度图{ D i s p a t D^{spat}_i Dispat} i = i 1 , i 2 _{i=i1,i2} i=i1,i2和 特征图{ F i s p a t F^{spat}_i Fispat} i = i 1 , i 2 _{i=i1,i2} i=i1,i2需要注意的是,与从单目深度预测中获得的无尺度 D ^ i s p a t \hat{D}^{spat}_i D^ispat不同,回归的 D i s p a t D^{spat}_i Dispat 被期望与输入pose进行尺度对齐 。所以我们可以将特征渲染给新的视图(给定新视图 P n o v = P^{nov}= Pnov= { P j P_j Pj} j = 1 N ^N_{j=1} j=1N),获得新的视图特征 F n o v = F^{nov}= Fnov= { F j F_j Fj} j = 1 N ^N_{j=1} j=1N和深度映射 D n o v = D^{nov}= Dnov= { D j D_j Dj} j = 1 N ^N_{j=1} j=1N

在这里插入图片描述

F n o v F^{nov} Fnov 中的不可见区域用零填充。这样,结构、外观、摄像机运动和可见性信息被编码在 F n o v F^{nov} Fnov中,为生成过程提供条件,以确保可见区域与空间条件图像一致,识别和填充不可见区域,并遵循输入的位姿轨迹。为了将条件对齐到SVD模型的潜在空间,设置每个特征映射的维度来匹配潜在维度:训练一个压缩网络,压缩 F n o v ∈ R N × h × w × c F^{nov}∈R^{N×h×w×c} FnovRN×h×w×c 的时间维度从N到n,生成 z s p a t ∈ R n × h × w × c z^{spat}∈R^{n×h×w×c} zspatRn×h×w×c。按照CogVideoX ,除了第一帧外,每四帧都被压缩成一帧,即 n = 1 + ( N − 1 ) / 4 n = 1+(N−1)/4 n=1+(N1)/4

   时空条件 。其他方法通过将backbone T2V模型微调为I2V模型来支持 时间condition,因此需要在不同的位置训练不同的backbone 进行condition。为了在不调整主干的情况下增强多功能性,我们直接替换了 z s p a t z^{spat} zspat中相应的latent frame。

具体地说,将时间条件图像 I k t e m p I^{temp}_k Iktemp(可以理解为当前已知的帧)输入预训练的VAE编码器,获得一个latent z k t e m p z^{temp}_k zktemp。为了条件化第一帧, z k s p a t z^{spat}_k zkspat中的第一个 latent frame被直接替换为 z k t e m p z^{temp}_k zktemp。对于其他帧的条件化,通过在第 k k k帧处插入三个重复的pose来修改新视图pose轨迹。这四个静态帧将在 z s p a t z^spat zspat中被压缩成一个 ,并被 z k t e m p z^{temp}_k zktemp取代。被替换的latent记为 z s t − c o n d z^{st-cond} zstcond,作为CogVideoX通过ControlNet生成与时空条件一致的视频的条件。

   训练损失

在这里插入图片描述

其中 λ d e p t h λ_{depth} λdepth = 0.05, λ l a t e n t λ_{latent} λlatent = 0.1和 λ d i f f u s i o n λ_{diffusion} λdiffusion = 1.0。第一项 λ d e p t h λ_{depth} λdepth监督渲染的深度图 D n o v D^{nov} Dnov 来训练LRM。使用无尺度损失:

在这里插入图片描述

S n o v S^{nov} Snov表示新视图的均匀采样子集。 ∣ S n o v ∣ = 3 |S^{nov}| = 3 Snov=3 为了提高实验效率。 π ( ⋅ ) π(·) π()将逆深度归一化为[0,1]; λ l a t e n t λ_{latent} λlatent用于监督 latent z s p a t z^{spat} zspat 来同时训练 LRM 和压缩网络; λ d i f f u s i o n λ_{diffusion} λdiffusion 是传统的扩散损失:

在这里插入图片描述
其中,E为预训练的VAE编码器,x为真实的新视图图像; ϵ θ ϵ_θ ϵθ为模型参数为θ的去噪网络, z t z_t zt为被已知噪声 ϵ ϵ ϵ corrupted 的 noisy latent, t t t 表示扩散时间步长。

五、下游任务

   稀疏视图插值 是稀疏视图重建的关键步骤,与我们密切相关的并行工作[40,71]证明了这一点。给定开始帧和结束帧,它将生成中间图像。在StarGen的框架下,我们基于两种输入图像之间的重叠来区分两种情况。在两幅输入图像有较大的重叠区域的情况下,它们同时作为空间和时间条件,输入时空条件视频生成模型,生成插值视频。对于起始帧和结束帧共享最小甚至没有共同区域的远程场景,我们提出了一种双通道方法。在第一个pass中,该过程与之前的方法相似,但相邻生成的图像之间的姿态差比第一种情况大,得到一组稀疏采样的图像。在第二pass中,来自第一通道的每一对相邻图像被视为视频clip的开始帧和结束帧。然后,使用所提出的时空自回归方法按顺序生成所有的片段

  永久视图生成是从单个图像生成一个场景的新视图的任务,同时允许位姿控制[39,71]。在StarGen的框架中,输入图像作为第一个生成的clip的空间和时间条件。剩下的片段然后使用所提出的时空自回归生成。与开始帧和结束帧都提供约束的稀疏视图插值任务相比,永久视图生成只对第一帧有约束。因此,它对错误积累更加敏感,并对生成模型的可伸缩性提出了更高的要求,使其成为StarGen能力的一个优秀演示。

  基于布局条件的城市生成是生成给定城市布局和观测位姿[16,62]的图像的任务。首先根据观察位姿,将城市布局渲染为深度和语义视频。然后分别为深度和语义图训练两个独立的ControlNet,类似于 [Pixart-δ: Fast and controllable image generation with latent consistency models] 。这两个ControlNet被组合起来生成第一个clip。剩下的片段然后使用所提出的时空自回归生成。时空条件可以有效地与深度和语义条件相结合,这要感谢ControlNet的结合能力和我们提出的框架的灵活性。

实验

  实验细节 StarGen由一个大型的重建模型(LRM)、一个普通压缩网络(CCN)和一个带有ControlNet的视频扩散模型(VDM)组成。LRM,使用ViT架构[17],它包括12层,隐藏大小为768,MLP大小为4096,和12个注意头,总计114M参数;CCN使用了一个Conv3d层,输入和输出通道都设置为16,内核大小为(3、3、3),步幅为(1、1、1),空洞为(1、1、1),padding为(0、0、0);VDM使用预训练的CogVideoX-2B-T2I [68],没有进行任何微调。ControlNet模型包含6层模型,是CogVideoX- 2B-T2I前6层的可训练副本。

   为了提高训练的效率,所提出的模型在分辨率为256×256的情况下进行了训练。训练过程包括: 1)预热 使用batchsize 384的连续帧从头开始训练LRM+CCN,从1K热身步骤开始,共持续40K步;2)间隔训练 使用1∼3帧间隔训练LRM+CCN,batchsize 为384,训练20k步;3)联合训练,也使用1∼3帧间隔,15K步为240步。对于布局条件的城市生成任务,我们另外训练了两个深度和语义控制网,使用128个超过20K步的批大小。我们还微调了我们的模型,在11K步中训练16的LRM+CCN,然后在另外11K步中分别训练80的ControlNet

  数据集 训练数据包括RealEstate-10K[79]、ACID [39]和DL3DV-10K [38]。我们过滤掉了较短的视频剪辑,最终得到了66,859个视频的数据集。对于具有布局条件的城市生成任务,我们另外使用了来自CityDreamer[62]的城市生成数据集,该数据集包括来自开放街道地图[2]的城市布局数据和来自Google Earth Studio [1]的渲染。该数据集包括400个轨迹,每个轨迹最初有60帧,我们将其插值到600帧

  


在这里插入图片描述

RealEstate-10K数据集上,稀疏视图插值的结果

  


在这里插入图片描述

在这里插入图片描述

  


在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71410.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【一个月备战蓝桥算法】递归与递推

字典序 在刷题和计算机科学领域,字典序(Lexicographical order)也称为词典序、字典顺序、字母序,是一种对序列元素进行排序的方式,它模仿了字典中单词的排序规则。下面从不同的数据类型来详细解释字典序: …

【Linux】【网络】UDP打洞-->不同子网下的客户端和服务器通信(成功版)

【Linux】【网络】UDP打洞–>不同子网下的客户端和服务器通信(成功版) 根据上个文章的分析 问题可能出现在代码逻辑上面 我这里重新查找资料怀疑: 1 NAT映射可能需要多次数据包的发送才能建立。 2 NAT映射保存时间太短&#xff…

SpaCy处理NLP的详细工作原理及工作原理框图

spaCy处理NLP的详细工作原理及工作原理框图 spaCy处理NLP的详细工作原理 spaCy是一个基于Python的开源自然语言处理(NLP)库,它提供了一系列高效且易用的工具,用于执行各种NLP任务,如文本预处理、文本解析、命名实体识…

C++ Primer 动态数组

欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…

【Qt】ffmpeg照片提取、视频播放▲

目录 一、图像的成像原理: RGB成像原理: YUV成像原理: 二、多线程 三、ffmpeg解码(照片提取) 1.准备工作 (1)在工程文件夹里面新建三个文件夹 (2)在main函数中加…

⭐算法OJ⭐跳跃游戏【BFS+滑动窗口】(C++实现)Jump Game 系列 III,VII

⭐算法OJ⭐跳跃游戏【贪心算法】(C实现)Jump Game 系列 I,II 这篇文章介绍 跳跃游戏 的第三题和第七题,两道题目有异曲同工之妙,都运用了BFS广度优先搜索算法实现,难度相比于前两题较高,而且不同于更常见的…

【QGIS二次开发】地图显示与交互-01

1. 系统界面设计 设计的系统界面如下,很好还原了QGIS、ArcGIS等软件的系统界面,充分利用了QT中顶部工具栏、菜单栏、底部状态栏,实现了图层管理器、鹰眼图、工具箱三个工具面板。 菜单栏、工具栏、工具箱集成了系统中实现的全部功能&#x…

Skynet入门(一)

概念 skynet 是一个为网络游戏服务器设计的轻量框架。但它本身并没有任何为网络游戏业务而特别设计的部分,所以尽可以把它用于其它领域。 设计初衷 如何充分利用它们并行运作数千个相互独立的业务。 模块设计建议 在 skynet 中,用服务 (service) 这…

threejs:用着色器给模型添加光带扫描效果

第一步:给模型添加光带 首先创建一个立方体,不进行任何缩放平移操作,也不要set position。 基础代码如下: 在顶点着色器代码里varying vec3 vPosition;vPosition position;获得threejs自动计算的顶点坐标插值(也就…

【时序预测】在线学习:算法选择(从线性模型到深度学习解析)

——如何为动态时序预测匹配最佳增量学习策略? 引言:在线学习的核心价值与挑战 在动态时序预测场景中(如实时交通预测、能源消耗监控),数据以流式(Streaming)形式持续生成,且潜在的…

Spring Boot如何利用Twilio Verify 发送验证码短信?

Twilio提供了一个名为 Twilio Verify 的服务,专门用于处理验证码的发送和验证。这是一个更为简化和安全的解决方案,适合需要用户身份验证的应用。 使用Twilio Verify服务的步骤 以下是如何在Spring Boot中集成Twilio Verify服务的步骤: 1.…

【Linux操作系统】VM17虚拟机安装Ubuntu22.04,图文详细记录

1.双击桌面的 VMware Workstation17 Player,点击“创建新虚拟机”,如下图所示。 2.选择“稍后安装操作系统”,点击“下一步”。如下图所示。 3.客户机操作系统选择“Linux”,版本选择“ Ubuntu 64位”,然后点击“下一…

软件工程---净室软件工程

净室软件工程是一种软件开发方法,旨在通过形式化的数据和严格的测试来提高软件的可靠性和减少缺陷的数量。它的核心思想是在软件开发过程中最小化或消除软件缺陷,从而提高软件的质量和可靠性。这种方法强调在软件生命周期的早期阶段使用形式化方法进行规…

迷你世界脚本区域接口:Area

区域接口:Area 彼得兔 更新时间: 2023-12-18 11:35:14 具体函数名及描述如下: 序号 函数名 函数描述 1 createAreaRect(...) 创建矩形区域 2 createAreaRectByRange(...) 创建矩形区域(通过范围) 3 destroyArea(...) 销毁区域 4 getAre…

C# 牵手DeepSeek:打造本地AI超能力

一、引言 在人工智能飞速发展的当下,大语言模型如 DeepSeek 正掀起新一轮的技术变革浪潮,为自然语言处理领域带来了诸多创新应用。随着数据隐私和安全意识的提升,以及对模型部署灵活性的追求,本地部署 DeepSeek 成为众多开发者和…

Linux--基础命令3

大家好,今天我们继续学习Linux的基础命令 mv命令 mv命令是move的缩写,可以用来移动文件或者将文件改名 move(rename) files,经常⽤来备份⽂件或者目录 语法: mv [ 选项 ] 源⽂件或目录 目标⽂件或目录 mv src[文件、目录] dst[路径、文…

【每日八股】计算机网络篇(三):IP

目录 DNS 查询服务器的基本流程DNS 采用 TCP 还是 UDP,为什么?默认使用 UDP 的原因需要使用 TCP 的场景?总结 DNS 劫持是什么?解决办法?浏览器输入一个 URL 到显示器显示的过程?URL 解析TCP 连接HTTP 请求页…

探究DeepSeek R1与OpenAI模型文本相似度背后的秘密

摘要 一项由Copyleaks进行的新研究显示,DeepSeek R1生成的文本在风格上与OpenAI模型的相似度高达74.2%。这一发现引发了对DeepSeek训练数据来源和独特性的质疑。Copyleaks作为专业检测文本抄袭和AI生成内容的平台,其研究结果具有重要参考价值。此相似度揭…

【实战 ES】实战 Elasticsearch:快速上手与深度实践-2.2.3案例:电商订单日志每秒10万条写入优化

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 Elasticsearch批量写入性能调优实战:2.2.3 案例:电商订单日志每秒10万条写入优化1. 原始架构与瓶颈分析1.1 初始集群配置1.2 性能瓶颈定位 2. 全链路…

统计Excel列中某值出现的次数

统计Excel列中某值出现的次数: 1、COUNTIF 函数用于计算满足特定条件的单元格数量。假设要统计 A 列中值为 “苹果” 出现的次数,在其他单元格中输入公式:COUNTIF(A:A,“苹果”)。其中,A:A表示要统计的范围是 A 列,&q…