寺庙网站开发文案wordpress免费主题插件下载

news/2025/10/4 19:50:48/文章来源:
寺庙网站开发文案,wordpress免费主题插件下载,如何将域名和网站绑定域名,pedl中文模组网站前文#xff1a;最近跟着DataWhale组队学习这一期“Sora原理与技术实战”#xff0c;本篇博客主要是基于DataWhale成员、厦门大学平潭研究院杨知铮研究员分享的Sora技术原理详解课件内容以及参考网上一些博客资料整理而来#xff08;详见文末参考文献#xff09;#xff0…前文最近跟着DataWhale组队学习这一期“Sora原理与技术实战”本篇博客主要是基于DataWhale成员、厦门大学平潭研究院杨知铮研究员分享的Sora技术原理详解课件内容以及参考网上一些博客资料整理而来详见文末参考文献算是对Sora技术路径的发展有个系统性的认识。 Sora是什么 Sora是大火的人工智能公司OpenAI推出的新一代文生视频AI模型其官网为https://openai.com/sora。Sora的亮点在于最长支持60s高清视频生成、确保连续画面中人和场景的一致性、根据视频生成视频时具有丝滑视频过渡能力、同一场景多视角/镜头生成能力、支持任意分辨率、宽高比的视频生成因此秒杀Pika、Runway等同行在2024年2月份也火爆出拳OpenAI的技术报告称其为“作为世界模拟器的视频生成模型”源地址Video generation models as world simulators。然而Sora也有许多局限特别是对物理规律的理解仍然比较有限例如生成一个玻璃杯摔碎的场景时并未很好表现碎片四溢的物理过程。 Sora的能力可以总结为文生视频、图生视频和视频生成视频。Sora是通过不同长度、分辨率和长宽比的视频和图像数据共同训练出的一种“文本条件扩散模型”其中Sora只是模型名统称底层包含Diffusion model、Transformer等SOTA模型架构。 Sora模型训练 Sora模型架构 Sora整合了自家的GPT和DALL-E模型其中GPT-4就是基于Transformer架构的大型神经网络目前在自然语言处理领域独树一帜而最新的DALL-E 3是基于文本提示生成图像的图像生成模型。Sora使用了DALL-E 3中的重新标注技术准备了大量带有文本标题的视频数据通过训练一个高度描述性的标题模型为所有视频生成文本标题来提高文本准确性改善了视频质量。同时Sora利用GPT将用户简短的提示转化为更长、更详细的标题指导视频的生成过程从而使Sora能够生成高质量的视频并准确地遵循用户的指示。如下为一张Sora模型训练流程示意图 由于Sora未完全开放目前魔塔社区所推测的Sora模型架构与Latent Diffusion Model很像如下原始数据输入经过视频压缩网络后变成时间和空间上都被压缩的潜在表示随后在时空潜空间上基于conditioning训练中的video caption技术所生成视频-文本对的指导通过Diffusion TransformerDiT生成新的视频潜在表示最后经过解码器映射回像素空间。 Sora模型训练一些要点 类似于大语言模型LLM中的基本训练单位为文本token图像模型的基本训练单位图像patch通过visual encoder将高维度的视频数据NxHxW帧图像切分为图像块spatial temporal patch从而将视频压缩到一个低维度的spacetime latent space图像patch包含时间序列信息和空间像素信息基于patch的表示有助于模型处理图像局部信息并能训练具有不同分辨率、持续时间和长宽比的视频和图像图像patch将展开为一维向量并通过einops张量操作库进行操作从而有效处理图像数据 扩散模型之DDPM Sora采用了Diffusion模型中的DDPM (Denoising Diffusion Probabilistic Models作为图像生成模型。相比GAN来说Diffusion模型训练更稳定而且能够生成更多样本OpenAI的论文《Diffusion Models Beat GANs on Image Synthesis》也证明了Diffusion 模型能够超越GAN。一些主流的文生图像模型如DALL-E 2, stable diffusion以及Imagen都纷纷采用了Diffusion模型用于图像生成。 一般来说Diffusion模型包含两个过程均为一个参数化的马尔科夫链 (Markov chain) 前向扩散过程 (diffusion)对一张图像逐渐添加高斯噪音直至变成随机噪音的过程数据噪声化反向生成过程 (reverse diffusion)从随机噪音开始逐渐去噪直至生成一张图像这也是需要求解/训练的部分去噪生成数据 Diffusion模型与其它主流生成模型的对比如下所示 目前所采用的Diffusion模型大都是基于2020年的工作《DDPM: Denoising Diffusion Probabilistic Models》。DDPM对之前的扩散模型进行了简化和改进更加注重对噪声的预测而非直接生成图像并通过变分推断variational inference来进行建模这主要是因为扩散模型也是一个隐变量模型latent variable model相比VAE这样的隐变量模型扩散模型的隐变量是和原始数据是同维度的而且扩散过程往往是固定的。 DDPM的优化目标是让网络预测的噪音和真实的噪音一致其训练过程如下图所示 Training阶段随机选择一个训练样本 x 0 x_0 x0​ - 从 1 − T 1-T 1−T随机抽样一个 t t t - 随机产生噪音并计算当前所产生的带噪音数据 - 输入网络预测噪音红色框所示 - 计算产生的噪音和预测的噪音的L2损失 - 计算梯度并更新网络。Sampling阶段从一个随机噪音开始并用训练好的网络预测噪音然后计算条件分布的均值红色框所示然后用均值加标准差乘以一个随机噪音直至 t 0 t0 t0完成新样本的生成最后一步不加噪音。 PS实际的Sampling代码实现和上述过程略有区别而是先基于预测的噪音生成并进行了clip处理范围[-1, 1]原始数据归一化到这个范围然后再计算均值这应该算是一种约束既然模型预测的是噪音那么我们也希望用预测噪音重构处理的原始数据也应该满足范围要求 扩散模型的核心在于训练噪声预测模型由于噪声和数据同维度可以选择采用AutorEncoder架构作为噪声预测模型。DDPM所采用的是一个基于residual模块和self-attention模块的U-Net模型encoder-decoder架构。注意DDPM在各个residual模块中都引入了time embedding类似于transformer中的position embedding。 DDPM基于加噪和去噪的图像生成过程可以用一张图形象概括 Sora关键技术拆解 Sora可以拆分为Visual encoder, Diffusion Transformer和Transformer Decoder三个部分下面对其分别阐述 Visual encoder 输入的视频数据可以看成是NxHxW的若干帧图像 通过Encoder被切分成spatial temporal patch这些patch最终会被flatten成一维向量送入diffusion model。其中这里的patch的定义借鉴了Vision Transformer (ViT中的patch一些要点如下 由于这里的每个样本都是来自输入图像的一个patch模型对样本在序列中的位置一无所知。因此图像被连同positional embedding vector一起提供到encoder中。这里需要注意的一点是位置嵌入也是可学习的所以实际上不需要将硬编码的向量 w.r.t 位置。将一维压平的patches组成一个大矢量并得到乘以一个embedding矩阵这也是可学习的创建embedding patches。将这些与位置向量相结合输入到transformer中。 对视频进行采样/处理的方法包括 摊大饼法帧图像拼接成大图切成token此后按ViT方式处理切块法对多帧图像切为若干个tuplet每个tuplet包含时间、宽、高信息经过spatial-tempral attention直接建模获得有效的视频表征token Diffusion Transformer Sora的主要是Peebles William直博3年半期间3篇一作论文非常solid他于2023年在ICCV上发表了Diffusion Transformer (DiT) 的工作可以认为DiT VAE encoder ViT DDPM VAE decoder但把DPPM中的卷积U-Net架构换成了transformer。这篇工作是通过结合diffusion model和transformer从而达到可以scale up model来提升图像生成质量的效果。DiT文章在technical report的reference中给出由于把图像的scaling技术运用到视频场景也非常直观因此可以确定是Sora的技术之一。 下图展示了DiT的主要原理输入是一张256x256x3的图片对图片做切patch后经过投影得到每个patch的token得到32x32x4的latent在推理时输入直接是32x32x4的噪声)结合当前的step t 输入label y作为输入 经过N个DiT Block通过mlp进行输出得到输出的噪声以及对应的协方差矩阵经过T个step采样得到32x32x4的降噪后的latent。 思考与总结 截止到2024年3月2日Sora还未完全开放使用只有内测现有的中文互联网中所谓“带你玩转Sora”的AI付费课程都是纯纯割韭菜Sora文生视频模型可谓是之前许多模型的集大成者虽然没有公开太多技术细节但我们可以学习到Sora背后所涉及的一系列模型架构和训练方法如Transformor, Diffusion模型等要训练一个多模态大模型LMM海量训练数据 优秀模型架构 算力资源都缺一不可其中算力限制对中国公司发展人工智能提出了挑战作为一家违背“不盈利造福人类”初衷的微软旗下闭源商业公司dogeOpenAI是不会透露过多许多技术细节的包括如何构建Sora的具体模型、Transformer需要scale up到多大、从头训练到收敛的trick、如何实现训练长达1分钟视频的支持切断性能优化、如何保证视频实体的高质量和一致性这些我们都还不完全清楚需要大量工程实践去摸索。 参考文献 [1] DataWhale开源课程《Sora原理与技术实战》 [2] DataWhale成员优秀笔记分享sora笔记一sora前世今生与技术梗概 [3] 怎么理解今年 CV 比较火的扩散模型DDPM - 小小将的回答 - 知乎 https://www.zhihu.com/question/545764550/answer/2670611518 [4] Ho, J., et al. (2020). “Denoising diffusion probabilistic models.” Advances in Neural Information Processing Systems 33: 6840-6851. [5] Peebles, W. and S. Xie (2023). Scalable diffusion models with transformers. Proceedings of the IEEE/CVF International Conference on Computer Vision.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/927486.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[WC2018] 即时战略

[WC2018] 即时战略分享一下全局平衡二叉树的做法。 先讲下部分分。 \(n\le 100,T\le 10000\) 从 \(1\) 开始 DFS,对于当前 \(u\),枚举点 \(v\),如果 \(\text{explore}(u,v)\) 不为 \(fa_u\),则 \(v\) 为 \(u\) 子结…

商城网站源码大全微网站建站

怎么解决java导出excel时文件名乱码发布时间:2020-06-19 16:59:00来源:亿速云阅读:137作者:元一java解决导出Excel时文件名乱码的方法示例:String agent request.getHeader("USER-AGENT").toLowerCase();re…

实用指南:Unity学习之C#的反射机制

实用指南:Unity学习之C#的反射机制pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco…

电子政务网站建设参考文献wdcp 网站打不开

一金融机构在近期发生了一起数据泄露事件。 经过调查,发现是由于一名员工将包含客户敏感信息的文件通过电子邮件发送给了未经授权的第三方。 这一事件导致客户数据泄露,给该机构带来了严重的声誉损失和信任危机。 这一案例凸显了数据防泄漏系统的重要性…

网站开发 数据库深圳制作网站

1、背景介绍 重装win10系统,重装Python。在坑出现之前,已经完成了Python的安装(D盘),并且在系统中添加了环境变量。由于平时需要用到Python2.7和Python3.6,这里将对应的解释器分别改名为Python2和Python3。…

HDF5文件 ——之三

H5G、H5L、H5O 是 HDF5 C API 的分组接口,在 HDF.PInvoke.NETStandard(C# 的 HDF5 封装包)里,它们分别代表 HDF5 底层 对象层(Object layer)、组层(Group layer) 和 链接层(Link layer) 的操作模块。🧱 一…

MySQL库的操作(ubuntu) - 教程

MySQL库的操作(ubuntu) - 教程2025-10-04 19:34 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !importan…

创业做社交网站有哪些做一个网站 多少钱

1)熟悉之前的SysUser登录流程 过滤器链验证配置 这里security过滤器链增加了前置过滤器链jwtFilter 该过滤器为我们自定义的,每次请求都会经过jwt验证 ok我们按ctrl alt B跳转过去来看下 首先会获取登录用户LoginUser 内部通过header键,获…

代码随想录算法训练营|Day 25

Day 25 第七章 回溯算法 part04 491.递增子序列 本题和大家刚做过的 90.子集II 非常像,但又很不一样,很容易掉坑里。 https://programmercarl.com/0491.递增子序列.html 视频讲解:https://www.bilibili.com/video/B…

深入解析:SAE J3072-2024插电式电动汽车(PEV)中的车载逆变器系统安全标准介绍

深入解析:SAE J3072-2024插电式电动汽车(PEV)中的车载逆变器系统安全标准介绍pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-…

冷僻模板整理

min25筛 可以低于线性的解决1到N中的质数的k次幂的求和的问题,并且在处理了N之后对于1到N中数论分块所需的点x(l,r)都可以通过val=g[ID(x)]以O(1)的代价获取到 如果不需要多次查询,建议把命名空间外的定义放到m…

参考文献网站开发电商网站平台有哪些功能

1、Lambda表达式 Lambda表达式是Java8的新特性。 组成Lambda表达式的三个要素:形式参数,箭头操作符,代码块 Lambda表达式的格式:(形式参数) -> {代码块} //如:(int a, int b) -> {return a b;}形式参数&…

深入解析:精读C++20设计模式——行为型设计模式:命令模式

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Apache Beam入门教程:统一批流处理模型 - 教程

Apache Beam入门教程:统一批流处理模型 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…

详细介绍:关于[汉芝电子低调获取证书,及生产各类加密产品]这档事

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

中国建设银行网站首页joy怎样添加字体到wordpress

目录 ★ 工作队列介绍代码演示测试注意点1:注意点2: ★ 工作队列介绍 工作队列: 就是让多个消费者竞争消费同一个消息队列的消息,相当于多个消费者共享消息队列。 ▲ RabbitMQ可以让多个消费者竞争消费同一个消息队列 ▲ 消息队…

华梦服饰网站建设中wordpress临时关闭站点

(四)无人机技术 1.无人作战飞机1.1 美国空军披露可与下一代战斗机编组作战的协同式无人作战飞机项目1.2 俄罗斯无人作战飞机取得重要进展 2.支援保障无人机2.1 欧洲无人机项目通过首个里程碑2.2 美国海军继续开展MQ-25无人加油机测试工作 3.微小型无人机…

花卉物流园做网站的素材phpcms做网站建栏目

1.关注点分离:每个功能最少会被切分为M-V-C三个部分,让开发者一次只需要关注一个部分,进而降低复杂难度,提高开发效率2.分层负责:明确切割,M-V-C三个部分并行开发3.自由操控HTML:在ASP.Net MVC中…

网站建设技术难题物流推广做哪个网站

在3dMax中如何把三维物体转化为由样条线构成的对象?通常这样的场景会出现在科研绘图或一些艺术创作当中,下面给大家详细讲解一种3dmax三维物体转样条线的方法。 第一部分:用粒子填充3D对象: 1.创建一个三维对象(本例…

自适应h5网站模板wordpress wordcloud

返回:OpenCV系列文章目录(持续更新中......) 上一篇利用OpenCV4.9制作自己的线性滤波器! 下一篇 :OpenCV系列文章目录(持续更新中......) 目标 在本教程中,您将学习如何: 使用 OpenCV 函数 …