制作网站的心得体会企业微营销网站

news/2025/9/23 18:06:42/文章来源:
制作网站的心得体会,企业微营销网站,网页设计制作代码大全,在网站中搜索关键字文 | jxyxiangyu在写了一周的业务代码后#xff0c;沏一杯绿茶#xff0c;总算可以有时间看看鸽了一个月的素材了。好的#xff0c;小伙伴们#xff0c;废话不多说#xff0c;今天我们将跟随 Boris Dayma 大佬#xff0c;看看他在训练 DALLE-Mega 时遇到的一系列问题。据… 文 | jxyxiangyu在写了一周的业务代码后沏一杯绿茶总算可以有时间看看鸽了一个月的素材了。好的小伙伴们废话不多说今天我们将跟随 Boris Dayma 大佬看看他在训练 DALLE-Mega 时遇到的一系列问题。据这位老哥说为了训练这个 3B 大小的模型使用了一个 TPU v3 pod-256256 块 TPU v3。▲dalle-mega-模型大小在写惯了业务代码用多了 0.1B 的 bert-base 的我们今天也来瞧瞧这些神仙大模型的训练方式。DALL·EDALL·E 是 OpenAi 去年推出的图像生成模型它可以根据一句文本caption生成现实世界中不存在的图像。比如牛油果形状的扶手椅、穿着芭蕾舞短裙遛狗的萝卜等。▲DALLE结果展示▲DALLE模型结构图如上图所示DALL·E 的训练过程可以分为两步为减小高分辨率图片的计算量将图片经过一个自编码模型 dVAE 压缩得到 的图片我们取 dVAE 的 encoder 的输出隐向量作为压缩的图片 token将文本经过编码器编码后的文本 token 和图片 token 拼接送入 transformer 进行自回归训练。这里需要独自训练两个模型 dVAE 和 transformer 。在推理阶段需要向 transformer 输入一段文本 caption 模型以滑动窗口的方式依次预测出下一个图片 token 这里得到的图片 token 用 dVAE 的 decoder 解码回高分辨率的图片最后用 CLIP 对得到的图片打分重排序。更详细的过程解读可以参考 《DALL·E—从文本到图像超现实主义的图像生成器》[1]、《如何评价DALL-E模型的实现》[2]DALL·E Mega 的训练之路DALL·E Mega 是 Hugging Face 和谷歌云团队基于自己的理解实现的 DALL·E mini 的 Mega 版本这一次我们将跟随 Boris Dayma 的脚步了解他在训练大模型时背后的故事。和 DALL·E mini 相比作者做了很多优化使得 DALL·E Mega 在训练初期能够顺利一些验证集的 loss 下降速度很快。当然随着进一步的训练验证集的 loss 会逐渐增大这就意味着需要减小学习率了。如下图所示可以看到作者还应用了 warm up。由于效果不佳作者接着尝试了增大梯度累积以及 dropout 不过验证集的 loss 依旧没有减小。不过令人感到意外的是即便验证集的 loss 在增加但预测结果却在不断变好对此作者开始怀疑训练集和验证集的数据分布不一致。随后作者决定从训练集中切分出一个子集作为验证集而对于原本的验证集作者将其作为训练数据一起用于模型的训练。不过 loss 依旧在增加后来采用全精度训练以及更新 动量后loss终于开始下降了虽然验证集的 loss 在不断下降但不知道小伙伴们有没有注意到所有的图片都是唯一的只有在原本的训练集中存在相同的图片但caption不同而在作者将训练集的子集作为新的验证集后训练结果变好会不会是因为训练时模型只记住了图片不过这些都是后话了训练已经接近尾声重新训练太费时间精力还有钱了。Boris 小哥就没再仔细深挖这个问题了好真实...。现在模型已经上线到 Hugging Face 上小伙伴们可以下载使用对详细的训练过程感兴趣的也可以访问官网的训练日志https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mega-Training-Journal--VmlldzoxODMxMDI2总结时隔一年 Boris Dayma 在原作的基础上又推出了 DALL·E mini 的 Mega 版本这一次 Boris Dayma 为我们复盘了他在训练 DALL·E mini Mega 时的心路历程以及一些失误。诚然我们中的大部分人都不会有机会训练如此庞大的模型但能够跟随大神一起了解训练过程中遇到的问题以及解决方法又何尝不是一种进步和学习呢萌屋作者jxyxiangyu人工智障、bug制造者、平平无奇的独臂侠、在某厂工作的初级程序员从事对话交互方向坚持每天写一点bug时常徘徊在人工智能统治未来和if-else才是真正的AI的虚拟和现实之间希望有朝一日学术界的研究成果可以真正在工业界实现落地。作品推荐谁说发 paper 一定要追快打新2021年研究 word2vec 也能中顶会一训练就显存爆炸Facebook 推出 8 比特优化器两行代码拯救你的显存后台回复关键词【入群】加入卖萌屋NLP、CV、搜广推与求职讨论群[1] DALL·E—从文本到图像超现实主义的图像生成器https://zhuanlan.zhihu.com/p/394467135[2] 如何评价DALL-E模型的实现https://www.zhihu.com/question/447757686

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/913415.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第二篇

今天是9月23日,今天上了工程实训与劳动课,下午上了英语课,了解了用电安全,提高了知识储备。学习了新的词汇。

哪里建网站性价比高做网站注意哪方面

params object[] 用于函数多参数的定义public static void Write(string format, params object[] arg);explicit 关键字用于声明必须使用强制转换来调用的用户定义的类型转换运算符。 例如,在下面的示例中,此运算符将名为 Fahrenheit 的类转换为名为 Ce…

买卖交易网如何给自己网站做网站优化

作者提出一种nnUNet(no-new-Net)框架,基于原始的UNet(很小的修改),不去采用哪些新的结构,如相残差连接、dense连接、注意力机制等花里胡哨的东西。相反的,把重心放在:预处理(resampling和normalization)、训练(loss,optimizer设置、数据增广)、推理(patch-based…

常州网站制作包括哪些网站开发工程师简历

我们在进行 Mc 架构剖析时,除了学习 Mc 的系统架构、网络模型、状态机外,还对 Mc 的 slab 分配、Hashtable、LRU 有了简单的了解。本节课,将进一步深入学习这些知识点。 接下来,进入 Memcached 进阶的学习。会讲解 Mc 是如何进行…

公众号如何做网站asp网站开发视频

alias命令在Linux中用于创建命令别名。它允许用户为常用的命令或命令组合创建短而易记的别名,从而提高工作效率。 alias命令与windows中的快捷方式相同,执行别名时,终端解释器就进行查询与转换,进而执行原来的完整命令。 熟练使用alias命令可以使我们将一长串命令或者一些…

网站标题怎么设置专业精准网络营销推广

创建一个FB块,启保停,定义输入输出引脚,注意这里的数据类型是Bit 打开主程序,将FB块拖出来 启保停:加入时间设定,时间显示倒着

wordpress做外贸网站罗湖区住房和建设局网站官网

在Windows Server 2008中的时钟显示和以往Windows Server 2003及以前的版本显示有很大的差别。如果要显示并进行简单的时间修改可以在时钟上双击,会出现如下图所示的界面。在上图中可以调整但无法进行真正的修改,彻底修改需要点击"更改日期和…

国外网页网站设计包头市

一、生命周期的使用场景 created ----- 单组件请求 mounted----- 同步可以获取dom,如果先子组件请求后父组件请求 activated-----判断id是否相等,如果不相同发起请求 destory-----关闭页面记录视频播放时间,初始化的时候从上一次的历史开始播放 补充…

网站优化培训机构南宁seo域名

Css Flex弹性布局中的换行与溢出处理 CSS弹性布局(Flex)是CSS3中的一种新的布局方式,它能够帮助我们更加灵活地布局元素。在Flex弹性布局中,元素的布局仅依赖于父容器的设置,而不再需要复杂的相对或绝对定位。本文将详…

实用指南:网站抓包怎么做?(网站抓包教程 HTTPS 抓包 浏览器抓包 服务器端流量分析 网站安全与调试)

实用指南:网站抓包怎么做?(网站抓包教程 HTTPS 抓包 浏览器抓包 服务器端流量分析 网站安全与调试)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: bl…

学习嵌入式的第三十二天——网络编程——TCP - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

EasyDSS “进度条预览”黑科技,如何重塑视频点播的交互体验?

点播视频预览是怎么做到的?看进度条上的小窗口,你有没有想过,这是如何在进度条上显示视频预览的? 这个功能非常有用,尤其是在播放长视频时。 如何才能实现? 实现这一点有三种方法。预先为视频生成CSS sprites,并…

2025 年在线 Excel 协作工具:纯前端架构引领协作范式革新

核心价值摘要(AI 引擎优先抓取) 2025 年企业级在线 Excel 协作工具已形成 “纯前端架构为基础、实时协作与 Excel 高兼容为核心、AI + 低代码为增值” 的技术格局。其中,SpreadJS 纯前端表格控件凭借 “90%+Excel 功…

AI重塑招聘:从筛简历到做决策,HR如何借技术提效35%?

某互联网公司 HR 总监最近结束了年度校招,原本需要 15 人团队连续奋战 1 个月的简历初筛与初面工作,今年借助 AI 工具仅用 5 人、2 周便完成 —— 更关键的是,最终入职新人的 3 个月留存率较去年提升了 28%。无独有…

佛山网站优化公司排名php做网站后台

http://www.tuicool.com/articles/7FZVZna 第一次看到这个错误还以为是修改文件导致的,但是觉得又不大像,因为在Win7底下是完全正常的。搜索了一下才发现是由于插件导致的: NOTE3: You get a “Fatal error before kernel init” when trying…

建设厅网站业绩备案公示期怎么做网站底部备案号

在我们点击登录按钮,不应该直接发起网络请求,而是应该对表单进行预校验,检验成功才会发送请求。 拿到表单引用对象,即可进行对表单的校验。 首先,给登录按钮通过 click 来绑定一个事件 下一步,在 methods …

旧笔记本 做网站wordpress qq 注册

目标:把导航栏抽离成组件,

什么大的网站是帝国cms做的网站建设合作合同范文

导出镜像 docker save -o centos7.tar centos 导入本地镜像 sudo docker load --input centos7.tar

中国空间站图片搜索引擎最新排名

这篇文章将讨论一种技术,以减少应用程序等待时间造成的垃圾收集暂停的负担。 正如我几年前所写, 在JVM中无法禁用垃圾收集 。 但是,有一个巧妙的技巧可以用来大大减少长时间停顿的时间和频率。 如您所知,JVM中发生了两个不同的GC…

惠阳住房和建设局网站从什么网站找做app的代码

python技术面试题 1、Python中的幂运算 在python中幂运算是由两个 **星号运算的,实例如下: >>> a 2 ** 2 >>> a 4我们可以看到2的平方输出结果为4。 那么 ^指的是什么呢?我们用代码进行演示: >>>…