阿里万相,正式开源

大家好,我是小悟。

阿里万相正式开源啦。这就像是AI界突然开启了一扇通往宝藏的大门,而且还是免费向所有人敞开的那种。

你想想看,在这个科技飞速发展的时代,AI就像是拥有神奇魔法的魔法师,不断地给我们带来各种意想不到的惊喜。而阿里万相,就是这个魔法师团队里的新星。

2 月 25 日晚间,阿里云旗下的视觉生成基座模型万相2.1(Wan)正式开源啦。这消息一出来,就像是在平静的湖面上投下了一颗重磅炸弹,瞬间在科技界引起了轩然大波。

图片

阿里万相这次开源,可是诚意满满。它采用了最宽松的Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源。

这就好比是一个慷慨的美食家,把自己精心准备的美味佳肴毫无保留地端了出来,大家可以尽情品尝。

它还支持文生视频和图生视频任务哦。你没听错,只要你有想法,无论是写一段生动的文字描述,还是上传一张创意满满的图片,万相都能像变魔术一样,为你生成炫酷的视频。

说到这,你可能会问,这个万相到底有多厉害呢?那可真是不容小觑。14B万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面那表现,简直可以用“惊艳”来形容。

图片

在权威评测集VBench中,万相2.1以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。这就好比是在一场激烈的赛跑比赛中,它像一阵风一样,把其他选手远远地甩在了后面。

而1.3B版本也毫不逊色,它的测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型。这就好比是一个小个子选手,凭借着自己的实力,和那些身材高大的选手一较高下,还取得了不俗的成绩。

更让人惊喜的是,这个1.3B版本能在消费级显卡运行,仅需8.2GB显存就可以生成高质量视频。这对于很多人来说,简直是一个福音。

以后,无论你是专业的AI开发者,还是业余的编程爱好者,甚至是只是对视频生成好奇的小伙伴,都可以用自己电脑里的显卡,体验一下万相的神奇魔力。

图片

阿里万相之所以这么厉害,是因为它的团队在算法设计上可是下了大功夫的。它基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等一系列黑科技。

就拿3D VAE来说吧,为了实现高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制。

这就好比是在一条繁忙的公路上,增加了一个高效的调度中心,让车辆的通行变得更加顺畅,从而代替了直接对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。

而且通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用。这就像是一个精明的管家,把资源管理得井井有条,让一切都有条不紊地运行。

万相团队的实验结果也充分证明了它的实力。在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中,万相均达到了业界领先表现,并且斩获5项第一。

图片

这就好比是在一场选美比赛中,它凭借自己的才华和魅力,赢得了评委们的一致认可。特别是在复杂运动和物理规律遵循上的表现上大幅提升。

它能稳定展现各种复杂的人物肢体运动,像旋转、跳跃、转身、翻滚等动作,都能做得栩栩如生。还能精准还原碰撞、反弹、切割等复杂真实物理场景,仿佛给虚拟世界装上了真实的物理引擎。

阿里从2023年开始,就坚定地走上了大模型开源路线。就像是一个有远见的探险家,发现了一条充满希望的道路,然后毫不犹豫地带着大家一起前行。

自2023年8月起,阿里云相继开源了Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括了0.5B、1.5B、3B、7B、14B、32B、72B、110B等全尺寸,大语言、多模态、数学和代码等全模态,多次登上国内外权威榜单,已成为全球开源社区最重要的模型系列。

图片

阿里云千问(Qwen)衍生模型数量已超过10万个,是全球最大的AI模型家族。这一次万相的正式开源,无疑是给这个庞大的AI模型家族注入了新的活力。

从应用角度看,万相模型可以说是“百变精灵”。它可生成影视级高清视频,能应用于影视创作、动画设计、广告设计等领域。

想象一下,你的创意和万相的强大功能相结合,说不定能创造出令人惊叹的作品。就像电影导演们有了一个神奇的助手,能够更加轻松地实现他们的奇思妙想。动画设计师们也能借助万相的力量,让他们的角色和场景更加生动逼真。

随着万相的开源,阿里云也实现了全模态、全尺寸大模型的开源。这就好比是一个商业帝国已经建立了一个全方位的武器库,里面各种强大的武器应有尽有,等待着大家去发掘和利用。

全球的开发者们都可以在Github、HuggingFace和魔搭社区下载体验这个强大的工具,发挥自己的创造力。

对于广大开发者来说,阿里万相正式开源是一个绝佳的机会。你可以参与到这个充满创新和挑战的领域中来,用自己的智慧和代码,探索AI的无限可能。

图片

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/71275.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法之数据结构

目录 数据结构 数据结构与算法面试题 数据结构 《倚天村 • 图解数据结构》 | 小傅哥 bugstack 虫洞栈 ♥数据结构基础知识体系详解♥ | Java 全栈知识体系 线性数据结构 | JavaGuide 数据结构与算法面试题 数据结构与算法面试题 | 小林coding

零基础学习之——深度学习算法介绍01

第一节.基础骨干网络 物体分类是计算机视觉(computer vision,CV)中最经典的、也是目前研究得最为透彻的一 个领域,该领域的开创者也是深度学习领域的“名人”级别的人物,例如 Geoffrey Hinton、Yoshua Bengio 等。物…

弧度与角度之间的转换公式

Radian 弧度的英语 简称 Rad Degree 角度的英语 简称 Deg 角度转弧度 RadDeg*180/π CogMuisc.DegToRad(double degress) DegRad/180*π CogMuisc.RadToDeg(double radians) 总结: 角度大 弧度小 弧度转角度 肯定要乘以一个大于1的数 那就是…

css之英文换行样式

在 CSS 中,要实现英文文本自动换行但不从单词中间断开的效果,可以使用 word-wrap 或 overflow-wrap 属性。以下是相关的 CSS 属性和它们的配置: 使用 overflow-wrap 或 word-wrap /* This property is used to handle word breaking */ .wo…

40岁开始学Java:Java中单例模式(Singleton Pattern),适用场景有哪些?

在Java中,单例模式(Singleton Pattern)用于确保一个类只有一个实例,并提供全局访问点。以下是详细的实现方式、适用场景及注意事项: 一、单例模式的实现方式 1. 饿汉式(Eager Initialization) …

【前端基础】3、HTML的常用元素(h、p、img、a、iframe、div、span)、不常用元素(strong、i、code、br)

HTML结构 一个HTML包含以下部分&#xff1a; 文档类型声明html元素 head元素body元素 例&#xff08;CSDN&#xff09;&#xff1a; 一、文档类型声明 HTML最一方的文档称为&#xff1a;文档类型声明&#xff0c;用于声明文档类型。即&#xff1a;<!DOCTYPE html>…

文本挖掘+情感分析+主题建模+K-Meas聚类+词频统计+词云(景区游客评论情感分析)

本文通过情感分析技术对景区游客评论进行深入挖掘,结合数据预处理、情感分类和文本挖掘,分析游客评价与情感倾向。利用朴素贝叶斯和SVM等模型进行情感预测,探讨满意度与情感的关系。通过KMeans聚类和LDA主题分析,提取游客关心的话题,提供优化建议,为未来研究提供方向。 …

【实战 ES】实战 Elasticsearch:快速上手与深度实践-2.2.2线程池配置与写入限流

&#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 文章大纲 Elasticsearch批量写入性能调优&#xff1a;2.2.2 线程池配置与写入限流深度实践1. 线程池核心机制解析1.1 Elasticsearch线程池架构1.2 Bulk线程池工作模型 2. 写入场景线程…

VSCode 与 Vim 插件 的 复制粘贴等快捷键冲突,优先使用 VSCode 的快捷键

VSCode 与 Vim 插件 的 复制粘贴等快捷键冲突&#xff0c;优先使用 VSCode 的快捷键 在 VSCode 中&#xff0c;如果你发现 Vim 插件&#xff08;如 VSCodeVim 扩展&#xff09;与 VSCode 的默认复制粘贴快捷键&#xff08;CtrlC / CtrlV&#xff09;冲突&#xff0c;并且你想优…

tsconfig.json 配置清单

tsconfig.json 配置清单 基础结构 {"compilerOptions": {// 编译选项},"include": [// 指定需要编译的文件或目录],"exclude": [// 指定不需要编译的文件或目录],"extends": "./base-tsconfig.json","files": […

springboot可以同时处理多少个请求

源码 ServerProperties Tomcat 配置 参数解析 必须要先建立连接&#xff0c;再用线程处理。 比如max-connection最大连接数&#xff0c;accept-count相当于队列容量。总连接数二者和 min-spare-treads 核心线程数默认10&#xff0c;max-threads最大线程数默认200。 正常…

Spring 三级缓存 vs 二级缓存:深度解析循环依赖的终极解决方案

目录 一. 循环依赖的本质矛盾 1. 什么是循环依赖&#xff1f; 2. 矛盾的核心 二. 三级缓存架构解析 三级缓存工作流程图​编辑 三、为什么必须三级缓存&#xff1f; 1. 二级缓存的致命缺陷 2. 三级缓存的精妙设计 四、场景推演&#xff1a;三级缓存如何解决代理问题 …

视频流畅播放相关因素

视频播放的流畅度是一个综合性问题&#xff0c;涉及从视频文件本身到硬件性能、网络环境、软件优化等多个环节。以下是影响流畅度的关键因素及优化建议&#xff1a; 一、视频文件本身 1. 分辨率与帧率 1.问题&#xff1a;高分辨率&#xff08;如4K&#xff09;或高帧率&#…

金融项目实战

测试流程 测试流程 功能测试流程 功能测试流程 需求评审制定测试计划编写测试用例和评审用例执行缺陷管理测试报告 接口测试流程 接口测试流程 需求评审制定测试计划分析api文档编写测试用例搭建测试环境编写脚本执行脚本缺陷管理测试报告 测试步骤 测试步骤 需求评审 需求评…

LeetCode 25 - K 个一组翻转链表

LeetCode 25 - K 个一组翻转链表 这道题是一个典型的链表操作题&#xff0c;考察我们对链表的精确操作&#xff0c;包括反转链表、分组处理、递归和迭代的结合应用等。还可以通过变体问题延伸到优先队列操作、归并、分块等&#xff0c;这使得它成为面试中的高频考题之一。 题目…

Leetcode 54: 螺旋矩阵

Leetcode 54: 螺旋矩阵 是一道经典的矩阵遍历模拟题目&#xff0c;要求我们以螺旋顺序遍历一个二维数组。这个问题在面试中非常经典&#xff0c;考察模拟、数组操作以及逻辑清晰度。掌握本题的高效解法可以迅速给面试官留下好印象。 适合面试的解法&#xff1a;边界法&#xff…

abseil-cpp:环境搭建

参考: https://abseil.io/docs/cpp/quickstart-cmake abseil-cpp.git/dd4c89b abseil-cpp.git/20240722.1 1. clone代码仓库、编译 git clone https://github.com/abseil/abseil-cpp.git /app/abseil-cpp/ #/app/abseil-cpp/.git/config git checkout 20240722.1git rev-pa…

Storm实时流式计算系统(全解)——下

storm编程案例-网站访问来源实时统计-需求 storm编程-网站访问来源实时统计-代码实现 根据以上条件可以只写一个类&#xff0c;我们只需要写2个方法和一个main&#xff08;&#xff09;&#xff0c;一个读取/发射&#xff08;spout&#xff09;。 一个拿到数据统计后发到redis…

什么是SYN洪范攻击?

文章目录 一、什么是SYN洪范攻击&#xff1f;二、SYN泛洪攻击原理2.1 TCP 三次握手过程2.2 SYN攻击过程 三、防御措施 一、什么是SYN洪范攻击&#xff1f; SYN洪泛攻击&#xff08;SYN Flood&#xff09;发生在OSI第四层&#xff0c;是一种基于‌TCP协议三次握手漏洞‌的DoS&a…

【嵌入式】MQTT

MQTT 文章目录 MQTT安装简介MQTT客户端代码 安装 安装Paho MQTT C库: sudo apt-get install libpaho-mqtt3-dev头文件包含&#xff1a; #include "MQTTClient.h"编译选项&#xff1a; gcc -o $ $^ -lpaho-mqtt3c简介 MQTT协议全称是&#xff08;Message Queuing…