DailyPaper-2025-9-29

LongLive: Real-time Interactive Long Video Generation

https://arxiv.org/abs/2509.22622

LongLive is a frame-level autoregressive framework for real-time and interactive long video generation, addressing efficiency and quality challenges through causal attention, KV-recache, streaming long tuning, and short window attention.

AR 做长视频生成和交互. 如果 AR w/o KV cache 会出现新的 prompt 影响很大从而使画面突变, 而 AR w/ KV cache 又会出现新的 prompt 不起作用的情况.

引入了一种 KV-recache 技术, 在快速切换的边界处利用已生成的帧以及新的 prompt 重新计算 KV cache. 相当于把上述两种方法互补了一下.

8-/10

Quantile Advantage Estimation for Entropy-Safe Reasoning

https://arxiv.org/abs/2509.22611

Quantile Advantage Estimation stabilizes reinforcement learning with verifiable rewards by addressing entropy issues and improving performance on large language models.

和 2509.20712 一样切入点是稳定 RL 中的熵变化. 但是他同时通过实验指出熵坍缩和熵激增不是一个 hyperparameter tuning problem, 而是 baseline 设计问题.

提出方法 QAE, 将每个查询组的平均值替换为 K 分位数基线, 将 query 分类:较难时仅强化罕见的成功, 较易时仅惩罚还存在的失败. 通过将 query 分为难易两类从而有不同的 baseline 和不同的奖励函数. 然后证明了这种办法确实避免了熵坍缩和熵激增, 保证了训练稳定性.

7/10

WoW: Towards a World omniscient World model Through Embodied Interaction

https://arxiv.org/abs/2509.22642

WoW, a 14-billion-parameter generative world model trained on robot interactions, demonstrates improved physical intuition through SOPHIA's guidance and achieves state-of-the-art performance on physical consistency and causal reasoning in video.

这个 WoW 工作量确实有点 wow, 他们主张视频模型不能仅仅被动观察而是从具体经验构建对物理的理解. 直觉来说确实.

Pipeline 本质没有很 novel, 就是生成模型 + VLM 做了验证.

这个 WoWbench 有点东西, 它 data 来源一部分是 RoboMIND 这种数据然后做偏 motion 的评估, 但是它 claim 物理还有待进一步考究, 又加上了点 world knowledge 的 data 感觉还挺好的.

这东西也可以放进 Embodied AI 试试? 感觉 Steve series 用这个优化一下又是一篇新文章.

8/10

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

https://arxiv.org/abs/2509.22576

Entropy-regularized Policy Optimization (EPO) addresses exploration-exploitation challenges in multi-turn environments with sparse rewards, improving performance in tasks like ScienceWorld and ALFWorld.

依旧在熵上做文章.

在多轮对话或多步任务中, 早期决策会层层影响后续回合, 单步熵不足以反映整个 trajectory 的不确定性, 所以直接改成在整条 trajectory 上计算熵, 再对 batch 取平均.

为了保证熵不会突变, 又引入了历史参考熵来维护, 要求不能超过这个区间, 否则就有惩罚.

如果按照 2509.22611 所说, 这些 token-level trick 都不用去做了?

6/10

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

https://arxiv.org/abs/2509.21880

RL-ZVP, a novel reinforcement learning algorithm, leverages zero-variance prompts to improve the accuracy and pass rate of Large Language Models in math reasoning tasks.

在 zero-variance prompt 里优势函数全为 0 梯度不会更新.

这个就是对 reward 没有区分度的回答从策略的不确定性(熵)中制造信号, token 分布更确定就是低熵,更随机就是高熵.

6-/10

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/922785.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL版本选择

MySQL版本选择我们使用的MySQL8.0+和5.7+都是LTS版本,8.4+也已成为最新的一个LTS版本。 MySQL 8.4.x 延续了 8.0 系列的性能优化和安全性改进,包括JSON 表支持、窗口函数等新特性,同时修复了此前版本的安全漏洞和兼…

gpd winmax2 fedora42 睡眠秒唤醒问题

最近入了gpd win max2 2025 8840u款学习机(bushi),到手就刷了fedora 42 和野蛮学习系统(bushi),fedora42下遇到睡眠秒唤醒的问题。这个问题在我之前的8845hs处理器的笔记本上面也有,但情况跟gpd这个还不一样,接…

国企人力资源管理系统怎么选?内行人推荐这8款,功能、服务双保障

摘要:新一轮国企改革对HR管理提更高要求,传统系统难满足合规、干部管理、信创等需求。本文测评红海云、用友等8款主流国企人力资源管理系统,分析优劣,还给出选型避坑与落地建议,助力国企HR数字化转型。本文属于深…

无锡网站建设网百度广告联盟看广告赚钱

第 一 部分 高级篇 第 1 章 Explain 查看执行计划 在 clickhouse 20.6 版本之前要查看 SQL 语句的执行计划需要设置日志级别为 trace 才能可以看到,并且只能真正执行 sql,在执行日志里面查看。在 20.6 版本引入了原生的执行计划的语法。在 20.6.3 版本成…

巩义网站建设联系电话泉州专业网站设计技术公司

有时候想要对比跨度几十个commits之前的代码区别,想直接使用github的用户界面。可以直接在官网操作。 示例 首先要创建一个旧commit的branch。进入该旧的commit,然后输入branch名字即可。 然后在项目网址后面加上compare即可对比旧的branch和新的bran…

linux查询磁盘空间,查询指定目录的空间 df命令

linux查询磁盘空间,查询指定目录的空间 df命令linux查询磁盘空间,查询指定目录的空间 命令格式: df -h:以人类可读格式(GB/MB/KB)显示空间信息 jenkins启动失败,可能是磁盘空间不足,查询指定目录的空间验证磁盘空…

东莞网站推广模式音乐推广公司

AI是一门入门简单,但想深入却很难的学科,这也是为什么AI高端人才一直非常紧缺的重要原因。在AI领域技术领域,我们可以说机器学习功底决定了一个人的上限也不为过。为什么?机器学习就像物理学中的数学,如果你对数学没有…

轻松规划房贷:用好公积金贷款,让梦想之家触手可及

在现代生活中,买房是许多人追求的重要目标之一。公积金贷款因其利率较低、政策支持而备受青睐,但如何准确计算月供、利息和还款周期,却让不少人感到头疼。今天,我们来聊聊如何高效规划公积金贷款,并分享一个实用工…

做彩票网站要多大服务器高密哪里做网站

首先,我们先弄明白拼多多场景推广的展示以及扣费规则:排名规则:综合排名商品质量分广告出价。商品质量分点击率转化率销量交易额。扣费规则:扣费(下一位的出价*下一位的商品素材点击率)/自己的商品素材点击…

唐河网站建设wordpress官方模板下载

文章目录 一些开发中遇到的SQL问题1. sql报11090错误,原因可能是以下错误,在?占位符后有一个空格2. 占位符?的位置不能是表名,否则会无法进行预编译3. mysql中desc是关键字,如果字段名称为desc会报错4. 数据库中时间格…

milvus使用的etcd空间整理

环境说明: docker compose部署的ETCD1.查看etcd容器情况[root@localhost milvus]# docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS …

设计素材网站图案免费低价建设网站

【.NET Core】Linq查询运算符(二) 文章目录 【.NET Core】Linq查询运算符(二)一、概述二、生成运算2.1 DefaultIfEmpty2.2 Empty2.3 Range2.4 Repeat 三、相等运算3.1 SequenceEqual 四、元素运算4.1 ElementAt4.2 ElementAtOrDef…

网站备案截图宁波易企网做的网站

Axious的请求与响应 1.什么是Axious Axious是一个开源的可以用在浏览器和Node.js的异步通信框架,它的主要作用就是实现AJAX异步通信,其功能特点如下: 从浏览器中创建XMLHttpRequests ~从node.js创建Http请求 支持PromiseAPI 拦截请求和…

k8s使用的etcd空间清理

1.查看当前k8s的情况[root@master snap]# kubectl get pods -n kube-system -o wide NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE …

MyBatis 与 JPA 的核心对比

------------------------------------------------------------------------------------------- 一、MyBatis 中 Mapper 注解与 XML 方式在处理复杂业务逻辑时的核心差异 复杂业务逻辑通常涉及 动态 SQL(多条件拼接…

完整教程:Redis 提供了两种主要的持久化机制:RDB 和 AOF

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

本土化战略赋能:Gitee如何领跑中国DevOps黄金赛道

本土化战略赋能:Gitee如何领跑中国DevOps黄金赛道 中国软件开发领域正在经历一场深刻的效率革命。随着国家"十四五"数字经济规划明确要求企业加速数字化转型,DevOps作为连接开发与运维的关键技术栈,其市场…

陕西省建设注册中心网站建设网站需要哪些

时序数据库全称为时间序列数据库。时间序列数据库指主要用于处理带时间标签(按照时间的顺序变化,即时间序列化)的数据,带时间标签的数据也称为时间序列数据。 时间序列数据主要由电力行业、化工行业、气象行业、地理信息等各类型…

打印机错误0x0000709,问题排查和修复指南

办公时突然弹出打印机报错窗口,电脑显示打印机错误 0x0000709不知道什么意思,连重新连接打印机都不管用,急着打文件的话真的很闹心。但其实打印机错误码是有规律的,不同代码对应不同故障原因,比如 0x0000709 多和…

中国科技成就素材seo引擎优化

AlternationCount属性:表示有几行不同的颜色来回替换,如果设置2则表示有两个颜色交替循环 AutoGenerateColumns属性:是否生成列 CanUserAddRows属性:用户是否可以添加行 CanUserDeleteRows属性:用户是否可以删除行 …