再也不担心论文!一键生成汇报PPT和科研绘图

Datawhale开源

发布:北京大学 DCAI 团队

写作往往不仅仅是写文字与数据,还要为文章配上结构图、流程图、示意图,然后再整理成演示用的 PPT。这个过程繁琐、耗时,而且非常考验设计感——即使你思路清晰,也可能因为排版不当、配色杂乱、图表不美观,而拖慢写作以及展示节奏。如何将复杂的思路快速转化为清晰的架构图?如何将PDF文档、长文本等资料瞬间变为可编辑的汇报PPT?

为了让科研配图及汇报演示变得更加轻松、自动化,北大 DCAI 课题组 基于自动化数据治理Agent框架DataFlow-Agent推出了全新的科研绘图与PPT制作辅助平台Paper2Any,实现了完整的自动化 workflow —— 用户只需上传文章内容(支持多模态输入,包括PDF文件、文本及图像),系统就能自动“读资料 → 理解逻辑 → 生成图像 → 切割/提取图文元素 → 输出SVG / PDF+可编辑 PPT格式”。从逻辑到图像,从草稿到最终可编辑文件,生成全流程自动化。快速体验地址:

http://dcai-paper2any.nas.cpolar.cn/

目前已推出多模态工作流Paper2Any的前端平台,用户可通过web网页直接使用。系统当前以科研绘图和可编辑PPT的制作与优化两大类功能为主,所有功能的输出均包括可编辑的PPTX格式绘图,方便用户后续修改、增删和排版。

这意味着:从此你不必再为画流程图、排图表、排版及美化 PPT 而烦恼 —— 系统帮你一键搞定。

开源地址:https://github.com/OpenDCAI/Paper2Any

Paper2Any:从论文理解到科研展示

Paper2Any工具能够自动读取文章,然后通过内置智能体对文本进行语义分析,自动识别文章的核心贡献与研究思路。接着,这些“研究 idea / 方法结构 /实验流程”将被转化为一组适合视觉化展示的图像描述,系统据此自动生成草稿图。

更进一步,系统会对这张草稿图进行图文内容分割 —— 自动识别其中的文字、图表、结构模块、图标/子图等,并记录每个元素的位置和类型。这样生成的 “图 + 元素 metadata” 并不是一张 png 图像,而是一组独立可操作的图文、图标或表格块。用户可以在 PPT 中自由移动、编辑、替换、重新布局 —— 获得可编辑且结构清晰的科研图 + 演示文档。

目前Paper2Any已支持Paper2Figure(可编辑科研绘图)、Paper2PPT(演示文稿生成)、PDF2PPT(不可编辑转为可编辑)以及PPTPolish(演示文稿美化),后续将陆续支持Paper2Rebuttal(论文返修生成)、Paper2Idea(创新点生成)、Paper2Poster(可编辑学术海报)等更多的多模态功能,帮助用户缩短准备Presentation的时间。对于与可编辑 PPT 相关的三项功能,Paper2Any 可有效解决 Nano Banana Paper2Slides 不可编辑和依赖复杂 Prompt 的核心痛点。

1、Paper2Figure:智能科研绘图

用户不再需要从零开始学习复杂的绘图软件,只需提供基础素材,DataFlow-Agent即可自动生成高质量的科研配图。

该模块具备强大的多模态输入处理能力,即便是随手绘制的草图或示意图截图也能作为输入源,支持输入PDF文件、文本、图片等多种格式。在此基础上,用户还可以根据实际需求,自由选择生成图片的绘图难度等级与风格倾向,实现高度定制化的创作体验。其生成的内容包括 SVG 图片以及可编辑的 PPTX 格式绘图,用户可以对生成的线条、文字、色块等进行调整。

系统预设了多种科研常用图表类型:

  • 模型架构图: 输出图片可清晰展示模型或系统模块的连接关系。

  • 技术路线图: 绘制图片展示研究方法的流程与逻辑步骤。

  • 实验数据图: 将实验结果转化为可视化的对比柱状图或折线图。

Paper2Figure科研绘图功能具备以下特色:

  • 自定义功能:用户可以根据需要指定绘图的难度、语言和视觉风格,确保图表的专业性和个性化。

  • 重绘功能:支持根据用户指令进行图表的修改和重新生成,无论是调整图表内容、样式,还是增加新的元素,都能迅速响应需求。

2、Paper2PPT:文章结构化解析与PPT智能生成

Paper2PPT模块致力于解决从原始文章到汇报演示文稿的转换问题,通过算法自动对文档结构进行深度语义分析,精准提取背景、方法论、关键图表及结果等核心内容。

在此基础上,系统将自动生成合适的版面布局,并依托 PaddleOCR 技术对文字层进行重建,确保生成的内容并非简单的截图,而是完全可编辑的文本。用户不仅可以自定义幻灯片页数、风格及中英文语言,还能实现图表的自动化提取与排版。最终,系统支持一键输出精心编写的 PPT(暂时仅支持输出PDF格式,可使用PDF2PPT功能将其转换为可编辑PPTX),免去了繁琐的 Prompt 调试与手动截图排版过程。

系统可灵活处理三种类型的输入:

  • 上传 PDF 格式的文章->自动生成对应的汇报PPT。

  • 直接粘贴长文本内容->生成相应的PPT大纲并制作PPT。

  • 输入研究主题->自动进行深度搜索并生成PPT。

这项功能有以下亮点,可提升PPT制作的效率和质量:

  • 原文图表一键嵌入:用户可将原文中的图表直接嵌入PPT,保持信息的完整性与可视化效果。

  • 逐页生成PPT,灵活修改大纲:支持逐页生成PPT,并允许用户自由修改每一页的大纲内容,适应不同需求。

  • 支持超长PPT生成:首次支持40至100页的超长PPT生成,满足长文综述输入或深度主题研究的演示需求。

  • 风格参考图功能:用户可以上传任意风格的参考图,系统将根据参考图生成风格一致的PPT。

  • 优化中文PPT效果:针对中文PPT的生成,解决了大模型中文字体怪异、表达生硬的问题,减少了“AI痕迹”,符合正式场合的演示需求。

3、PDF2PPT:静态文档的可编辑还原

PDF2PPT模块专门针对那些排版复杂、图文交错的静态 PDF 文档,包括由 Paper2PPT 生成的讲义或 Nano Banana 导出的文件。它的核心价值在于打破演示文档修改的壁垒,将原本只读的页面转化为可编辑的状态。

技术上,系统利用 MinerU 与 SAM 模型对版面进行高精度的结构解析,能够像“拆积木”一样精准识别并分离原本锁死的图片与文本区域。这一过程将不可编辑的 PDF 还原为可编辑的 PPTX 文件,不仅解决了版面错乱的问题,更让用户能够对每一个细粒度的图文元素进行二次修改。

该模块支持 AI 背景增强功能:采用 Gemini Nano 模型实现图像内补(Inpainting),精准修复文字覆盖区域的背景以达到“去字留影“的效果,可以在转换过程中最大限度还原原始 PDF 的背景底图。

4、PPTPolish:基于Prompt的交互式PPT美化

PPTPolish 模块聚焦于对现有 PPT 文档的深度精修。系统会先对用户上传的 PPT 进行逐页解析,并为每一页自动生成对应的美化提示词;用户可在此基础上自由调整提示词内容,再按页执行定制化美化。通过这种“逐页可控 + 可迭代优化”的方式,美化过程更透明、更可编辑,适合需要反复打磨、追求细节质感的正式汇报与高质量演示场景。与此同时,模块同样支持风格参考图功能,用户上传任意风格图片,即可让 PPT 的视觉呈现保持一致。

实操案例:一键生成科研绘图和PPT

1、科研绘图

1)模型架构图

上传论文 PDF 文件/图片/文本,根据选择的绘图难度(简单/中等/困难),此功能可以自动提取模型架构信息,生成对应复杂度的可编辑 PPTX 格式模型架构图。

论文 PDF → 符合论文主题的架构图

科研配图 / 示意图截图 → 可编辑 PPTX

论文摘要文本 → 可编辑架构图

2) 技术路线图

上传论文 PDF 或粘贴论文方法部分文本,选择语言(中文/英文),此功能可以自动梳理技术路线与模块依赖关系,生成清晰的技术路线图 PPTX 与可编辑 SVG。

论文 PDF → 符合论文主题的技术路线图

论文摘要文本 → 符合论文主题的技术路线图

3)实验数据图生成

上传论文 PDF /实验结果截图或表格,自动抽取关键数据并生成可编辑的实验数据图 PPTX,同时提供常规和精美两种风格,便于论文和汇报复用。

论文 PDF → 自动提取实验数据绘制 PPT

不同类型与不同风格的生成图示例

论文实验表格文本 → 自动整理实验数据绘制 PPT

2、PPT制作与美化

1)汇报PPT生成——Paper2PPT

文章 PDF → 不同风格 PPT

Paper2PPT 图表嵌入和重塑功能:

长文档模式生成超长PPT效果:

基于风格参考图的PPT生成:

Text2PPT:长文本 → 文本内容总结与展示 PPT

输入长文本/大纲,系统可自动生成结构化的 PPT。

Topic2PPT:主题描述 → 内容扩展 PPT

Topic2PPT与其他模型的效果对比:

与 Gemini 3 Pro、NotebookLM相比,Paper2Any生成的PPT有以下优势:

  • 深度可视化: 不止于文字归纳,更能自动绘制架构图与对比表。

  • 原生级排版: 减少 AI 生成痕迹,交付更真实的效果,并更好处理中文的表达与呈现。

  • 高密度信息: 优化的版面设计,容纳更多核心干货。

2)可编辑Sildes转换——PDF2PPT

上传PDF,系统可将其自动转换为对应的可编辑的PPTX文件,可实现与WPS转换类似的效果。

3)PPT美化——PPTPolish

PPT 增色美化

基于原有 PPT 内容,系统可智能调整其风格、配色与视觉层次。

PPT 润色拓展

系统可对纯文字或简易空白 PPT 进行智能润色,自动生成精美排版与视觉元素。

基于参考图的风格美化

使用方式

1、本地部署

各功能可通过本地部署Paper2Any开源项目进行使用,按照readme文档中的说明操作即可启动web前端。

Github官方仓库:https://github.com/OpenDCAI/Paper2Any

快速开始指引:https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-%E5%AE%89%E8%A3%85

2、前端使用

如果没有合适的设备部署项目,或想快速体验功能,Paper2Any也提供了网页端公测在线体验地址,让大家能够零门槛上手。新用户可免费注册体验,登录后可在网页右上角自由选择功能,并支持历史记录查看。下面的使用介绍以Paper2Figure功能为例,Paper2PPT及PptPolish的使用可参考功能设计部分的演示视频。

欢迎大家尝试这条 workflow。如果你对生成的图表/PPT 有建议、意见,也期待给我们反馈,帮助我们继续完善。

未来,我们希望这条 workflow 能成为科研工作者的新惯例:写论文 + 一键配图 + 一键生成 PPT + 一键展示。

让科研配图再也不是门槛,而是一种“自动获得的附加值”。

DCAI 团队的开源项目

欢迎大家关注使用DCAI的开源项目并与我们进行技术交流,如果觉得好用也请帮GitHub仓库点一个star~

1. 文章多模态工作流 Paper2Any:

https://github.com/OpenDCAI/Paper2Any

2. 自动化数据治理Agent框架 DataFlow-Agent:

https://github.com/OpenDCAI/DataFlow-Agent

3. LLM数据准备系统 DataFlow(2.3k star):

https://github.com/OpenDCAI/DataFlow

4. DataFlow技术报告(#1 of the Hugging Face daily paper):

https://arxiv.org/abs/2512.16676

5. LLM数据训练系统DataFlex(基于LLaMA-Factory):

https://github.com/OpenDCAI/DataFlex


一起“赞”三连

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1161005.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek-OCR本地化实战|利用DeepSeek-OCR-WEBUI镜像实现网页端快速测试

DeepSeek-OCR本地化实战|利用DeepSeek-OCR-WEBUI镜像实现网页端快速测试 1. 引言:为什么选择DeepSeek-OCR-WEBUI进行本地化测试? 在文档自动化、票据识别、证件信息提取等场景中,光学字符识别(OCR)技术已…

Swift-All生态联动:ModelScope模型库无缝对接

Swift-All生态联动:ModelScope模型库无缝对接 1. 技术背景与核心价值 在大模型研发日益普及的今天,开发者面临的核心挑战已从“是否拥有模型”转向“能否高效使用模型”。尽管开源社区涌现出大量高质量预训练模型,但其下载、适配、微调、推…

MinerU智能文档理解指南:多格式文档统一处理方案

MinerU智能文档理解指南:多格式文档统一处理方案 1. 技术背景与核心价值 在数字化办公和科研场景中,非结构化文档的自动化处理需求日益增长。PDF、扫描件、PPT、学术论文等多格式文档往往包含复杂排版、图表和公式,传统OCR工具难以实现语义…

小白也能懂的语音情感分析:SenseVoiceSmall镜像一键上手教程

小白也能懂的语音情感分析:SenseVoiceSmall镜像一键上手教程 1. 引言:为什么你需要语音情感分析? 在智能客服、视频内容审核、心理辅助诊断等场景中,仅仅“听清”用户说了什么已经远远不够。真正智能化的语音系统,还…

FSMN-VAD支持批量导出?文件打包下载功能实现教程

FSMN-VAD支持批量导出?文件打包下载功能实现教程 1. 引言 1.1 FSMN-VAD 离线语音端点检测控制台 基于 ModelScope 达摩院 FSMN-VAD 模型的离线语音检测服务,能够精准识别音频中的有效语音片段,并自动剔除静音部分。该工具支持上传本地音频…

没N卡也能畅玩GPT-OSS:AMD用户专属云端方案

没N卡也能畅玩GPT-OSS:AMD用户专属云端方案 你是不是也遇到过这样的尴尬?作为一位热爱AI技术的玩家,手里握着一块性能不错的AMD显卡,却每次看到别人用NVIDIA显卡跑大模型、生成图片、微调对话机器人时只能干瞪眼。不是不想上车&a…

LVGL中文显示字体处理在STM32移植中的解决方案:全面讲解

如何在STM32上让LVGL流畅显示中文?一个字都不卡的实战方案 你有没有遇到过这种情况: 辛辛苦苦把 LVGL 移植到 STM32 上,界面跑起来了,英文按钮、图标都正常,结果一显示“设置”、“返回主菜单”,屏幕突然…

深入解析Rust中枚举与结构体的初始化

在Rust编程中,枚举(enum)与结构体(struct)的组合使用是一个常见的设计模式。特别是在处理树或图结构时,比如B树或红黑树,我们常常会遇到需要初始化和操作复杂数据结构的情况。本文将深入探讨如何在Rust中利用Box::new_uninit_in和ptr::addr_of_mut!来初始化和访问枚举中…

FSMN VAD最佳实践手册:从测试到生产的全流程

FSMN VAD最佳实践手册:从测试到生产的全流程 1. 引言 语音活动检测(Voice Activity Detection, VAD)是语音处理系统中的关键前置模块,广泛应用于语音识别、会议转录、电话录音分析等场景。准确的VAD能够有效区分语音与非语音片段…

用verl训练自己的AI助手,全过程分享

用verl训练自己的AI助手,全过程分享 1. 技术背景与核心价值 大型语言模型(LLMs)在经过预训练和监督微调后,通常需要通过强化学习进行后训练优化,以提升其在复杂任务中的表现。然而,传统的强化学习框架往往…

Emotion2Vec+ Large英文语音表现?跨语言情感识别准确率

Emotion2Vec Large英文语音表现?跨语言情感识别准确率 1. 引言:构建高效跨语言情感识别系统的实践背景 随着人机交互技术的不断发展,语音情感识别(Speech Emotion Recognition, SER)在智能客服、心理健康监测、虚拟助…

Django 2.2日志调试的挑战与解决方案

引言 在使用Django框架开发Web应用的过程中,日志系统是调试和监控系统运行状态的关键工具之一。然而,有时候即使配置正确,日志功能也可能无法按预期工作。本文将通过一个实际案例,探讨在Django 2.2版本中使用Python 3.5.2时,日志记录可能遇到的问题,并提供解决方案。 案…

阿里Z-Image企业合作模式:定制化服务申请教程

阿里Z-Image企业合作模式:定制化服务申请教程 1. 引言 随着生成式AI技术的快速发展,高质量、高效率的文生图模型成为企业内容创作、广告设计、数字艺术等领域的核心工具。阿里巴巴最新推出的 Z-Image 系列大模型,凭借其强大的生成能力与高效…

Qwen3-VL图文生成能力测评:CSS/JS代码输出实战

Qwen3-VL图文生成能力测评:CSS/JS代码输出实战 1. 背景与技术定位 随着多模态大模型的快速发展,视觉-语言联合建模已成为AI应用的关键方向。阿里云推出的 Qwen3-VL-2B-Instruct 模型,作为Qwen系列中迄今最强大的视觉语言模型之一&#xff0…

探索Angular中的安全性:处理YouTube视频嵌入的挑战

在现代Web开发中,单页面应用程序(SPA)已经成为主流,尤其是在使用Angular框架时,我们经常会遇到一些特定的安全性问题。本文将通过一个具体的实例,展示如何在Angular 16中安全地嵌入YouTube视频到Bootstrap 5的轮播中。 背景介绍 我们使用Angular 16、TypeScript和TMDB(…

2025 年 HTML 年度调查报告公布!好多不知道!

前言 近日,「State of HTML 2025」年度调查报告公布。 这份报告收集了全球数万名开发者的真实使用经验和反馈,堪称是 Web 开发领域的“年度风向标”。 让我们看看 2025 年,大家都用了 HTML 的哪些功能。 注:State of JS 2025 …

Live Avatar最佳实践:素材准备、提示词与工作流三步法

Live Avatar最佳实践:素材准备、提示词与工作流三步法 1. 引言 Live Avatar是由阿里巴巴联合多所高校共同开源的数字人生成模型,旨在通过文本、图像和音频输入驱动高保真虚拟人物视频的生成。该模型基于14B参数规模的DiT(Diffusion Transfo…

Glyph能否替代传统VLM?技术架构对比评测报告

Glyph能否替代传统VLM?技术架构对比评测报告 1. 引言:视觉推理的范式转变 随着大模型对上下文长度需求的不断增长,传统基于文本令牌(token-based)的长上下文建模面临计算复杂度和内存占用的双重挑战。在此背景下&…

高效多模态交互实现路径|AutoGLM-Phone-9B架构与部署详解

高效多模态交互实现路径|AutoGLM-Phone-9B架构与部署详解 1. AutoGLM-Phone-9B 多模态模型工作机制 AutoGLM-Phone-9B 是一款专为移动端优化的多模态大语言模型,融合视觉、语音与文本处理能力,支持在资源受限设备上高效推理。该模型基于 GL…

hal_uart_transmit中断模式配置:手把手教程(从零实现)

从轮询到中断:彻底搞懂HAL_UART_Transmit_IT的实战配置你有没有遇到过这样的场景?系统正在执行关键的PWM控制或ADC采样,突然要发一条串口日志——结果一调用HAL_UART_Transmit,整个主循环卡住几毫秒。电流环PID抖动了,…