Java 实现将Word 转换成markdown

日常的开发中,需要将word 等各类文章信息转换成格式化语言,因此需要使用各类语言将word 转换成Markdown

1、引入 jar包

  <dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>5.2.3</version></dependency>

2、使用以下代码进行编写

package com.nd.ai.test.service.utils;import com.alibaba.fastjson.JSONObject;
import com.nd.ai.test.service.dto.apitest.FileMarkdownDTO;
import org.apache.commons.compress.utils.Lists;
import org.apache.poi.xwpf.usermodel.*;import java.io.*;
import java.util.List;
import java.util.UUID;/*** @ClassName WordToMarkdownConverter* @Author Administrator*/
public class WordToMarkdownConverter {public static FileMarkdownDTO convertWordToMarkdown(String wordPath) throws IOException {List<String> imagePathList = Lists.newArrayList();FileMarkdownDTO dto = new FileMarkdownDTO();try  {File file = new File(wordPath);String uuid = UUID.randomUUID().toString();String outputFilePath = file.getParent() + File.separator + uuid + ".md";File outputFile = new File(outputFilePath);FileInputStream fis = new FileInputStream(file); // Corrected to read the input fileXWPFDocument document = new XWPFDocument(fis);FileWriter writer = new FileWriter(outputFile);dto.setMdPath(outputFilePath);String imageDir = file.getParent() + File.separator + uuid + "-images";new File(imageDir).mkdirs(); // Create image directoryfor (IBodyElement element : document.getBodyElements()) {if (element instanceof XWPFParagraph) {processParagraph((XWPFParagraph) element, writer, imageDir, imagePathList);} else if (element instanceof XWPFTable) {processTable((XWPFTable) element, writer, imageDir, imagePathList);}}writer.close();// 增加读取mardkown 文件内容// Read the content of the generated Markdown fileStringBuilder markdownContent = new StringBuilder();try (BufferedReader br = new BufferedReader(new FileReader(outputFile))) {String line;while ((line = br.readLine()) != null) {markdownContent.append(line).append("\n");}}dto.setMarkdownContent(markdownContent.toString());dto.setParserStatus("success");} catch (IOException e){dto.setParserStatus("error");throw new IOException(e);}dto.setFileImagePathList(imagePathList);return dto;}private static void processParagraph(XWPFParagraph paragraph, FileWriter writer, String imageDir,List<String> imageNamePath) throws IOException {String content = processParagraphContent(paragraph, imageDir,imageNamePath);if (content.isEmpty()) return;// 处理标题和列表样式String style = paragraph.getStyle();if (style != null && style.startsWith("Heading")) {int level = Math.min(Character.getNumericValue(style.charAt(7)), 6);StringBuilder heading = new StringBuilder();for (int i = 0; i < level; i++) {heading.append("#");}heading.append(" ").append(content).append("\n\n");writer.write(heading.toString());
//            writer.write("#".repeat(level) + " " + content + "\n\n");} else if (isListParagraph(paragraph)) {String listMark = getListMark(paragraph);writer.write("* " + listMark + " " + content + "\n");} else {writer.write(content + "\n\n");}}private static String getListMark(XWPFParagraph para) {int indentLevel = para.getNumIlvl() != null ? para.getNumIlvl().intValue() : 0;String numFmt = para.getNumFmt(); // 获取列表编号格式// 处理有序列表if ("decimal".equals(numFmt) || "upperRoman".equals(numFmt)) {StringBuilder prefixBuilder = new StringBuilder();for (int i = 0; i < indentLevel * 4; i++) {prefixBuilder.append(" ");}String prefix = prefixBuilder.toString();return prefix + ".";}// 处理无序列表else {String bullet;switch (para.getNumFmt()) {case "bullet":bullet = "•"; // 实心圆点break;default:bullet = "-"; // 默认用减号break;}StringBuilder prefixBuilder = new StringBuilder();for (int i = 0; i < indentLevel * 4; i++) {prefixBuilder.append(" ");}return prefixBuilder.toString() + bullet;}}private static boolean isListParagraph(XWPFParagraph paragraph) {return isOrderedList(paragraph) || isUnorderedList(paragraph); // 如果没有找到对应的样式,则不可能是列表段落}private static boolean isOrderedList(XWPFParagraph paragraph) {if (paragraph.getNumFmt() != null) {String numFmt = paragraph.getNumFmt();return "decimal".equals(numFmt) || "upperRoman".equals(numFmt) || "lowerRoman".equals(numFmt) ||"upperLetter".equals(numFmt) || "lowerLetter".equals(numFmt);}return false;}private static boolean isUnorderedList(XWPFParagraph paragraph) {if (paragraph.getNumFmt() != null) {String numFmt = paragraph.getNumFmt();return "bullet".equals(numFmt);}return false;}private static void processTable(XWPFTable table, FileWriter writer, String imageDir,List<String> imageNamePath) throws IOException {StringBuilder mdTable = new StringBuilder();List<XWPFTableRow> rows = table.getRows();for (int i = 0; i < rows.size(); i++) {XWPFTableRow row = rows.get(i);mdTable.append("|");// 处理每个单元格for (XWPFTableCell cell : row.getTableCells()) {StringBuilder cellContent = new StringBuilder();// 处理单元格内的段落for (XWPFParagraph para : cell.getParagraphs()) {cellContent.append(processParagraphContent(para, imageDir,imageNamePath).replace("\n", "<br>"));}mdTable.append(cellContent.toString().trim()).append("|");}mdTable.append("\n");// 添加表头分隔线if (i == 0) {mdTable.append("|");for (int j = 0; j < row.getTableCells().size(); j++) {mdTable.append(" --- |");}mdTable.append("\n");}}writer.write(mdTable + "\n\n");}private static String processParagraphContent(XWPFParagraph paragraph, String imageDir,List<String> imageNamePath) throws IOException {StringBuilder sb = new StringBuilder();for (XWPFRun run : paragraph.getRuns()) {// 处理图片for (XWPFPicture picture : run.getEmbeddedPictures()) {sb.append(saveImage(picture, imageDir,imageNamePath)).append(" ");}// 处理文本样式String text = run.getText(0);if (text == null) continue;text = applyTextStyles(run, text);sb.append(text);}String content = sb.toString().trim();// 处理有序列表和无序列表if (isListParagraph(paragraph)) {String listMark = getListMark(paragraph);content ="* " + listMark + " " + content;}return content;}private static String applyTextStyles(XWPFRun run, String text) {if (run.isBold()) text = "**" + text + "**";if (run.isItalic()) text = "*" + text + "*";if (run.getUnderline() != UnderlinePatterns.NONE) text = "__" + text + "__";return text;}private static String saveImage(XWPFPicture picture, String imageDir,List<String> imageNamePath) throws IOException {XWPFPictureData picData = picture.getPictureData();String fileName = "img_" + UUID.randomUUID() + "." + picData.suggestFileExtension();File output = new File(imageDir, fileName);imageNamePath.add(output.getPath());try (FileOutputStream fos = new FileOutputStream(output)) {fos.write(picData.getData());}return "![" + fileName + "](" + imageDir + "/" + fileName + ")";}public static void main(String[] args) throws Exception {System.out.println(JSONObject.toJSONString( convertWordToMarkdown("word path")));}
}

获得信息

{
"fileImagePathList":["文件中图片路径1","文件中图片路径2"],
"markdownContent": "markdwon 信息",
"mdPath": "markdown文件地址"
}

运行上方的程序将会得到
1、解析文件中所有图片信息,保存到下方的地址
2、将word 文档转换成markdown
3、获取markdown 文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/73796.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Axure设计之中继器表格——拖动行排序教程(中继器)

一、原理介绍 在Axure中实现表格行的拖动排序&#xff0c;主要依赖于中继器的排序事件。然而要实现拖动效果&#xff0c;就必须结合动态面板&#xff0c;因为动态面板可以设置拖动事件&#xff0c;之所以使用动态面板或许是因为它可以更灵活地处理位置变化。用户拖动行时&…

分布式渲染与云渲染:技术与应用的黄金搭档

一、核心概念&#xff1a;先区分再关联 分布式渲染是通过多台设备并行计算拆分渲染任务的技术&#xff08;如将一帧拆分为 64 个小块&#xff0c;64 台电脑同时渲染&#xff09;&#xff1b; 云渲染是基于云计算的渲染服务&#xff0c;本质是分布式渲染的商业化落地—— 用户无…

鼠标在客户区内按下左键和双击右键

书籍&#xff1a;《Visual C 2017从入门到精通》的2.6鼠标 环境&#xff1a;visual studio 2022 内容&#xff1a;【例2.44】鼠标在客户区内按下左键和双击右键 1.创建一个单文档程序 一个简单的单文档程序-CSDN博客https://blog.csdn.net/qq_20725221/article/details/1463…

VMware虚拟机 ubuntu22.04无法与共享粘贴板和拖拽文件的解决方案

VMware虚拟机 ubuntu22.04无法与共享粘贴板和拖拉文件的解决方案 卸载VMware tools安装open-vm-tools还无法拖拽文件 卸载VMware tools 确保卸载完vmware-tools # 进入vmware-tools安装目录/bin sudo vmware-uninstall-tools.pl sudo rm -rf /usr/lib/vmware-tools sudo apt-…

vue3 vue-router 传递路由参数

在 Vue 3 中&#xff0c;使用 vue-router 传递路由参数是非常常见的需求。 1. 使用动态路由参数&#xff08;params&#xff09; 动态路由参数是定义在路由规则中的占位符部分&#xff0c;例如 /user/:id。你可以通过 router.push 或 <router-link> 传递这些参数。 (1…

【Java SE】包装类 Byte、Short、Integer、Long、Character、Float、Double、Boolean

参考笔记&#xff1a;java 包装类 万字详解&#xff08;通俗易懂)_java包装类-CSDN博客 目录 1.简介 2.包装类的继承关系图 3.装箱和拆箱 3.1 介绍 3.2 手动拆装箱 3.3. 自动拆装箱 ​4.关于String类型的转化问题 4.1 String类型和基本类型的相互转化 4.1.1 String —…

【Qt】QByteArray详解

QByteArray 是 Qt 框架中用于处理原始字节数据的核心类&#xff0c;其实质可以概括为以下几点&#xff1a; 1. 底层数据结构 • 连续内存块&#xff1a;存储一段连续的字节数据&#xff08;char*&#xff09;&#xff0c;类似 std::vector<char>&#xff0c;但针对 Qt 框…

Stable Diffusion vue本地api接口对接,模型切换, ai功能集成开源项目 ollama-chat-ui-vue

1.开启Stable Diffusion的api服务 编辑webui-user.bat 添加 –api 开启api服务&#xff0c;然后保存启动就可以了 2.api 文档地址 http://127.0.0.1:7860/docs3. 文生图 接口 地址 /sdapi/v1/txt2img //post 请求入参 {enable_hr: false, // 开启高清hrdenoising_stre…

CentOS 7 部署RuoYi 项目

换源 备份现有的 YUM 源配置文件 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 默认的 CentOS 官方镜像源替换为阿里云的镜像源&#xff0c;以提高下载速度和稳定性。 curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.co…

从 WPF 到 MAUI:跨平台 UI 开发的进化之路

一、引言 在软件开发领域&#xff0c;用户界面&#xff08;UI&#xff09;开发一直是至关重要的环节。随着技术的不断发展&#xff0c;开发者对于创建跨平台、高性能且美观的 UI 需求日益增长。Windows Presentation Foundation&#xff08;WPF&#xff09;和 .NET Multi - pl…

C++ stack容器总结

stack 基本概念 概念&#xff1a; stack是一种后进先出(Last In First Out, LIFO)的数据结构&#xff0c;它只有一个出口 栈中只有顶端的元素才可以被外界使用&#xff0c;因此栈不允许有遍历行为 栈中进入的数据称为----入栈&#xff08;PUSH&#xff09; 栈中出去的数据成…

【SDMs分析1】基于ENMTools R包的生态位分化分析和图像绘制(identity.test())

基于ENMTools包的生态位分化 1. 写在前面2. 生态位分化检验案例13. 生态位分化检验案例21. 写在前面 最近学了一个新的内容,主要是关于两个物种之间生态位分化检验的 R 语言代码。生态位分化是物种分布模型(SDM )研究中的关键部分,许多 SCI 论文都会涉及这一分析。该方法主…

SpringBoot 7 种实现 HTTP 调用的方式

1. HttpClient HttpClient是Apache基金会提供的一个用于发送HTTP请求的Java客户端库。 尽管它功能强大&#xff0c;但由于其API设计较为复杂且包体积庞大&#xff0c;在一些轻量级的应用场景中可能显得过于臃肿。 不过&#xff0c;在需要高度定制化的HTTP请求时&#xff0c;H…

Ubuntu与Windows之间相互复制粘贴的方法

一、打开Ubuntu终端 二、卸载已有的工具 sudo apt-get autoremove open-vm-tools 三、安装工具 sudo apt-get install open-vm-tools-desktop 四、重启 直接输入reboot 注&#xff1a;有任何问题欢迎评论区交流讨论或者私信&#xff01;

ECharts实现数据可视化

ECharts实现数据可视化 一、Echarts的简介二、Echarts使用教程1.下载echarts.min.js文件2.编写echarts代码&#xff08;1&#xff09;创建渲染实列&#xff08;2&#xff09;修改option达到预期的效果&#xff08;3&#xff09;创建配置项到实例中 三、Echarts的基础配置四、前…

ArcGIS 10.8.1之后发布栅格数据的MapServer 动态工作空间 替换数据源渲染问题

背景 经过测试&#xff0c;Server 10.8.1、11.0、11.1发布相关服务设置动态空间之后&#xff0c;前端都无法自动读取同名的clr色彩映射表文件进行渲染&#xff0c;服务都是由ArcGIS Pro进行发布。 原因 基于ArcMap发布的服务才支持&#xff0c;但是10.8.1之后不支持ArcMap发…

vscode在使用 alt + tab 切换程序窗口时,输入法总是自动变为中文模式

因为需要在 vscode 中编写代码&#xff0c;将输入法设为英文模式&#xff0c;但是用 alt tab 切换到浏览器查看文档&#xff0c;此时浏览器也是英文模式&#xff0c;但是再切回 vscode 后就变为中文模式了&#xff0c;需要使用 shift 键切换为英文模式&#xff0c;一次两次还好…

【Linux加餐-网络命令】

一、Ping命令 Ping 是一种网络工具&#xff0c;用于测试主机之间的连通性。它通过发送 ICMP&#xff08;Internet Control Message Protocol&#xff09;回显请求 报文到目标主机&#xff0c;并等待目标主机返回 ICMP 回显应答 报文&#xff0c;从而判断网络是否通畅以及测量往…

Maven工具学习使用(六)——聚合与继承

Maven的聚合特性能够把项目的各个模块聚合在一起构建,而Maven的继承特性则能帮助抽取个模块相同的依赖和插件等配置,在简化POM的同时,还能促进各个模块配置的一致性。 一般说来一个项目的子模块都应该使用同样的groupId,如果他们一起开发和发布,还应该使用同样的version,…

vulhub靶场jangow-01-1.0.1

启动靶机时点shift停在这个界面 点e进入编辑页面&#xff0c;把ro改成rw signie init/bin/bash Ctrlx保存&#xff0c;ip a查看网卡信息 vim /etc/network/interfaces 把enp0s17改为ens33&#xff0c;保存退出 重启靶机&#xff0c;nmap扫ip ip为192.168.93.179 nmap扫端口 扫…