开源一套Trados Sdlxliff 对比工具

开源一套Trados Sdlxliff 对比工具

在Trados翻译过程中经常对需要进行版本控制和对比,例如对比不同设置下生成的sdlxliff文件,对比不同的机器翻译结果以及对比机器翻译和人工翻译,对比翻译和审校等等。

当然SDL官方也提供了对比工具
https://appstore.rws.com/Plugin/43?tab=releases
但官方的这种是基于TradosAPI的比较笨重,可定制化程度不高,因此还是单独又制作了一个sdlxliff对比工具:
https://github.com/Dark-20001/CompareSdlxliff/

这个和官方工具不同,官方使用Trados内置API来做因此2017,2019,2021,2022各个版本都不一样要下载对应的版本,所以此版本按照xliff文件标准来执行,独立运行,不依赖于Trados.

程序不是XML直接读取sdlxliff,因为sdlxliff会以base64编码形式讲小于25MB的文件编入sdlxliff这部分其实意义不大,所以我跳过这个部分。(sdlxliff这么多年也应该改进一下了,这种基于xml的文件结构经常出现问题,越来越多的软件企业使用zip格式二次封装文件,这样能够将不同独立的组件部分,嵌入部分进行分离,例如docx,xlsx)

string line1 = xlifflines.First();
List<string> base64lines = new List<string>();int s = line1.IndexOf(bmark);if (s != -1)
{string lineb = line1.Substring(s + 29);base64lines.Add(lineb);line1 = line1.Substring(0, s + 29);xlifflinesClean.Add(line1);int cc = 1;for (int i = 1; i < xlifflines.Count; i++){if (xlifflines[i].StartsWith(bmarkStop)){xlifflinesClean.Add(xlifflines[i]);cc = i;break;}else{base64lines.Add((string)xlifflines[i]);}}for (int i = cc+1; i < xlifflines.Count; i++){xlifflinesClean.Add(xlifflines[i]);}}

之后在进行xml解析

doc = XDocument.Parse(String.Join("\r\n", xlifflinesClean));
doc = XDocument.Parse(string.Join("\r\n",xlifflines));

解析之后就是常规操作,提取TranslationUnits和ID

IEnumerable<XElement> transunits = doc.Descendants(XName.Get("trans-unit", xnxliff));
string tuid = transunit.Attribute("id").Value;

由于文件是带有XML命名空间的,这里要提前声明,这样对比Xml.Linq确实方便

string xnsdl = "http://sdl.com/FileTypes/SdlXliff/1.0";
string xnxliff = "urn:oasis:names:tc:xliff:document:1.2";

开两个文件得到两组数据,类型如下

Dictionary<Guid, string> keyValuePairs = new Dictionary<Guid, string>();

然后进行比较,这里没有引入自定义类型,使用Dictionary,效率更高
匹配成功的分别存入paired1,paired2并且ID相同,匹配不上的存入unpaired
这样即使两文件差异较大也能存留记录

Dictionary<Guid, string> keyValuePairs1 = ReadSdlxliff(file1, mtOnly, isTarget);
Dictionary<Guid, string> keyValuePairs2 = ReadSdlxliff(file2, mtOnly, isTarget);Dictionary<Guid, string> paired1 = new Dictionary<Guid, string>();
Dictionary<Guid, string> paired2 = new Dictionary<Guid, string>();
Dictionary<Guid, string> unpaired = new Dictionary<Guid, string>();//match
foreach (KeyValuePair<Guid, string> unit1 in keyValuePairs1)
{IEnumerable<KeyValuePair<Guid,string>> selectedUnits = from unit in keyValuePairs2 where unit.Key == unit1.Key select unit;if (selectedUnits.Count() > 0){paired1.Add(unit1.Key, unit1.Value);paired2.Add(unit1.Key, selectedUnits.First().Value);}else{unpaired.Add(unit1.Key,unit1.Value);}
}

开始比较,使用了异地第三方开源的库,支持按字符和按单词的两种文本比较

public enum ComparisonType
{Words,Characters
}
foreach (KeyValuePair<Guid, string> unit1 in paired1)
{StringBuilder cb = new StringBuilder();List<string> list1 = new List<string>();List<string> list2 = new List<string>();list1.Add(unit1.Value);list2.Add(paired2[unit1.Key]);List<ComparisonTextUnit> comparisonTextUnits = comparer.GetComparisonTextUnits(list1, list2, comparisonType);foreach (ComparisonTextUnit u in comparisonTextUnits){switch (u.ComparisonTextUnitType){case ComparisonTextUnitType.Identical:cb.Append(u.Text);break;case ComparisonTextUnitType.Removed:cb.Append("<span class='removed'>");cb.Append(u.Text);cb.Append("</span>");changeRate.Removed += u.Text.Length;changeRate.RemovedCount++;break;case ComparisonTextUnitType.New:cb.Append("<span class='added'>");cb.Append(u.Text);cb.Append("</span>");changeRate.Added += u.Text.Length;changeRate.AddedCount++;break;default:break;}}}

剩下就是输出报告,并且在比较之前可以增加根据TranslationUnit属性,状态做一些筛选

最后项目地址:
https://github.com/Dark-20001/CompareSdlxliff

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/30463.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[手机Linux PostmarketOS]二,cpolar实现内外网穿透

要想你的手机linux服务器能够通过外网可以访问到&#xff0c;必须需要借助工具把内网和外网打通&#xff0c;这样才能不管你在哪里都可以访问你的linux服务器&#xff0c;否则你只能在家连接同一的wifi网络才能连接&#xff0c;其实内网穿透工具大同小异&#xff0c;对比的是哪…

GT_BERT文本分类

目录 GT-BERT结束语代码实现整个项目源码&#xff08;数据集模型&#xff09; GT-BERT 在为了使 BERT 模型能够得到广泛的应用,在保证模型分类准确率不降低的情况下,减少模型参数规模并降低时间复杂度,提出一种基于半监督生成对抗网络与 BERT 的文本分类模型 GT-BERT。模型的整…

AI学习指南机器学习篇-朴素贝叶斯算法(Naive Bayes)简介

AI学习指南机器学习篇-朴素贝叶斯算法&#xff08;Naive Bayes&#xff09;简介 人工智能&#xff08;AI&#xff09;的发展正日益改变着我们的生活&#xff0c;而机器学习作为AI的重要分支更是受到了广泛关注。在机器学习领域中&#xff0c;朴素贝叶斯算法&#xff08;Naive B…

【ajax基础04】form-serialize插件

目录 一&#xff1a;form-serialize插件 作用&#xff1a; 语法格式&#xff1a; 一&#xff1a;form-serialize插件 作用&#xff1a; 快速且大量的收集表单元素的值 例如上图对于多表单元素的情形&#xff0c;单靠通过”选择器获取节点.value”值的形式&#xff0c;获取…

使用 GCD 实现属性的多读单写

使用 Grand Central Dispatch (GCD) 实现多读单写的属性 首先需要确保在多线程环境下的线程安全性。可以使用 GCD 提供的读写锁机制 dispatch_rwlock_t 或者 dispatch_queue_t 来实现这个功能。 Swift版本的实现 怎样创建一个并发队列 &#xff1f;// 使用 Swift 来实现的首…

Mongodb在UPDATE中使用二进制运算更新字段

学习mongodb&#xff0c;体会mongodb的每一个使用细节&#xff0c;欢迎阅读威赞的文章。这是威赞发布的第75篇mongodb技术文章&#xff0c;欢迎浏览本专栏威赞发布的其他文章。如果您认为我的文章对您有帮助或者解决您的问题&#xff0c;欢迎在文章下面点个赞&#xff0c;或者关…

.net 奇葩问题调试经历之1——在红外相机获取温度时异常

📢欢迎点赞 :👍 收藏 ⭐留言 📝 如有错误敬请指正,赐人玫瑰,手留余香!📢本文作者:由webmote 原创📢作者格言:新的征程,我们面对的不仅仅是技术还有人心,人心不可测,海水不可量,唯有技术,才是深沉黑夜中的一座闪烁的灯塔序言 我们在研发中,经常除了造产品…

Linux中ls -lsa 和ls -lst区别

在Linux中&#xff0c;ls 命令用于列出目录内容。当与不同的选项组合时&#xff0c;它可以以不同的方式显示文件和目录的详细信息。 对于 ls -lsa 和 ls -lst&#xff0c;它们的主要区别在于显示的列和排序方式&#xff1a; ls -lsa: -l: 使用长格式显示文件和目录的详细信息。…

吉时利Keithley2602B数字源表

吉时利Keithley2602B数字源表 2601B、2602B、2604B 系统 Sourcemeter SMU 仪器 2601B、2602B 和 2604B 系统 Sourcemeter SMU 仪器为 40W DC / 200W 脉冲 SMU&#xff0c;支持 10A 脉冲&#xff0c;3A 至 100fA 和 40V 至 100nV DC。它们将精密电源、实际电流源、6 位数字万用…

使用asyncua模块的call_method方法调用OPC UA的Server端方法报错:asyncio.exceptions.TimeoutError

使用asyncua模块的call_method方法调用OPC UA的Server端方法报错&#xff1a;asyncio.exceptions.TimeoutError 报错信息如下&#xff1a; Traceback (most recent call last): asyncio.run(main()) File “D:\miniconda3\envs\py31013\lib\asyncio\runners.py”, line 44, in…

Selenium屏幕截图技巧:实现自动化截屏并按日期时间格式保存图片

在自动化测试过程中&#xff0c;我们经常需要对测试结果进行截图保存&#xff0c;以便于后续的分析和报告。Selenium WebDriver提供了丰富的屏幕截图功能&#xff0c;可以帮助我们轻松实现这一需求。本文将介绍如何使用Selenium WebDriver进行屏幕截图&#xff0c;并按照日期时…

反激开关电源整流桥选型及计算

整流桥的作用就是把输入交流电压整形成直流电压&#xff0c;把正弦波整成馒头波&#xff0c;由于整流管的单向导电 性&#xff0c;在输入电压瞬时值小于滤波电容上电压时整流桥&#xff0c;在这个时候是不导通的&#xff0c;使整流桥的电流变 成2-3ms左右的窄脉冲。为获得所需…

openEuler2203SP1ks自动化安装

需求&#xff1a; 1、legacy启动 2、/boot分区1G&#xff0c;剩余给/ 3、创建root密码和一个普通用户user&#xff0c;密码Hello2024 4、最小化安装&#xff08;选上development、legacy-unix、security-tools、standard&#xff09; 5、关闭firewalld、selinux 6、增加安…

企业级-PDF文件下载

作者&#xff1a;fyupeng 技术专栏&#xff1a;☞ https://github.com/fyupeng 项目地址&#xff1a;☞ https://github.com/fyupeng/rpc-netty-framework 留给读者 一、介绍 文件下载在浏览器可以根据响应头设置纯下载和直接打开两种方式。 二、代码 RequestMapping("/…

【数据结构】选择题

在数据结构中&#xff0c;从逻辑上可以把数据结构分为&#xff08;线性结构和非线性结构&#xff09; 当输入规模为n时&#xff0c;下列算法渐进复杂性中最低的是&#xff08;&#xff09; 时间复杂度 某线性表采用顺序存储结构&#xff0c;每个元素占4个存储单元&#xf…

13.3 Go 性能优化

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

【MAVEN学习 | 第1篇】Maven介绍与安装

文章目录 前言 一. Maven主要作用1.1 依赖管理1.2 项目构建 二. Maven安装和配置2.1 安装2.2 配置环境变量2.3 命令测试2.4 配置文件&#xff08;1&#xff09;依赖本地缓存位置&#xff08;本地仓库位置&#xff09;&#xff08;2&#xff09;配置国内阿里镜像&#xff08;3&a…

[开源软件] CCCoreLib;函数bool Delaunay2dMesh::buildMesh,为什么返回的是false

文章目录 简介问题函数bool Delaunay2dMesh::buildMesh,为什么返回的是false?简介 请参考网址 https://github.com/CloudCompare/CCCoreLib 问题函数bool Delaunay2dMesh::buildMesh,为什么返回的是false? https://ask.csdn.net/questions/8120140 这个问答里提到了一个…

WPS相同字体但是部分文字样式不一样解决办法

如下图&#xff0c;在使用wps编辑文档的时候发现有些电脑的文字字体很奇怪&#xff0c;但是把鼠标移到这个文字的位置&#xff0c;发现它和其他正常文字的字体是一样的&#xff0c;都是仿宋_GB2312 正常电脑的文字如下图所示 打开C:\Windows找到Fonts这个文件夹 把仿宋_GB2312这…

【启明智显产品介绍】工业级HMI芯片Model3芯片详解(二)图像显示

Model3芯片是一款集大容量存储、宽温操作范围及多功能接口于一身的MCU&#xff0c;配备了 2D 图像加速引擎和 PNG 解码/JPEG 编解码引擎&#xff0c;可以满足各类交互设计场景和多媒体互动需求&#xff0c;具有高可靠性、高安全性、高开放度的特点&#xff0c;可以面向于泛工业…