魔改sunpinyin

news/2025/10/27 19:26:50/文章来源:https://www.cnblogs.com/funwithwords/p/19169934

apt source libsunpinyin3v5 到当前目录下。

src/sunpinyin-dictgen是个有shebang的Makefile:

#!/usr/bin/make -f
W3M = wget -q -O -
DL_LIST = https://sourceforge.net/projects/open-gram/files/
DL_HOST = https://jaist.dl.sourceforge.net
DL_ROOT = ${DL_HOST}/open-gram
DICT_PAT = 'dict\.utf8-[0-9]\+.tar.bz2'
SLM_PAT = 'lm_sc\.3gm\.arpa-[0-9]\+.tar.bz2'
DICT_AR = $(shell ${W3M} ${DL_LIST} | grep -o ${DICT_PAT} | sort -u | tail -n 1)

光腚make为了求变量DICT_AR的值也要联网,虽然比Android Studio快得多,我还是不喜欢。

此版本下载dict.utf8就够了。

写个小烂Python程序可从dict.utf8提取单字,得到如下文件:

<unknown> 0
<unknown_cn> 2
<amigu> 9
<stok> 10
<Digit> 20
<Simbol> 21
<NONEWORD_ALLWORD> 69
, 70
。 71
; 72
? 73
! 74
: 75
“ 76
” 77
、 78
… 79
㐀 100 qiu
...
袏 26753 zuo
阼 26754 zuo
View Code

注意调整ID连续。while 1: input(),用<输入,split(), ' '.join(fields)...

语料用的《锦医卫》。

$ mmseg -d dict.utf8 corpus >ids

$ ids2ngram -n 3 -s /dev/shm/tswap -o 3gram -p 1024000 ids # 用内存盘

$ slmbuild -l -n 3 -o all.slm -w 26700 -c 0,3,2 -d GT,8,0.9995 -d ABS -d ABS -b 10,11,12 -e 9 3gram

照抄光腚slmbuild的Example改了下文件名。

$ slmthread all.slm lm_sc.t3g

这步是必须的,因为它要浮点转整数等,online部分不接受all.slm,虽然不crash,但候选字的顺序都乱了。

Compressing pr values...13530 float values ==> 13530 values
Compressing bow values...17422 float values ==> 16384 values
Threading the new model...slmthread: src/slm/thread/slmthread.cpp:383: int main(int, char**): Assertion `bowit != bow_map.end()' failed.
已放弃

不到最后关头,绝不轻言放弃。改程序。:-)

// assert(bowit != bow_map.end());
if (bowit == bow_map.end()) {cerr << "val=" << val << endl;for (bowit = bow_map.begin(); bowit != bow_map.end(); ++bowit)if (fabs(bowit->first - val) < 1e4) break;assert(bowit != bow_map.end());
}

map<float, int>里差不到。作者预见了,注释里有// precision error,但没预见到我们这种情况。cerr...后代码为新增。没几个,一点不满。

slmprune不是必须的,我们的模型小。

$ genpyt -i dict.utf8 -o pydict_sc.bin -l log -s all.slm -e le

$ genpyt -i dict.utf -o pydict_sc.bin -l log -s all.slm -e le
Opening language model...done!
Writing out...done!
Printing the lexicon out to log_file...段错误

啊啊啊!最后一步啦!!原来是字典文件名输入错了。输入错LM文件名则:

Opening language model...open al.slm: 没有那个文件或目录error!

然后换数据文件。部分NLPer可能对Linux系统不太熟,su后ln - s建个符号链接吧:data -> /usr/lib/x86_64-linux-gnu/sunpinyin/data/

不然敲的太烦了。自然先备份原先的,不过就算坏了,apt reinstall --fcitx-sunpinyin既可。

语料其实是head -n 10000的前这么些行,1.7MB. 模型:915K lm_sc.t3g 449K pydict_sc.bin

虽然是字,但可是tri-gram啊。张紫萱、葛哨官……都有啊!


 

本帖使用上述小模型和用户辞典输入。〔链接1〕〔链接2〕〔链接3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/948029.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

20232308 2025-2026-1 《网络与系统攻防技术》实验三实验报告

1.实验内容 1.1 实践内容 (1)正确使用msf编码器,veil-evasion,自己利用shellcode编程等免杀工具或技巧正确使用msf编码器,使用msfvenom生成如jar之类的其他文件 veil,加壳工具 使用C + shellcode编程 (2)通过组合应…

「WC2014-紫荆花之恋」题解

题解记录P3920 [WC2014] 紫荆花之恋 sol 首先如果不带修的话就是点分治板子,带修的话就是动态点分树板子。 由于写过一篇动态点分树的博客,这里就对动态点分树部分不详细讲解了,主要讲一下信息维护吧。不会的话可以…

2025.10.27C 城堡考古 题解

有同学让我造福人类,所以来写一篇。考虑显然没有什么通项公式可以利用的,但是注意到 \(m\) 仅仅只有小小的 \(6\),考虑状压 \(dp\) 的思路。设 \(dp_{i,j}\) 表示当前已经排了 \(i\) 列,状态为 \(j\) 的方案数,其…

【密码学实战】openHiTLS PKCS12命令行程序: PKCS12文件生成与解析

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

[xp] GVim v9.0.494 (or thereabouts) is the last version known to support Windows XP.

下载地址:https://github.com/vim/vim-win32-installer/releases/tag/v9.0.0494If you need the last version of GVim (the GUI build of Vim) that officially supports Windows XP, here’s what I found — and s…

线段树;区间求和优化

线段树;区间求和优化线段树构造: 线段树:4*空间 第一种: #define maxn 100007//元素个数 int SegTree[maxn << 2];//线段树 // int lazy[maxn << 2];//延迟更新 int A[maxn];//原是数组第二种:结构体…

实用指南:2.CSS3.(2).html

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

「CTSC2017-游戏」题解

题解记录P3772 [CTSC2017] 游戏 sol 首先,由期望的线性性,把贡献拆到单点上,对每一场计算其胜利的概率即可。 首先已知的局可以不管,未知的局,显然只与其两侧最近的已知局有关。后面运用的一些概率表达在题面最下…

谢谢你周医生

谢谢你 周敏,张景     南京很美,想起你们我的心也很温暖

想让默认头像不再千篇一律,就顺手复刻了一下 GitHub 的思路

探索如何让默认头像不再千篇一律,我用 Go 复刻了 GitHub 风格的头像生成逻辑,根据输入生成独一无二的方块头像。文章分享了实现原理、效果展示以及未来扩展的思路在各种平台上,初始注册的用户通常都会被分配一个默认…

来源未知

点击查看代码 from PIL import Image# 定义字符集合 ascii_char = list("$@B%8&W#*oahkbdpqwmZO0QLCJYXzcvunxrjft/\|()1{}[]?-_+~<>i!lI;:,\"^`. ")def get_char(r, g, b, alpha=256):if a…

10.27(补)

继承和多态的动手动脑整理的word补上 链接:[https://files.cnblogs.com/files/blogs/847692/20243732张博学课后作业4.zip?t=1761562926&download=true]

vue3 vue3-form-element表单生成工具 输入框增加后缀

JSON schema数据{"title": "测试注册表单","description": "A simple form example.","type": "object","properties": {"firstName&quo…

java(3)基础规范

Java对大小写敏感。 关键字class的意思是类。JAVA是面向对象的语言,所有代码必须位于类里面。 编译后的源文件,得到相应的字节码文件,编译器为每个类生成独立的字节码文件。 main方法是JAVA应用程序的入口方法。格式…

袁天罡称骨歌的评骨格歌诀 - 木易

二两一钱:男:此命非业谓大凶,平生灾难事叠重,凶祸频临陷逆境,终世困苦事不成。女:生身此命运不通,乌云盖月黑朦胧,莫向故园载花木,可来幽地种青松。二两二:男:此命推来真气人,身寒骨冷若伶仃,劳劳碌碌虚度…

stm32F411RETx系列无CAN的处理思路

CAN 考虑到STM32F411RETX系列根本没有CAN,这该怎么办呢? 我在网上搜索到了一个解决方法: 使用一个独立的 CAN控制器芯片(如 MCP2515,这是最常用的选择),通过 SPI接口与 STM32通信。STM32 作为主机,通过 SPI协议…

Date 10.27

在 Print 之前 到现在还是想不明白为什么不骗那显眼的 80pts。 赛时 420/500pts,T5放了道紫。 A - 玩数字P.S. \(n \le 10^{15}\) 唐题,可以 \(O(\sqrt n)\) 解决,中间进行数位分离即可,当然你也可以打表。 Code #…

20232402 2025-2026-1 《网络与系统攻防技术》实验三实验报告

1.实验内容 1.1 基础免杀技术测试​ (1)msfvenom 编码器免杀: 生成未编码与多次编码的反向连接恶意程序,分别复制到靶机,对比杀软拦截情况,验证编码器对特征码的混淆效果;​ (2)Veil 工具免杀: 通过 Veil 生…

读书日记3

6到10章深入探讨了编程中最基础的元素——变量和数据类型,让我看到了平凡中的非凡。 核心收获与深刻见解: 1.变量命名的艺术性:McConnell详细阐述了优秀变量名的特征——表达"什么"而不是"如何"…

2025年多商户商城代理招募加盟/多商户项目合伙人加盟最新推荐榜:多商户兼职项目合伙人/B2B2C商城代理招募公司/聚焦项目孵化与商户扶持能力深度解析

随着大众创业热潮持续升温,以及数字化商业模式的快速迭代,创业者在选择项目合作方时常常面临多重考量 —— 如何辨别企业项目的可行性、如何匹配自身资源的合作模式、如何降低创业初期的运营风险,成为当下创业者关注…