为啥slmbuild的cutoff不能设得很大

为啥slmbuild的cutoff不能设得很大

news/2025/11/2 18:16:14/文章来源:https://www.cnblogs.com/funwithwords/p/19185218

为啥slmbuild的cutoff不能设得很大

在sim_slmbuilder.cpp的CSlmBuilder::AddNGram里：

if (fr > cut[nlevel]) {TLeafLevel& v = *(TLeafLevel*)(level[nlevel]);v.push_back(TLeaf(ngram[nlevel - 1], fr));
} else {nr[nlevel][0] += fr;nr[nlevel][fr] += fr;
}

相关代码：

FREQ_TYPE(*nr)[SLM_MAX_R]; //nr[1][SLM_MAX_R] is for 1-gram...
typedef unsigned int FREQ_TYPE;
typedef CSIMSlm::FREQ_TYPE FREQ_TYPE;
static const int SLM_MAX_R = 16;
nr = new FREQ_TYPE[n + 1][SLM_MAX_R];还有：
typedef unsigned int TWCHAR;
typedef TWCHAR TSIMWordId;

先别急着训练。

mmseg用fgetwc()读文件。getwc是fgetwc的宏版，应该更快。setvbuf也能加快读取速度。

字的n-gram，token ID不超过65536，可以输出uint_16而不是uint_32.

mmseg输出到stdout，用管道送给ids2ngram可取消中间文件。文件名为-时代表输出到stdout和从stdin读是标准做法。

所有的程序都没有开-O，-O2总该试一试吧。

比如语料是五个句号。。。。。。的token id是71 (0x47). mmseg把每行看作一个句子，在最前和最后面插入了<stok>，其id为10 (0x0a)

mmseg再id2ngram后，得到一串uint_32，下面只显示它的最低字节并换了行：

0a 47 47 01
47 47 0a 01
47 47 47 03

01 02 03是频次。

slminfo可以把语言模型以文本文件模式导出。"thread"好像是sunpinyin独有的说法。tslminfo处理被slmthread加工过了的。

省事的方法是重新训练，瞎鼓捣已有的语言模型，动不动触发assert.

1.6GB的百科问答，8G内存的电脑的内存盘，就带不动了（尚未试验mmseg | ids2ngram).

上次的wiki_zh，是分目录处理再merge的，百科问答是一个大文件，wiki_zh是[a..m]×99个文件。

Linux命令行可以很长，wiki_zh/a/* 一句话搞定。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/953725.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

团队项目1-团队展示选题-图书管理系统

团队项目1-团队展示选题-图书管理系统

项目信息-图书管理系统项目内容所属课程 https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience作业要求 https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience/homework/13471作业目标…

阅读更多...

第二天，学习部分快捷键位（重点加粗）

第二天，学习部分快捷键位（重点加粗）

快捷键位复制 ctrl+C 粘贴 ctrl+V 全选 ctrl+A 剪切 ctrl+X 撤销 ctrl+Z 保存 ctrl+S 关闭 alt+F4 永久删除 shift+delete 打开命令窗口 win+R 打开任务管理器 ctrl+shift+Esc 切换屏幕 win+Tap

阅读更多...

windows terminal 配置文件

windows terminal 配置文件

{"$help": "https://aka.ms/terminal-documentation","$schema": "https://aka.ms/terminal-profiles-schema","actions": [],"copyFormatting": "…

阅读更多...

第二章算法作业

第二章算法作业

第二章算法作业1.请用自然语言或伪代码描述找第k小的数的分治算法：代码： include // 划分函数，根据a[left]对a[left..right]进行划分 int partition(int a[], int left, int right) { int pivot = a[left]; // 选…

阅读更多...

Linux模板机优化实操

Linux模板机优化实操

Kylin与Ubuntu系统的模板机优化防火墙，selinux防火墙关闭点击查看代码 systemctl stop firewalld systemctl disable firewalld#ubuntu系统 systemctl disable ufw systemctl stop ufw防火墙检查点击查看代码…

阅读更多...

渗透知识靶场实战

渗透知识靶场实战

渗透知识靶场实战BupLoaderKeygen和 DVWA 的下载地址:1)Github 下载地址https://github.com/h3110w0r1d-y/BurpLoaderKeygen2)网盘下载地址:https://panbaiducom/s/1XTu6riBMf0lfFOhbXdHzlQ?pwd=9999靶机的 VMware 虚…

阅读更多...

第179-180天：横向移动篇入口切换SMB共享WMI管道DCOM组件Impacket套件CS插件

第179-180天：横向移动篇入口切换SMB共享WMI管道DCOM组件Impacket套件CS插件

学习的目的 windows 2012以上默认关闭了Wdigest，所以攻击者无法通过内存获取到明文密码为了针对以上情况所以有四种方法解决： 1.利用（PTH,PTK）等进行移动不需要明文 2.利用其他服务协议（SMB/WMI等进行哈希移动）…

阅读更多...

游记 CSP-S2025

游记 CSP-S2025

CSP-S 2025 广州市第六中学海珠校区 2025.11.1游记 CSP-S 2025 初赛初赛太难了，没有满分。感觉出题人已经换了几次了，这次的题目显然有歧义或漏洞，选手要猜测出题人的想法，这一点也不好，例如我错的那道题就是这样…

阅读更多...

VRP基本配置命令

VRP基本配置命令

1. 远程配置system-view # 系统视图 sysname AR1 # 重命名设备 interface G... 0/0/1 # 配置接口 ip address 192.168.1.1 24 # 设置ipuser-interface vty 0 4 # 允许同时5个人可以进入调试本台设备。5个窗口 au…

阅读更多...

2025 年 11 月 CBN 砂轮厂家最新推荐：结合剂迭代 + 精度优化，高耐用产品选购指南

2025 年 11 月 CBN 砂轮厂家最新推荐：结合剂迭代 + 精度优化，高耐用产品选购指南

工业磨削领域对 CBN 砂轮的耐用性与适配性需求日益严苛，结合剂性能与加工精度成为核心考量指标。本次推荐依托行业权威协会 2025 年度专项测评结果，测评覆盖 40 余家源头厂家，采用 “四维十二项” 量化评估法 —— …

阅读更多...

Newton迭代法-----牛顿迭代法求解高次方函数的近似根

Newton迭代法-----牛顿迭代法求解高次方函数的近似根

Newton迭代法-----牛顿迭代法求解高次方函数的近似根牛顿迭代法是一种通过不断用函数切线逼近根的数值方法，核心优势是收敛速度快，常用于求解方程 f(x)=0 的实根，但对初始值选择有要求。一、基本原理：从几何角度理…

阅读更多...

2025 年 11 月 CBN 砂轮厂家最新推荐：磨料优化 + 工艺升级，高适配产品选购指南

2025 年 11 月 CBN 砂轮厂家最新推荐：磨料优化 + 工艺升级，高适配产品选购指南

当前工业磨削领域对 CBN 砂轮的性能要求持续提升，磨料纯度、工艺精度直接影响加工效率与成品质量。本次推荐基于行业权威协会最新测评数据，测评覆盖 30 余家源头厂家，通过 “三维九项” 评估体系筛选 —— 从技术维…

阅读更多...

解码LVGL样式

解码LVGL样式

LVGL 样式系统：核心组成与特性样式是控制控件外观（颜色、圆角、字体等）的核心机制，其设计围绕 “部件针对性控制”“状态动态切换” 和 “高效复用管理” 三大原则展开。样式核心组成样式部件（Part）：控件的 …

阅读更多...

2025 年 11 月 CBN 砂轮厂家最新推荐：磨粒精筛 + 工艺焕新，高稳定产品选购指南

2025 年 11 月 CBN 砂轮厂家最新推荐：磨粒精筛 + 工艺焕新，高稳定产品选购指南

工业磨削作业对 CBN 砂轮的稳定性与磨削效率要求不断提高，磨粒纯度与生产工艺成为关键影响因素。本次推荐基于行业权威协会 2025 年第三季度专项测评结果，测评覆盖 50 余家源头厂家，采用 “三维十项” 科学评估体系…

阅读更多...

设备调试基础实验

设备调试基础实验

ping -6 www.baidu.com # 使用ipv6平百度华为路由器： pwd # flash:/ 根目录 dir # 等于ls mkdir # 创建文件夹 rmdir # 删除文件夹 rename 文件名新文件名 # 修改文件名 copy 文件文件 # 复制文件 move # 移…

阅读更多...

20231302邱之钊密码系统设计实验二一

20231302邱之钊密码系统设计实验二一

《密码系统设计》实验二在 Ubuntu或openEuler中（推荐 openEuler）中调试运⾏商⽤密码检测中⼼https://www.scctc.org.cn/xzzx/sfydm/ydmxz/提供的源代码，⾄少运⾏SM2，SM3，SM4代码。使⽤GmSSL命令验证你代码的正确…

阅读更多...

2025 年 11 月运动木地板厂家最新推荐，成分精纯与效能升级！—— 产能、专利、环保三维数据透视

2025 年 11 月运动木地板厂家最新推荐，成分精纯与效能升级！—— 产能、专利、环保三维数据透视

体育场馆建设对运动木地板的成分精纯度与综合效能要求不断提高，市场上部分产品存在原材杂质多、环保不达标等问题，影响使用安全与场馆寿命。为筛选优质品牌，本次推荐从产能、专利、环保三维度开展测评。产能维度核查…

阅读更多...

2025 年 11 月运动木地板厂家最新推荐，配方精研与效能焕新！—— 实力品牌深度解析采购无忧之选！

2025 年 11 月运动木地板厂家最新推荐，配方精研与效能焕新！—— 实力品牌深度解析采购无忧之选！

运动木地板的配方设计与效能表现，直接决定体育场馆的使用体验与安全系数。当前市场部分品牌存在木材配方不合理、性能参数不达标等问题，增加采购风险。为挖掘实力品牌，本次测评从品牌实力核心维度开展：核查品牌成立…

阅读更多...

2025 年 11 月运动木地板厂家最新推荐，成分焕新与效能强化！—— 精准检测与稳定性能深度解析

2025 年 11 月运动木地板厂家最新推荐，成分焕新与效能强化！—— 精准检测与稳定性能深度解析

当下体育场馆对运动木地板的成分品质与性能稳定性要求持续提升，市场中部分产品存在木材纤维结构松散、减震效能衰减等问题，给运动安全与场馆运营带来隐患。为筛选优质品牌，本次推荐联合专业检测机构，依据国际运动地…

阅读更多...

【软考】信安中级密码学专题

【软考】信安中级密码学专题

针对信安中级里，密码学相关案例题的知识点和真题密码学的三大目标 ‌Confidentiality 机密性（保密性）：确保信息未经非授权的访问，避免信息泄露。 Integrity 完整性：防止信息非法的修改和毁坏，…

阅读更多...

最新文章