2026年1月14日学习计划

文章目录

  • 本周计划
  • GPT-2 BPE匹配规则

本周计划

  1. 学透BPE算法,动手构建,优化2部分 1 更新算法 2 多线程训练
    为什么去空格
    优化更新函数
    优化多线程计算
    GPT-2 官方实现 https://github.com/openai/gpt-2/blob/master/src/encoder.py
  2. 收尾happy_llm,小批量训练tokenizer
  3. 小参数预训练happy_llm 目标:能够对话 看到loss收敛
  4. 开始minimind的学习,快过预训练,尽快开始SFT和强化学习。
  5. 周三:今天必须开始看李宏毅强化学习课!

GPT-2 BPE匹配规则

importregexasre GPT2_PATTERN=r"""'(?:[sdmt]|ll|ve|re)| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""compiled_pattern=re.compile(GPT2_PATTERN,re.UNICODE)pretokenized=[]forsegmentindoc_segments:ifnotsegment.strip():continuepre_tokens=compiled_pattern.findall(segment)print(f"pretokens:{pre_tokens}")# breakforptinpre_tokens:ifnotpt.strip():continue# byte_seq = tuple(pt) #.encode("utf-8"))# pt = pt.strip()byte_seq=tuple(char.encode("utf-8")forcharinpt)# 此步直接将单词拆分成数字序列pretokenized.append(byte_seq)returnpretokenized

当我打印出来pre_token才发现,每个单词前面都有一个空格 ater’, ’ to’, ’ make’, ’ it’, ’ nice’, ’ and’, ’ bubbly’, ‘.’, ’ He’, ’ relaxed’, ’ again’, ’ and’, ’ felt’, ’ all’, ’ the’, ’ worries’, ’ wash’, ’ away’, ‘.’, ‘\n’, ‘The’, ’ king’, ’ was’, ’ so’, ’ happy’, ’ that’, ’ he’, ’ had’, ’ been’, ’ able’, ’ to’, ’ clean’, ’ up’, ’ the’, ’ mess’, ’ he’, ’ had’, ’ made’, ’ and’, ’ enjoy’, ’ a’, ’ nice’, ’ soak’, ‘.’, ’ He’, ’ dried’, ’ off’, ’ and’, ’ wrapped’, ’ himself’, ’ up’, ’ in’, ’ a’, ’ big’, ’ towel’, ‘.’, ’ Then’, ‘,’, ’ the’, ’ king’, ’ wen这是因为我使用了GPT-2的pattern进行切分的对吗?GPT-2如此做的更深层次原因是什么呢

二、核心优化方向 2:多线程 / 多进程并行(针对独立序列)
你的判断是对的:每个预分词后的序列(如单个单词 / 短语)的合并逻辑完全独立,因此可以并行处理。但注意:
❌ 合并规则(选最高频best_pair)是全局的,必须单线程确定;
✅ 合并best_pair到各序列的过程(_merge_byte_pair)、统计各序列内的字节对频次,均可并行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1160819.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据领域数据标注的行业应用案例分享

大数据时代的数据标注:6大行业真实案例拆解与价值洞察 副标题:从AI训练到业务决策,看标注如何激活“数据石油”的真正价值 摘要/引言 如果说大数据是“未来的石油”,那么数据标注就是“炼油厂”——它把杂乱无章的原始数据&#x…

亲测有效!10款免费降低AI率的工具盘点,让论文有效降低AIGC痕迹,轻松通过检测。

最近很多同学问我,为什么导师一眼就看出来了论文借助AI了呢? 我一看大家的文章,很多句子读起来太机械了,长句子一堆,读起来别扭。别说导师了,连我都能读的出来。 大家又问了:怎么才能避免这些问…

Keil MDK C语言编译器设置:完整示例说明

Keil MDK 编译器配置实战:从调试到性能极致优化在嵌入式开发的世界里,写代码只是第一步。真正决定系统能否稳定运行、响应及时、功耗可控的,往往是那些藏在.uvprojx文件背后的一行行编译选项。你有没有遇到过这样的场景?- 程序明明…

基于UNet的卡通化用户激励体系:分享得积分机制设计

基于UNet的卡通化用户激励体系:分享得积分机制设计 1. 背景与动机 随着AI图像生成技术的普及,个性化人像处理应用在社交、娱乐和内容创作领域展现出巨大潜力。基于UNet架构的cv_unet_person-image-cartoon模型(由阿里达摩院ModelScope提供&…

FRCRN语音降噪参数详解:推理脚本配置最佳实践

FRCRN语音降噪参数详解:推理脚本配置最佳实践 1. 技术背景与应用场景 随着智能语音设备在消费电子、车载系统和远程会议等场景中的广泛应用,单通道麦克风在复杂噪声环境下的语音质量成为影响用户体验的关键因素。FRCRN(Full-Resolution Com…

不用额外缓存!英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍

联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了TTT-E2E方法。提高大模型记忆这块儿,美国大模型开源王者——英伟达也出招了。联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了TTT-E2E方法。在128K超长文本上…

2026实测推荐:10大免费降AI工具全测评,轻松应对AI检测与论文降AI需求!

央视新闻说到了“大学生论文里的AI味渐浓”这件事。 现实就是这样。结课论文要查AI率,毕业论文也查,就连平时作业都逃不掉,AI率太高直接不过。每次查AICG出来结果的那一刻,简直是大学生崩溃的瞬间。 看着满屏幕的标红&#xff0…

Qwen2.5-0.5B-Instruct供应链优化:需求预测AI系统实战

Qwen2.5-0.5B-Instruct供应链优化:需求预测AI系统实战 1. 引言:轻量大模型在供应链场景的落地契机 随着企业对实时决策和边缘智能的需求日益增长,传统依赖云端大模型的AI系统面临延迟高、成本大、数据隐私暴露等挑战。尤其在供应链管理领域…

【RabbitMQ】消息确认机制 持久化 发布确认机制

文章目录Ⅰ. 消息确认一、消息确认机制二、手动确认方法① 肯定确认② 否定确认③ 否定确认三、代码示例Ⅱ. 持久性一、交换机持久化二、队列持久化三、消息持久化Ⅲ. 发布确认机制一、confirm确认模式二、return退回模式三、常见面试题💥 -- 如何保证 RabbitMQ 消息…

降AI工具哪家强?2026年最新免费平台盘点,这10款高效好用别错过!

央视新闻说到了“大学生论文里的AI味渐浓”这件事。 现实就是这样。结课论文要查AI率,毕业论文也查,就连平时作业都逃不掉,AI率太高直接不过。每次查AICG出来结果的那一刻,简直是大学生崩溃的瞬间。 看着满屏幕的标红&#xff0…

麦橘超然Flux能否替代Stable Diffusion?对比分析

麦橘超然Flux能否替代Stable Diffusion?对比分析 1. 技术背景与选型动因 近年来,AI图像生成技术迅速演进,从早期的GAN架构到如今主流的扩散模型(Diffusion Models),生成质量不断提升。Stable Diffusion 自…

DeepSeek-V4蓄势待发!梁文锋署名论文或开启第二个DeepSeek时刻

据权威媒体The Information报道,DeepSeek将于2月(春节)发布新一代旗舰模型DeepSeek V4,该模型具备强大的编程能力,预计将对当前的AI竞争格局产生重大影响。元旦前一天,DeepSeek发了篇梁文锋署名论文&#x…

制造业企业如何构建高效数据采集系统:从挑战到实践

在当今竞争激烈的全球市场中,制造业企业正面临着前所未有的压力。产品生命周期缩短、客户需求日益个性化、供应链波动加剧,这些因素共同推动着企业向智能化、数字化方向转型。然而,许多制造企业在数字化转型的起步阶段就遇到了巨大障碍——数…

免费降AI工具精选:2026年10大平台横向评测,教你高效降低AI率!

央视新闻说到了“大学生论文里的AI味渐浓”这件事。 现实就是这样。结课论文要查AI率,毕业论文也查,就连平时作业都逃不掉,AI率太高直接不过。每次查AICG出来结果的那一刻,简直是大学生崩溃的瞬间。 看着满屏幕的标红&#xff0…

1.什么是电子签名?

📝 Java实现PDF在线盖章签字和签名 | 解锁文档处理新姿势 🚀 大家好呀~✨ 我是雪碧聊技术,今天给大家带来一篇超实用的技术干货!🌟 如果你正在为 PDF文档的电子签名 而烦恼,或者想在自己的项目中…

2026年免费降AI神器盘点:10款工具亲测对比,轻松应对各类AI检测系统!

央视新闻说到了“大学生论文里的AI味渐浓”这件事。 现实就是这样。结课论文要查AI率,毕业论文也查,就连平时作业都逃不掉,AI率太高直接不过。每次查AICG出来结果的那一刻,简直是大学生崩溃的瞬间。 看着满屏幕的标红&#xff0…

Claude自己写出Claude!2小时干完两月活,人类在工位上多余了?

Claude Cowork的横空出世,不仅是用10天自建系统的技术奇迹,更是对人类职业价值的一次残酷拷问:当AI两小时能干完两个月的工作,我们是该庆幸解放,还是该恐惧被替代? 打工人版Claude重磅出世,给全…

VSCode函数级开发与代码审计——核心操作全解析与落地实践

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

Qwen模型快速选型指南:3小时试遍主流方案不超30元

Qwen模型快速选型指南:3小时试遍主流方案不超30元 你是不是也遇到过这样的情况:团队要上AI项目,领导让你尽快选出最适合的Qwen系列模型,但你一查发现——Qwen-7B、Qwen-Long、Qwen-Image、Qwen-Image-Edit……名字一堆&#xff0…

企业级开发环境中STM32CubeMX下载安装标准化流程

企业级开发中如何“无痛”落地 STM32CubeMX:从安装到团队协同的实战指南你有没有遇到过这样的场景?新同事入职第三天还在折腾开发环境,最后发现是因为他用的 STM32CubeMX 版本比团队高了半个小版本,生成的时钟配置代码直接让主控跑…