小白必看:零花销开启微调模型之旅

news/2025/12/7 18:20:58/文章来源:https://www.cnblogs.com/guoxiaoyu/p/19101207

今天我特地花时间全流程熟悉了一下魔搭社区,很多人都说它是国内版的 Hugging Face,想跟大家分享一下我的一些总体感受。首先,的确像大家说的那样,它提供了很多免费的额度。比如,CPU 机器是完全免费的,而且没有时长限制;GPU 机器的免费时长是 36 小时,我注册得比较早,看到现在新用户是 100 小时。其实当初我注册的时候挺犹豫的,因为完全没接触过这个领域,怕搞不懂。但现在看来,总体体验还是挺不错的。

不过,毕竟它是一个偏向开发者的社区类型,遇到报错什么的,有时候真的很难快速找到解决办法。今天我在操作过程中就遇到了好几个问题,几乎都是自己摸索着解决的,找不到人帮忙。而且,社区里面的相关文章也比较少,几乎没法直接找到很有用的资料。唯一能依赖的就是提 issue,虽然感觉这不是最快的解决方案。

我之前按照 GitHub 上的教程,用代码微调了下 Qwen-7B,虽然效果是有出来的,但中间的流程我完全搞不懂,尤其是那些一堆密密麻麻的参数,真的是看得头大。后来发现魔搭提供了一个叫哥Swift的轻量级框架,它有可视化界面,这才让我有了兴趣去试一试。整体来说,用起来确实挺方便的,我根本不用去管那些复杂的参数设置,就算偶尔想调一下,也只是点点页面上的选项就行了。毕竟我是个小白,能有个简单直观的工具帮我入门,感觉挺适合像我这种初学者的。

f2fdd2e46fbf88ed74da05c72c8b6133

好的,废话不多说,今天我就带大家一起看看,怎么利用魔搭社区零花销快速训练和微调一个模型,然后发布到社区里,让其他人也能用到它。

创建实例

魔搭社区的网址是:https://www.modelscope.cn。

对于还不太熟悉的小伙伴们,建议可以先去社区里逛一逛,了解一下它都提供了哪些功能。其实我们最常用的两个功能就是模型库和数据集,当然啦,如果能用到免费的机器那就更好了,要不然还得自己去租台机器来用。

逛完之后,我在模型库里找到了一个下载量超高的模型——qwen-32b。为了不花钱、先熟悉一下操作,我决定先看看它能不能直接部署在机器上。然后,我选择了CPU环境来部署,因为GPU环境的使用时长是有限制的。你们可以参考下图:

23a12e9faf9e7a6bad33afdd2538c3fc

CPU实例

试水Qwen3-32B

进去之后,你会看到一个跟常见的 VS Code 很像的编辑器,界面挺熟悉的。不同的是,它还会显示当前机器的一些配置信息,比如 CPU、GPU、存储空间等,方便你随时了解系统的资源状态。

c7bb2be0957887ef86b4059adb871167

里面啥也没有,只有一个我当时选的模型——Qwen3-32B的入门notebook。这个notebook挺基础的,内容都比较简单,但是也很友好,特别适合刚开始接触的朋友。

629751b01a40641d0eb383c023c0f83b

我找到了一个代码片段,先不管啥,直接跑了一下,结果一上来就报错了。原来是它试图从 Hugging Face 社区下载模型,但因为网络问题没法连上。我去他们的问答区查了一下,简单修改了几下,像图中这样:

e3a4fe5a9a23181fec8a2fb8040468b7

他现在可以直接从国内的魔搭社区下载了。等了好一阵,结果没想到32B模型竟然占了几十个G的存储,直接就把一半硬盘空间给占满了。如果还要调试什么的,100G的存储基本就不够用了。

927cccfc57b93101d9a4fc39921ea101

因为下载的时间实在是太长了,我就先放那儿不管了。结果过了大概一个小时,实例就直接被关掉了,真是尴尬。赶紧搜了一下,发现首页有个入口可以重新启动实例环境,赶紧点开启动了。

7747713b10e42ad66eb1637760a85e82

启动之后,页面上会出现一个“查看notebook”按钮,但不要急着点那个按钮哦。因为浏览器有时候可能会显示一个“no health upstream”的错误提示,我之前就碰到过。这个问题其实不用担心,只要稍微等一下就好。等了一会儿之后,页面就正常加载了,最后确认我们的模型确实已经成功下载了。

SWIFT可视化操作

因为我当时的目标很明确,就是简单地训练模型并发布它,毕竟这是我第一个要跑通的案例。所以,我就按照官方文档一步步操作。翻了一下文档后,发现有个叫SWIFT的框架,看起来很合适,而且界面超级友好,一看就能上手。

于是,我直接在终端控制台里输入了下面两条命令,快速启动。

pip install 'ms-swift'

swift web-ui --lang zh

对了,有一点很重要,启动CPU实例和GPU实例其实没有太大区别,机器里的内容是完全一样的。所以你不用担心它们之间不能互通的问题。如果某些操作只需要CPU就能搞定,那就启动CPU实例就好;但如果你需要进行一些更复杂的训练,想要用到GPU加速,那就再启动GPU实例。

简单来说,根据需求切换就行,完全不用担心其他的。

c6ad74e22bf7e9a24f03b86e12cf666c

命令执行完毕之后,如果启动时没有提醒你去打开浏览器页面,没关系,你可以去‘port’标签下找一下 Swift 的端口,直接点击那个地址就能进入浏览器查看了。

ccd205cc04be2d0ebf11058837a82c96

你一打开就会看到一个简洁明了的首页界面,如图所示:

66858d968e52833da4753956d2886892

因为我知道32B模型训练起来可能会挺耗时间和计算资源的,所以我就直接选择了8B的相对小一些的模型,先试试效果如何。直接选择就行了,像图中这样操作就可以了:

f5bc5f3731f69584e687f007c754513b

页面一报错,我本来想看个具体信息,结果什么都没显示。于是我就直接切回notebook后台看了看。如图所示:

4ef3c73475ee84b2a13f798d069aa0af

我也在页面上看到了这个参数。大概理解是,因为我没有GPU,所以CPU不能使用bf16这个功能吧。

d6c693789229ffbe8b7190dfc8ccc0c3

我就改成了float16.结果还是报错:

ImportError: FlashAttention2 has been toggled on, but it cannot be used due to the following error: the package flash_attn seems to be not installed. Please refer to the documentation of https://huggingface.co/docs/transformers/perf_infer_gpu_one#flashattention-2 to install Flash Attention 2.

GPU实例

好嘛,既然都知道是怎么回事了,我干脆放弃用CPU,直接切换到GPU启动。反正也没啥大不了的。不过,启动之前还是得先授权一下,如图所示:

acd49992631b7f95d666caa170f94100

注意啊,其实我们不需要一步一步全做完。这里面显示了三步,但第三步其实是收费的步骤,我们并不需要去创建那个实例。说实话,那不是我们需要的东西,而且一小时大概要10块钱左右,所以不用去做。

13683976cd7fb0949fbf9c61c1c9d680

好的,那我们接着来说一下魔搭平台的免费实例。你可以直接选择一个GPU环境的实例,操作非常简单,选好后就可以直接启动了。这样你就可以开始使用了,十分方便。

76c27a913eaa3f3f6e3b3e4cfcd7cd4a

模型训练

你看,虽然启动方式不太一样,但我们内部的应用信息都还是保留着的,命令一打就能直接启动,因为Swift已经在我们的CPU环境中安装好了。

0b2d4ce82a61cc5229c6e9c37feb000c

启动之后,我直接就开始训练了。我用的是文档里提供的数据集(链接:https://modelscope.cn/datasets/swift/self-cognition)

直接在数据集选项框里复制粘贴进去就行,选不到的话也不用担心,系统会自动帮你下载好。训练过程中,你也能随时在页面上查看相关的训练记录。我这里的过程非常顺利,没有遇到任何报错。

b070cfa1616d3fca0b02ca403d3c1c85

训练成功后,模型会自动生成在 output 目录下。我们接下来只需要复制一下 checkpoint 这个目录的路径,因为稍后我们会用到它。具体操作可以参考下图:

a24162dddcfc581eced7f51e5f447189

模型推理

因为我们的训练已经完成了,所以接下来直接去LLM推理那一页,找到“model”参数输入框。在这里,我们不需要选什么现成的模型,而是直接把刚刚训练好的checkpoint粘贴进去就行了。具体操作可以参考下面的图示。

output/Qwen3-8B/v1-20250918-223553/checkpoint-21

4b697c71f8f98fe25b20bd3d8d2a9bbd

部署模型

然后我们需要先部署才能对话。稍等片刻,如图所示:

e5b67c5a86eef2b2fa479867c001bf3e

在这个时候,页面上也会显示部署的状态日志。如果你发现页面的 WebUI 没有显示任何运行日志,不用担心,我也遇到过这种情况。其实日志会在 output 中生成,像图中展示的那样。

db7b9c7cb83aafe34284bdef520a014e

双击后,就能看到实时日志了,不用刷新文件,他会自动刷新。

9380e24948ee42964ed19b9791ec5ab3

在正常情况下,部署完成后,这里会显示绑定8000端口成功。也就是说,我们就可以开始进行模型对话了

a1868ec73759950029cec073833434bb

topk:invalid value

有时候呢,你在选完模型之后,界面会自动把某些参数给转换成float类型,就像我遇到的情况一样。表面上看界面一点问题都没有,也不会报错,感觉一切都挺正常的。可等你真正去部署的时候,才发现跑不起来,然后才报错,特别尴尬。下面就是我遇到的具体情况,给你参考一下。

6f0668f688d8d6506c05f862a13993d8

自己去改一下就行,去掉小数点,再去点击部署就没毛病了。

5cd16df8d2adde115a66d33b0004a8b5

对话

部署成功后,我们直接在最下方与微调后的模型进行对话。

2fd94a22fa8b31dd2316237051f89733

TypeError

果不其然还是报错了。我去后台看了下是数值问题。

TypeError: '<' not supported between instances of 'str' and 'float'

这种问题不好找,我直接去我使用的模型库里提了一个issue,如图示:

62ca1ac600b8bdaa3f8315fd63bfcfa8

当然,这种问题反馈的进度通常会特别慢,可能要等很久才能有结果。所以我干脆自己先去搞定了。毕竟,Web-IDE界面里有个通义千问助手,我就直接去问它怎么解决这个问题。

2399e13cca2ef8383d3013886b11680c

行,让我去改代码,我一点击那个位置,发现真的能编辑,确实是能操作。然后我就按照助手说的步骤试了一下,感觉挺顺利的。

7deb2171a7a5ed61d716d9a5a9aa4fff

我重启了一下 Swift,然后再次进入对话界面,终于成功了。其实中间试过了好多方法,只有这个有效。希望这个方法能帮到你!

1c34221180bcc66f7b9f8e5ff9ffaeed

最后一对话,这啥啊这是,我是不是训练的数据集出了问题?赶紧去看了一下数据预览,结果果然是这样。那就不是什么大问题了,以后选个更靠谱的数据集就行了。这个数据集其实还挺不错的,至少提供了可以替换的变量值,只是我之前没提前注意到。以后得多留意一下这些细节。

7a92ae3e399ba9f6d689fe6f8f4b2b5e

模型导出

类似的操作,首先选择“LLM导出”这个标签页,然后把我们刚才复制的 checkpoint 粘贴进去,再加上输出目录就可以了。

4dd6cbb511b12c0e66add2b716a058a2

稍等片刻后,我们的模型就导出成功了。如图所示:

266a0ffa8ec04824416cacca0bd34800

不过他好像没能导出到魔搭社区,估计是页面不支持这个功能。看起来我们只能通过命令行来操作了。官方提供的方式是这样的:

swift export
--model output/Qwen3-8B/v1-20250918-223553/checkpoint-21
--push_to_hub true
--hub_model_id ''
--hub_token ''
--use_hf false

申请token

这里其他的都没问题,不过token需要我们单独申请一下,去首页就能看到,如图所示:

8ff7c5bc3955a502b09adb1d1c9eaf8e

ValueError: Please set --model <model_id_or_path>`, model: None

执行后,果然还是报错了。

Please set --model <model_id_or_path>`, model: None

ValueError: Please set --model <model_id_or_path>`, model: None
bash: --model: 未找到命令
bash: --push_to_hub: 未找到命令
bash: --hub_model_id: 未找到命令
bash: --hub_token: 未找到命令
bash: --use_hf: 未找到命令

找到了github的issue:https://github.com/modelscope/ms-swift/issues/2770,说是版本问题,最后发现我的版本挺高的,我通过报错看出来,他应该是没识别换行符。那我直接弄成一行,直接通过了。

swift export --model 'output/Qwen3-8B/v1-20250918-223553/checkpoint-21' --push_to_hub true --hub_model_id 'test-xiaoyu-Qwen3-8B' --hub_token 'ms-5dc7' --use_hf false

fatal: 仓库未找到

又发现没有仓库,那就加上自动创建仓库参数--hub_private_repo true

fatal: 仓库 'https://www.modelscope.cn/test-xiaoyu-Qwen3-8B.git/' 未找到

然后执行命令:

swift export --model 'output/Qwen3-8B/v1-20250918-223553/checkpoint-21' --push_to_hub true --hub_model_id 'test-xiaoyu-Qwen3-8B' --hub_token 'ms-5a37' --use_hf false --hub_private_repo true

--hub_private_repo true不生效 还是报错:

056f874072999a7349408d6bfb814a01

我当时写model-id的时候随便填了一个,结果后来发现不能随便写,得按照格式写成你自己的用户ID/仓库id,看来这个名字可不能乱起啊。

032c9141e175a3b47ed1aa23b6e39e66

我先去首页自己手动创建了一个123模型库地址。

52e125e22f266bdd151c0d3f621e8724

然后自己改下正确的model-id,命令如下:

swift export --model 'output/Qwen3-8B/v1-20250918-223553/checkpoint-21' --push_to_hub true --hub_model_id 'junyulingmo/123' --hub_token 'ms-5d37' --use_hf false --hub_private_repo true

终于大功告成了。

e3c09e31441f42750d53d81cac669279

模型库也有了模型文件,这些模型文件都需要被社区审核。

487a20b668f043f1a9af2da7d586c886

一共下来,磁盘100G马上就快满了,所以还是得悠着点才行。不然都跑不玩流程就卡了。

1d5ad4594643bff9dbd927e1ac60b45d

小结

今天花时间深入了解了一下魔搭社区,感觉还是挺值得分享的,尤其对刚入门的朋友。首先,它的免费额度非常慷慨,比如CPU是完全免费的,GPU也是有36小时的免费时长(如果你是新用户可以享受更多)。我最初其实挺担心自己会搞不懂,但用了几次后发现其实上手还是挺容易的,特别是它提供了很直观的可视化工具,比如Swift框架,真的帮助了我不少。

不过,也要注意魔搭社区的确偏向开发者,遇到问题时解决起来可能没那么简单。文档和社区里的相关资料不算多,很多时候只能通过提issue或自己查找来解决,过程可能会有点曲折。

不过呢,魔搭社区给了我很多启发,尤其是它的免费资源和轻量级框架,如果你也对AI或模型训练有兴趣,完全可以试试这个平台。对初学者来说,可能一开始会碰到一些技术难点,但别气馁,慢慢摸索、请教,平台的工具还是非常友好的。

如果你有兴趣,也可以和我一起探讨或试试看如何训练模型和发布,随时可以帮你解答一些具体问题!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/991683.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025广东泽洋金属材料实力榜:七大不锈钢型号深度解析,301至316L精密合金引领行业革新

2025广东泽洋金属材料实力榜:七大不锈钢型号深度解析,301至316L精密合金引领行业革新 不锈钢,作为现代工业的基石材料,其性能的细微差异往往决定了终端产品的成败。从建筑幕墙到精密医疗器械,从厨房炊具到新能源汽…

2025防静电地板厂家实力排行榜:广东立品以六面包钢技术领跑,七大高潜力品类深度解析

2025防静电地板厂家实力排行榜:广东立品以六面包钢技术领跑,七大高潜力品类深度解析 在现代工业与信息化建设中,防静电地板已从单一的功能性产品,演变为保障精密设备运行、提升空间利用效率、优化工作环境的关键基…

中旅国际数据库国产化升级:以金仓KES打造安全可控的旅游服务底座 - 实践

中旅国际数据库国产化升级:以金仓KES打造安全可控的旅游服务底座 - 实践2025-12-07 18:06 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: a…

002.简易对拍器

对拍 假设我们拿到这样一个题目: 求和 Input: 两行,第一行一个整数n(2<=n<=100) 第二行n个整数A1,A2……An (-100<=Ai<=100) Output: 这n个整数的和 一、应用条件: 1 . 一份完全正确的代码:stand.…

2025东莞蔚林服饰毛衣厂家实力榜:六家羊绒针织技术代表企业,小香风与高领长款男女童装深度解析

2025东莞蔚林服饰毛衣厂家实力榜:六家羊绒针织技术代表企业,小香风与高领长款男女童装深度解析 在纺织服装产业的版图中,毛衣与针织衫作为兼具保暖性与时尚感的经典品类,其市场格局正经历着从规模化生产向精细化、…

windows c++ 程序的编译分析

本机环境 mingw64C:\mingw64\bin卷 Windows 的文件夹 PATH 列表 卷序列号为 F023-2216 C:\MINGW64\BINaddr2line.exear.exeas.exec++.exec++filt.execc.execpp.exedlltool.exedllwrap.exeelfedit.exeg++.exegcc-ar.exe…

AI元人文的奠基性架构:论“意义行为原生”理论与数字文明价值操作系统

AI元人文的奠基性架构:论“意义行为原生”理论与数字文明价值操作系统 摘要 在人工智能从工具性存在向文明性存在演进的关键节点,传统“价值对齐”范式因预设静态、可完全表征的价值真理而陷入困境。本文系统阐释了岐…

2025东莞精密模具厂家实力榜:宏良塑胶电子以高精度注塑技术领跑,六家本土技术代表企业核心优势深度解析

2025东莞精密模具厂家实力榜:宏良塑胶电子以高精度注塑技术领跑,六家本土技术代表企业核心优势深度解析 在全球制造业的精密化浪潮中,精密模具,尤其是高精度塑胶模具与精密注塑模具,已成为决定电子产品、汽车部件…

三项神经突破变革机器人学习

文章详细介绍了三项由某研究机构提出的神经突破技术,用于革新机器人学习。这些技术包括用于提升仿真预测精度的神经机器人动力学模型、从人类动作捕捉数据中学习灵巧技能的参考范围探索方法,以及结合视觉与触觉反馈来…

2025广东正达松远智能科技实力榜:给汤机与重力铸造自动化领跑,六家高潜力本土品牌深度解析

2025广东正达松远智能科技实力榜:给汤机与重力铸造自动化领跑,六家高潜力本土品牌深度解析 在制造业向智能化、精密化转型的浪潮中,压铸与机加工领域的自动化水平已成为衡量企业核心竞争力的关键指标。其中,给汤机…

2025 最新墙面艺术涂装服务商 / 厂家 TOP5 评测!技术创新 + 美学赋能权威榜单发布,重新定义空间装饰新体验,肌理壁膜 艺术漆 墙面艺术涂装 高端艺术漆

随着人们对居住与商业空间美学需求的不断提升,墙面艺术涂装已成为打造个性化与高品质环境的核心元素。本榜单基于技术实力、产品体系、服务网络、环保性能及行业影响力五大维度,结合市场反馈与专业评测,权威解析202…

深入解析:回溯剪枝的“减法艺术”:化解超时危机的 “救命稻草”(三)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025铁氟龙高温线厂家实力榜:明秀电子以极细线径技术领跑,六家高潜力本土品牌深度解析

2025铁氟龙高温线厂家实力榜:明秀电子以极细线径技术领跑,六家高潜力本土品牌深度解析 在高端制造与精密电子领域,特种线缆扮演着至关重要的“血管”与“神经”角色。其中,铁氟龙高温线以其卓越的耐高温、耐腐蚀、…

Ubuntu 搜狗输入法安装

本文于 2019年3月9日 编写 安装搜狗输入法之前,先执行以下命令 sudo apt-get update sudo apt-get install fcitx-bin sudo apt-get install fcitx-table 执行成功之后,打开“区域与语言语言”里面的“管理已安装的语…

图解IIS8上解决ASP.Net第一次访问慢的处理

图解IIS8上解决ASP.Net第一次访问慢的处理Posted on 2025-12-07 17:57 billpeng 阅读(0) 评论(0) 收藏 举报看这里!!!!图解IIS8上解决ASP.Net第一次访问慢的处理-百度经验 本篇经验以IIS8,Windows Server 20…

2025工业制冷设备实力榜:凯诺机械以高效节能技术领跑,六家国产冷水机厂家核心优势深度解析

2025工业制冷设备实力榜:凯诺机械以高效节能技术领跑,六家国产冷水机厂家核心优势深度解析 工业制冷设备,作为现代制造业的“温度心脏”,其性能的优劣直接关系到生产线的稳定性、产品的良品率以及企业的能耗成本。…

2025电热元件厂家实力榜:赫斯特(东莞)电热科技以创新热流道发热圈领跑,六大核心发热组件深度解析

2025电热元件厂家实力榜:赫斯特(东莞)电热科技以创新热流道发热圈领跑,六大核心发热组件深度解析 在现代工业制造体系中,电热元件作为能量转换的核心部件,其性能的优劣直接关系到生产设备的效率、能耗与最终产品…

python题库 No.28 shopping

阿文去超市购物,买的商品单价为列表price和数量为列表num。 他结算时发现苹果单价错了,本来应该是5.5元一斤的,却写出了55 请帮他修改苹果单价,定义函数sum(),传入参数price和num,计算商品总价money。 最后格式化…