个人或企业做网络贸易的主要网站企业信用信息查询公示系统网址
news/
2025/9/26 7:37:54/
文章来源:
个人或企业做网络贸易的主要网站,企业信用信息查询公示系统网址,公司网站做百度推广需要交费吗,手机网站底部导航ChatGLM2-6B介绍#xff1a; 介绍 ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本#xff0c;在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上#xff0c;ChatGLM2-6B 引入了如下新特性#xff1a; 更强大的性能#xff1a;基于 ChatGLM 初…ChatGLM2-6B介绍 介绍 ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上ChatGLM2-6B 引入了如下新特性 更强大的性能基于 ChatGLM 初代模型的开发经验我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数经过了 1.4T 中英标识符的预训练与人类偏好对齐训练评测结果显示相比于初代模型ChatGLM2-6B 在 MMLU23%、CEval33%、GSM8K571% 、BBH60%等数据集上的性能取得了大幅度的提升在同尺寸开源模型中具有较强的竞争力。更长的上下文基于 FlashAttention 技术我们将基座模型的上下文长度Context Length由 ChatGLM-6B 的 2K 扩展到了 32K并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文我们发布了 ChatGLM2-6B-32K 模型。LongBench 的测评结果表明在等量级的开源模型中ChatGLM2-6B-32K 有着较为明显的竞争优势。更高效的推理基于 Multi-Query Attention 技术ChatGLM2-6B 有更高效的推理速度和更低的显存占用在官方的模型实现下推理速度相比初代提升了 42%INT4 量化下6G 显存支持的对话长度由 1K 提升到了 8K。更开放的协议ChatGLM2-6B 权重对学术研究完全开放在填写[问卷](https://open.bigmodel.cn/mla/form)进行登记后**亦允许免费商业使用**。 代码托管的githubhttps://github.com/THUDM/ChatGLM-6B 先将代码下载到本地
可以使用git git clone https://github.com/THUDM/ChatGLM2-6B 或者直接将GitHubzip包下载到本地然后解压 Multi-Query Attention 同时也降低了生成过程中 KV Cache 的显存占用此外ChatGLM2-6B 采用 Causal Mask 进行对话训练连续对话时可复用前面轮次的 KV Cache进一步优化了显存占用。因此使用 6GB 显存的显卡进行 INT4 量化的推理时初代的 ChatGLM-6B 模型最多能够生成 1119 个字符就会提示显存耗尽而 ChatGLM2-6B 能够生成至少 8192 个字符。 量化等级编码 2048 长度的最小显存生成 8192 长度的最小显存FP16 / BF1613.1 GB12.8 GBINT88.2 GB8.1 GBINT45.5 GB5.1 GB
然后去huggingface去下载模型文件
https://huggingface.co/THUDM/chatglm2-6b 这个是FP16的站显存比较大
我们选择INT-4
https://huggingface.co/THUDM/chatglm2-6b-int4/tree/main 然后将文件下载到本地注意huggingface需要翻墙现在国内无法登陆
下载zip解压到本地然后创建一个model的文件存放模型文件这是我下载到本地的文件 本地下载的模型文件 然后启动pycharm导入这个项目 修改模型加载地址打开web_demo.py文件 然后使用 pip 安装依赖 pip install -r requirements.txt其中 transformers 库版本推荐为 4.30.2torch 推荐使用 2.0 及以上的版本以获得最佳的推理性能。
我是测试CPU运行所以还要改一些地方我这边选择的是chatglm2-6b-int4 CPU 部署 如果你没有 GPU 硬件的话也可以在 CPU 上进行推理但是推理速度会更慢。使用方法如下需要大概 32GB 内存 model AutoModel.from_pretrained(THUDM/chatglm2-6b, trust_remote_codeTrue).float()如果你的内存不足的话也可以使用量化后的模型 model AutoModel.from_pretrained(THUDM/chatglm2-6b-int4,trust_remote_codeTrue).float()在 cpu 上运行量化后的模型需要安装 gcc 与 openmp。多数 Linux 发行版默认已安装。对于 Windows 可在安装 TDM-GCC 时勾选 openmp。 Windows 测试环境 gcc 版本为 TDM-GCC 10.3.0 Linux 为 gcc 11.3.0。 如果不安装 TDM-GCC 会报错安装TDM-GCC如果不选openmp会报错
TDM-GCC g: error: libgomp.spec: No such file or directory
注意要勾选TDM-GCC的安装过程 安装好了。
运行还会报错 Traceback (most recent call last): File H:\Model\ChatGLM2-6B\web_demo.py, line 89, in module user_input gr.Textbox(show_labelFalse, placeholderInput..., lines10).style( AttributeError: Textbox object has no attribute style 解决gradio安装3.40.0 pip install gradio3.40.0 ChatGLM2-6B有三中方式实现交互 web_demo.py 是 gradio测试网页版本 启动命令python web_demo.py web_demo2.py是命令启动基于 Streamlit 的网页版 demo 启动命令 streamlit run web_demo2.py cli_demo.py 是程序会在命令行中进行交互式的对话在命令行中输入指示并回车即可生成回复输入 clear 可以清空对话历史输入 stop 终止程序。 启动命令 python cli_demo.py 然后运行python web_demo.py 然后可以开始对话了但是特别的卡主要是我的配置太低了 半天就刷出来这几个字哈哈 测试 web_demo2.py
测试cli_demo.py
在安装显卡驱动的前提下显卡驱动安装方法输入 nvidia-smi
可以看到该电脑可以支持的cuda版本最高是12.2驱动是向下兼容的所以cuda版本小于等于12.2的都可以安装上。
先安装CUDA的一个版本我们先要安装cudacuda11.7是稳定版本cuda12.1是预览版本但是不稳定。所以我们安装CUDA11.7
官网CUDA cmd查看是否安装成功 nvcc -V cudnn下载cudnn官网 GPU运行会提示错误
AssertionError: Torch not compiled with CUDA enabled
主要是安装的torch不支持GPU导致的我们先把torch卸载掉然后下载和GPU相匹配的torch pip uninstall torch 然后下载和torch对应支持的cuda版本 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 安装成功了我们测试一下
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/917948.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!