聊聊ChatGLM-6B部署与微调的深入理解

ChatGLM的部署，主要是两个步骤：

在Github上下载chatglm的库文件
在Hugging Face上下载模型参数与配置文件

ChatGLM包

从Github上看ChatGLM项目文件的结构来看，仅仅是包含三种部署方式的py代码与微调的py代码

而相关的实现细节，比如神经网络、激活函数、损失函数等具体的实现，并不在该项目源码中。
不管以哪种方式部署，最核心就是三句代码，其作用是引入模型参数，初始化transformers配置；以web部署的方式为例：

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()
model = model.eval()

// 引入Gradio，实现web方式的使用

// 调用模型方法，开始进行对话推理
xx = model.stream_chat(xxxx);

web的调用是基于Gradio；
api的调用是基于fastapi；
cli的调用是基于python解释器；

Hugging Face

Hugging Face平台的模型库如下：

除去与训练后的模型参数(xxx.bin)外，其余的文件是huggingface的文件结构。

微调

微调的解决方案一般是P-Tuning或LoRA；ChatGLM-6B是基于P-Tuning v2实现的微调，P-Tuning v2是基于连续提示(continuous prompts)的思想。微调会生成新的模型参数文件，也称为checkpoint文件。
微调时可以选择全参数微调或是部分参数微调，其流程是训练+推理。训练生成新的checkpoint文件(模型参数)；推理则是加载模型参数文件。
训练前，需要调整参数，一般修改train.sh脚本文件就行。
推理时，加载原模型文件与微调后生成的checkpoint文件。还是通过那三句代码。
输出的checkpoint文件如下：

checkpoint文件夹内的文件如下：

transformers的联系

目前的模型，都会对接到Hugging Face平台的transformers库中，通过transformers库来管控大模型。所以在推理阶段通过三句代码就能调用AI模型。在微调阶段，生成的checkpoint文件中，其结构是Hugging Face平台的文件结构，包含transformers的相关配置及初始化信息。

总结

玄机博客

1.本站内容仅供参考，不作为任何法律依据。用户在使用本站内容时，应自行判断其真实性、准确性和完整性，并承担相应风险。

2.本站部分内容来源于互联网，仅用于交流学习研究知识，若侵犯了您的合法权益，请及时邮件或站内私信与本站联系，我们将尽快予以处理。

3.本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权

4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。”您需知晓本站所有内容资源均来源于网络，仅供用户交流学习与研究使用，版权归属原版权方所有，版权争议与本站无关，用户本人下载后不能用作商业或非法用途，需在24个小时之内从您的电脑中彻底删除上述内容，否则后果均由用户承担责任；如果您访问和下载此文件，表示您同意只将此文件用于参考、学习而非其他用途，否则一切后果请您自行承担，如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。