手搓大模型Task01：LLama3模型讲解 - 千百度社区-千百度社区

手搓大模型Task01：LLama3模型讲解

分享是一种美德

48天前更新

0418

前言

主要进行Qwen模型架构讲解。

教程地址：https://github.com/lixinjie97/tiny-universe/blob/main/01.Qwen_blog/qwen.ipynb

1.Qwen整体介绍

Qwen的整体架构与Llama2类似，如下图所示：

tokenizer将文本转为词表里面的数值。
数值经过embedding得到一一对应的向量。
attention_mask是用来看见左边、右边，双向等等来设定。
各类下游任务，Casual, seqcls等，基本都是基础模型model后面接对应的Linear层，还有损失函数不一样。

2.学习记录

在本次课程中，我深入学习了Transformer和Qwen2这两种先进的算法原理，并通过实践掌握了它们的代码实现流程。通过对相关源码的细致研读，我领悟到了Transformer中的位置编码（PE）与Qwen2中的相对位置编码（RoPE）之间的联系和它们各自独特的特点。这段学习经历极大地丰富了我的知识储备，并提升了我的技术理解力。

千百度

© 版权声明

1.本站内容仅供参考，不作为任何法律依据。用户在使用本站内容时，应自行判断其真实性、准确性和完整性，并承担相应风险。

2.本站部分内容来源于互联网，仅用于交流学习研究知识，若侵犯了您的合法权益，请及时邮件或站内私信与本站联系，我们将尽快予以处理。

3.本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权

4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。”您需知晓本站所有内容资源均来源于网络，仅供用户交流学习与研究使用，版权归属原版权方所有，版权争议与本站无关，用户本人下载后不能用作商业或非法用途，需在24个小时之内从您的电脑中彻底删除上述内容，否则后果均由用户承担责任；如果您访问和下载此文件，表示您同意只将此文件用于参考、学习而非其他用途，否则一切后果请您自行承担，如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。

5.本站是非经营性个人站点，所有软件信息均来自网络，所有资源仅供学习参考研究目的，并不贩卖软件，不存在任何商业目的及用途

THE END

大模型学习

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容