摘要: 本文记录一下,使用自顶向下的编程法一步步编写微调小语言模型的代码。这里小模型指的是可以在本地电脑运行的预训练语言模型(1B左右),相对而言的是需要在大集群运行的模型。 微调一个语言模型,本质上是把一个已经预训练过的语言模型在一个新的数据集上继续训练。那么一次微调模型的任务,可以分为下面三个大个步骤( 阅读全文
posted @ 2024-08-11 19:26 zrq96 阅读(1018) 评论(0) 推荐(0)
摘要: 本文记录一下模仿nanoGPT项目,使用自顶向下的编程法一步步手写GPT的过程。阅读本文需要了解Transformer,GPT,和PyTorch的基础知识。 下面是会用到的所有python库 import math # will use math.sqrt from dataclasses impo 阅读全文
posted @ 2024-08-02 02:06 zrq96 阅读(235) 评论(0) 推荐(0)
摘要: 在上周五, Ian Horrocks来到了爱丁堡做了一个讲座,主要介绍知识图谱的基本概念,顺便宣传一下他们做的RDFox,让我们使用一下,给他们提改进意见。Ian是描述逻辑、语义网、和知识图谱方面举重若轻的人物,做了许多奠基性的工作,比如参与OWL 标准的起草,设计和实现了FaCT++,HermiT 阅读全文
posted @ 2022-08-21 22:51 zrq96 阅读(230) 评论(0) 推荐(0)
摘要: 《机器学习(周志华)》学习笔记第十章:降维与度量学习 阅读全文
posted @ 2020-06-14 15:21 zrq96 阅读(449) 评论(0) 推荐(0)
摘要: 《机器学习(周志华)》学习笔记第九章:聚类 阅读全文
posted @ 2020-06-14 15:19 zrq96 阅读(291) 评论(0) 推荐(0)
摘要: 《机器学习(周志华)》学习笔记第八章:集成学习 阅读全文
posted @ 2020-06-14 15:17 zrq96 阅读(318) 评论(0) 推荐(0)
摘要: 《机器学习(周志华)》学习笔记第七章:贝叶斯分类器 阅读全文
posted @ 2020-06-14 15:14 zrq96 阅读(468) 评论(0) 推荐(0)
摘要: 《机器学习(周志华)》学习笔记第六章:支持向量机 阅读全文
posted @ 2020-06-14 15:11 zrq96 阅读(193) 评论(0) 推荐(0)
摘要: 《机器学习(周志华)》学习笔记第五章:神经网络 阅读全文
posted @ 2020-06-14 15:09 zrq96 阅读(456) 评论(0) 推荐(0)
摘要: 《机器学习(周志华)》学习笔记第四章:决策树 阅读全文
posted @ 2020-06-13 13:16 zrq96 阅读(260) 评论(0) 推荐(0)