摘要: SGD:随机梯度下降 每次随机一个样本 计算梯度 新参数 = 旧参数 - 学习率 * 梯度 改进——动量(解决局部最优问题): SGD-M:加入一阶动量来替代梯度,其中一阶动量公式:新动量 = (1-beta)*旧动量 + beta * 梯度,beta经验为0.1 SGD with Nesterov 阅读全文
posted @ 2025-05-17 22:56 Phile-matology 阅读(37) 评论(0) 推荐(0)
摘要: 背景:Transformer自身无法学到任何相对位置关系 Transformer原作:位置编码,按照在序列中的位置和在编码中的位置,计算一个当前位置的编码,直接加到embedding上 在高维空间中,两个向量大概率是正交的 相加比直接concate更省空间和时间 旋转位置编码:RoPE(LLaMa, 阅读全文
posted @ 2025-05-16 18:20 Phile-matology 阅读(22) 评论(0) 推荐(0)
摘要: Tokenizer:输入文本,输出分词结果,该分词结果可以进行text embedding(即,在已知词表的情况下,输入的input_ids) 1. 切分方式:基于字、词和subword 字粒度太细、序列太长 基于词的无法学到词缀含义,且词表太大 subword保留高频词,低频词切分为子词 2. 切 阅读全文
posted @ 2025-05-16 16:26 Phile-matology 阅读(23) 评论(0) 推荐(0)
摘要: Transformer模型结构: 示例:输入“我爱你”,输出“I love you”第一步:分词,将序列变为一个个token组成的向量,形状:[seq_len,]。本步涉及tokenizer相关技术 第二步:input embedding,将分词结果中的每一个token,编码成一个固定维数的embe 阅读全文
posted @ 2025-05-16 01:59 Phile-matology 阅读(93) 评论(0) 推荐(0)
摘要: 编写一个Django应用 cd到指定文件夹,创建项目,生成mysite目录(整个项目的容器)(mysite可以换名字) manage.py:管理项目的命令行工具 mysite/目录:一个python包,用mysite.url的形式调库 __init__:包的标识 settings.py:配置文件,用 阅读全文
posted @ 2022-03-18 00:34 Phile-matology 阅读(79) 评论(0) 推荐(0)
摘要: Decision tree To deal with nonlinear classification Greedy Top-down Recursive Partitioning ask questions to divide the entire space into independent r 阅读全文
posted @ 2022-03-14 12:37 Phile-matology 阅读(45) 评论(0) 推荐(0)
摘要: deep learning computationally expensive data algorithm logistic regression e.g.1 find a cat in the image input : suppose image 64*64, input vector x: 阅读全文
posted @ 2022-03-14 12:36 Phile-matology 阅读(47) 评论(0) 推荐(0)
摘要: Machine Level Programming machine code <-> assembly code code -> low level, how to generate by GCC intel 64(x86) instruction set(hardware designers pr 阅读全文
posted @ 2022-02-07 14:51 Phile-matology 阅读(40) 评论(0) 推荐(0)
摘要: Learning Theory Assumption data in training set and test set are from the same distribution all samples are sampled independently Learning Algorithm i 阅读全文
posted @ 2022-02-07 14:48 Phile-matology 阅读(46) 评论(0) 推荐(0)
摘要: Data splits, Models and Cross Validation Bias and Variance Bias: wrong thought about how to fit the data Variance: changing original dataset cause a g 阅读全文
posted @ 2022-02-07 14:45 Phile-matology 阅读(49) 评论(0) 推荐(0)