摘要: 指令查询 开发环境 docker json schema prompt guide 帮助文档 各种目录 中国计算机学会推荐国际学术会议和期刊目录(2026) SCI等评级查询 Python库 网站 介绍 Vega-Altair 绘图库 PyTorch 深度学习框架 前端 网站 介绍 Element- 阅读全文
posted @ 2024-06-14 11:59 3039442 阅读(106) 评论(0) 推荐(1)
摘要: 首先,需要先安装 mod 文件:下载地址,点击Manual download等待下载完全即可,文件大小约为9GB。下载的mod文件同时包含了简体中文语言包。 找到法环游戏本体的路径:可以在Steam下载的游戏中,点击齿轮图标 -> 管理 -> 浏览本地文件。例如,我的PC上,法环游戏的路径就是:E: 阅读全文
posted @ 2026-04-21 20:23 3039442 阅读(12) 评论(0) 推荐(0)
摘要: Nsight System常用的使用方式时,服务器上生成报告文件,然后在自己的笔记本上查看。因此,服务器和PC上都需要下载(下载的版本号必须相同,否则PC上无法打开在服务器上生成的文件)。下载链接:https://developer.nvidia.com/nsight-systems/get-sta 阅读全文
posted @ 2026-04-19 23:33 3039442 阅读(4) 评论(0) 推荐(0)
摘要: 详解SFT、RLHF & 详解大模型RL算法 & 详解GRPO SFT 模型输出幻觉造成的损失较小 SFT难以做到的事: 让模型拒绝回答:避免输出幻觉 SFT时,少量的数据都能极大地提高模型的表现,包括让模型输出更少的harmful内容 Pre-train 和 SFT 的界限变得模糊,都是预测序列, 阅读全文
posted @ 2026-01-10 12:00 3039442 阅读(82) 评论(0) 推荐(0)
摘要: 模型评估详解 Perplexity perplexity 表示模型是否对一部分数据足够关注 使用perplexing更容易你和scaling law的曲线 困惑度任务:完形填空(单词/句子) Benchmark task:考验模型对输入的理解 Massive Multitask Language U 阅读全文
posted @ 2026-01-10 11:57 3039442 阅读(83) 评论(0) 推荐(0)
摘要: 详解Scaling laws 缩放定律研究的关系包括:数据与表现;数据与模型大小;超参数与表现 缩放定律是为了获取数据、模型超参数与表现间的关系,尽量避免大规模实验 Q:实际中,我们数据有限,重复的数据是如何影响缩放的? 可以依据定律,决定训练的epoch 考虑到重复的数据价值较少。数据选择更适合缩 阅读全文
posted @ 2026-01-10 11:51 3039442 阅读(154) 评论(0) 推荐(0)
摘要: GPU原理与分布式训练基础 & 内核优化与Triton框架应用 Triton 在triton编程中,通常以SM为原子单位进行编程,SM内部有多个SP(streaming processor),一个SP会并行处理大量线程 粒度大到小:BLock -> Warp -> Thread Block由若干Th 阅读全文
posted @ 2026-01-10 11:44 3039442 阅读(66) 评论(0) 推荐(0)
摘要: 大模型概述与Tokenization & 利用Pytorch搭建大模型 Tokenizer BPE (byte pair encode) 从字符级别开始,逐步合并高频的字符对。 最终生成一个既能表示常见单词,又能拆解未知词的子词词汇表 。 可以有效控制词汇表大小,同时避免“未登录词”问题(OOV, 阅读全文
posted @ 2026-01-10 11:32 3039442 阅读(188) 评论(0) 推荐(0)
摘要: Background OOD泛化任务(Out-of-Distribution (OOD) Generalization)包含两类子任务: 域偏移(domain shift):指训练集和测试集分布不同,例如训练集是写实的,测试集是素描。这类问题的解决方法包括,主要是集中在训练阶段的源域上。例如: 让不 阅读全文
posted @ 2025-10-26 20:06 3039442 阅读(39) 评论(0) 推荐(0)
摘要: 向量加和: #include <iostream> __global__ void vectorAdd(int n, const float* a, const float* b, float* c) { int i = blockDim.x * blockIdx.x + threadIdx.x; 阅读全文
posted @ 2025-08-26 22:02 3039442 阅读(85) 评论(0) 推荐(0)
摘要: presence_penalty: 对于1个token,如果它出现在生成的文本中,则施加惩罚 \[\hat{\rm logits}_i={\rm logits}_i - {\rm presence\_penalty} * \mathbb{I}({\rm frequency}_i>0) \] 鼓励模型 阅读全文
posted @ 2025-06-05 22:05 3039442 阅读(189) 评论(0) 推荐(0)
摘要: 这篇文章基于神经坍缩(Neural Collapse)现象,提出将样本的特征诱导到考虑类别层次的Simplex ETF(Equivalent Tight Frame)。首先,通过类别层次距离构建类别间的相似度。基于相似度,通过特征值分解构造固定的分类器权重向量。同时,增加隐藏层鼓励模型特征与对应类别 阅读全文
posted @ 2025-05-25 22:34 3039442 阅读(176) 评论(0) 推荐(0)
摘要: [link] 提供了标签间的层次信息,保存在 data.json文件中,可在倒数第二个单元格点击“Download JSON”获得 data.json 文件部分内容如下,如果类别有层级关系,则会嵌套在 “children”: { "id": "fall11", "name": "ImageNet 2 阅读全文
posted @ 2025-05-22 21:11 3039442 阅读(18) 评论(0) 推荐(0)
摘要: 本机上需要准备的事项 安装 vscode;下载远程连接插件:Remote - SSH,汉化插件:Chinese (Simplified) (简体中文) Language Pack for Visual Studio Code 配置文件中写入远程服务器相关信息 点击右侧靠边栏“远程资源管理器” 点击“ 阅读全文
posted @ 2025-05-22 12:01 3039442 阅读(933) 评论(0) 推荐(0)
摘要: 除了CIFAR系列,长尾图像分类用的最多的就是这三个数据集:Place365、iNaturalist2018、ImageNet(2012) 分别给出需要下载的 item 以及下载地址: Place365: Small images (256 * 256) with easy directory st 阅读全文
posted @ 2025-04-26 12:09 3039442 阅读(332) 评论(0) 推荐(0)
摘要: KMP算法 一个人能走的多远不在于他在顺境时能走的多快,而在于他在逆境时多久能找到曾经的自己! #include <iostream> #include <vector> using namespace std; vector<int> get_next(string p) { int i = 1, 阅读全文
posted @ 2025-04-20 15:15 3039442 阅读(21) 评论(0) 推荐(0)