2023 年 8月随笔档案 - wangssd

nlp 特殊标记符

摘要：BERT模型中的特殊标记（Special Tokens）。它们的含义如下： [PAD]：在batch中对齐序列长度时，用 [PAD]进行填充以使所有序列长度相同。可以通过将其添加到较短的序列末尾来实现对齐。[CLS]：在输入序列的开头添加 [CLS] 标记，以表示该序列的分类结果。[SEP]：用于分阅读全文

posted @ 2023-08-28 15:11 wangssd 阅读(270) 评论(0) 推荐(0)

LSTM模型详解

摘要：LSTM “权值共享”：一个LSTM单元在每个时间步 t 的计算都遵循相同的公式，并使用同一套参数 W_f, W_i, W_o, W_c, U_f, U_i, U_o, U_c 和偏置 b_f, b_i, b_o, b_c。这些参数在时间维度上是“共享”的。无论你处理的是句子的第一个单词还是最后阅读全文

posted @ 2023-08-28 14:01 wangssd 阅读(3192) 评论(0) 推荐(0)

法研杯生成式文本摘要赛题处理

摘要：赛题分析统计信息样本预览建模思路抽取模型抽取模型的思路是先通过规则将原始的生成式语料转化为序列标注式语料。（将文本转换为文本向量）基于深度学习的抽取式摘要，是有监督的文本摘要，可以建模为序列标注任务或句子排序任务。建模为序列标注任务，就是为原文中的每一个句子打一个二分类标签（0 或 1 阅读全文

posted @ 2023-08-24 15:01 wangssd 阅读(103) 评论(0) 推荐(0)

RNN/LSTM/GRU

摘要：RNN模型：激活函数采用tanh() LSTM（长短期记忆网络） LSTM通过增加三个门，激活函数sigmoid输出0到1之间的数值，0表示不允许通过，1表示允许通过。通过门来增加前后序列间的关联关系。输入门、输出门、遗忘门（长记忆、短记忆） GRU（Gated Recurrent Unit, 阅读全文

posted @ 2023-08-24 11:45 wangssd 阅读(118) 评论(0) 推荐(0)

激活函数

摘要：原文：https://blog.csdn.net/in546/article/details/119621649 激活函数激活函数是用来加入非线性因素的，因为线性模型的表达能力不够。引入非线性激活函数，可使深层神经网络的表达能力更加强大。激活函数应满足：非线性：激活函数非线性时，多层神经网络可阅读全文

posted @ 2023-08-24 11:39 wangssd 阅读(141) 评论(0) 推荐(0)

序列标注问题

摘要：序列标注（Sequence Tagging）是NLP中最基础的任务(输入序列和输出序列长度相等)，应用十分广泛，如分词、词性标注（POS tagging）、命名实体识别（Named Entity Recognition，NER）、关键词抽取、语义角色标注（Semantic Role Labeling 阅读全文

posted @ 2023-08-24 11:10 wangssd 阅读(444) 评论(0) 推荐(0)

seqToseq

摘要：Seq2Seq，就是指一般的序列到序列的转换任务，比如机器翻译、自动文摘等等，这种任务的特点是输入序列和输出序列是不对齐的，如果对齐的话，那么我们称之为序列标注，序列标注任务也可以理解为序列到序列的转换。左边是输入的 encoder，它负责把输入（可能是变长的）编码为一个固定大小的向量，这个可选择阅读全文

posted @ 2023-08-24 10:33 wangssd 阅读(186) 评论(0) 推荐(0)

bert，Bidirectional Encoder Representation from Transformers

摘要：BERT的全称是Bidirectional Encoder Representation from Transformers，是Google2018年提出的预训练模型，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上阅读全文

posted @ 2023-08-23 16:56 wangssd 阅读(388) 评论(0) 推荐(0)

transformer

摘要：masked mutil-head attetion mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 padding mask 和 sequence mask。其中，padding mask 在所有的 scaled do 阅读全文

posted @ 2023-08-23 15:47 wangssd 阅读(211) 评论(0) 推荐(0)

词袋模型、word2vec

摘要：Bag-of-words模型，BOW模型（词袋模型）假定对于一个文档，忽略它的单词顺序和语法、句法等要素，将其仅仅看作是若干个词汇的集合，文档中每个词汇的出现都是独立的，不依赖于其它词汇是否出现。也就是说，文档中任意一个位置出现的任何单词，都不受该文档语意影响而独立选择的。基于词袋模型的文本离散化阅读全文

posted @ 2023-08-23 11:20 wangssd 阅读(421) 评论(0) 推荐(0)

llm 多模态通用大模型（nlp/cv）知识讲解

摘要：模型算法(最难，模型结构与训练方法) 数据（最耗时，数据与模型效果之间的关系）算力（GPU显卡+模型量化）模型参数量、训练数据量：模型参数量决定整个模型的理论效果训练数据量决定整个模型的实际效果多模态：用于表示某种信息的模式（图片、文字、语音、视频）通过各种预训练模型将信息的不同模式阅读全文

posted @ 2023-08-20 12:13 wangssd 阅读(2977) 评论(0) 推荐(0)

optim.SGD

摘要：链接：https://www.zhihu.com/question/585468191/answer/2905219147 optim.SGD是PyTorch中的一个优化器，其实现了随机梯度下降（Stochastic Gradient Descent，SGD）算法。在深度学习中，我们通常使用优化器来阅读全文

posted @ 2023-08-15 14:48 wangssd 阅读(490) 评论(0) 推荐(0)

Android客户端+基于Spring的Java后台框架

摘要：Android Studio可以使用java编写Android客户端 Android Studio + sqlite（数据库） sqlite致力于为单个应用程序和设备提供本地数据存储，更适合提供本地文件存储，或为每天几十万点击量的网站提供数据支持。 Android客户端+基于Spring的Java后阅读全文

posted @ 2023-08-08 09:17 wangssd 阅读(75) 评论(0) 推荐(0)

深度神经网络调优

摘要：1.选择合适的模型架构总结：当开始一个新的工程时，试着复用已经有效果的模型 1）首先，选择一个已经被广泛使用和建立起来的模型架构来先让其正常工作。可以在以后再建立一个定制化的模型。 2）模型架构一般都具有多种超参数，这些超参数决定了模型的尺寸和其他一些细节（如，层数，层宽，激活函数的类型），因此阅读全文

posted @ 2023-08-07 12:23 wangssd 阅读(166) 评论(1) 推荐(0)

LTE 参考信号 CRS DMRS SRS

摘要：PCI（小区物理编号） PCI = PSS + 3*SSS 一共504种（主、辅同步信号） PSS的取值范围为（0/1/2） SSS的取值范围为（0~167）下行RS（Reference Signal）参考信号，也成导频信号 RSRP，参考信号信号功率作用：信号质量的评估通俗解释：发送一个双方阅读全文

posted @ 2023-08-04 11:02 wangssd 阅读(2554) 评论(0) 推荐(0)

开源大模型训练框架 colossal AI chat 、 DeepSpeed chat

摘要：Colossal-AI是一个专注于大规模模型训练的深度学习系统，Colossal-AI基于PyTorch开发，旨在支持完整的高性能分布式训练生态。Colossal-AI已在GitHub上开源。在Colossal-AI中，我们支持了不同的分布式加速方式，包括张量并行、流水线并行、零冗余数据并行、异构阅读全文

posted @ 2023-08-03 19:28 wangssd 阅读(559) 评论(0) 推荐(0)

wangssd

08 2023 档案

公告