随笔分类 -  NLP

摘要:见Colab 阅读全文
posted @ 2025-07-04 10:42 最爱丁珰 阅读(6) 评论(0) 推荐(0)
摘要:目录文本分类(Text Classification)序列标注(Sequence Labeling)语言建模(Language Modeling)机器翻译(Machine Translation)问答系统(Question Answering)文本生成(Text Generation)信息抽取(In 阅读全文
posted @ 2025-04-23 18:44 最爱丁珰 阅读(77) 评论(0) 推荐(0)
摘要:好的!我将非常详细地解释灾难性遗忘(Catastrophic Forgetting)的机制、成因以及其在深度学习中的具体表现。以下内容将分为多个层次展开: 1. 灾难性遗忘的定义 灾难性遗忘(Catastrophic Forgetting)是指神经网络在学习新任务时,快速丢失对旧任务的知识的现象。这 阅读全文
posted @ 2025-03-23 16:58 最爱丁珰 阅读(730) 评论(0) 推荐(0)
摘要:首先介绍一下早期的多模态模型 现在我们有视觉模型和语言模型 我们现在要把图片嵌入和词嵌入放到同一个空间中,这个时候就要定义一种评估函数,让相近的文字和图片挨在一起,不相近的则远离 除了跨模态迁移(就是结合图片和文本,上面的方法),也可以将他们融合,一起反映多模态词嵌入。一个著名的算法就是视觉词袋 举 阅读全文
posted @ 2025-03-18 16:50 最爱丁珰 阅读(18) 评论(0) 推荐(0)
摘要:那么LLM是否也可以进行推理呢?之前我们学过,LLM可以通过提示词或者few-shot,zero-shot-Cot等进行推理。下面介绍一个新方法:自我一致性(Self-Consistency) 下面来看一下效果 还有一种策略:将一个问题分解成多个小问题逐个解决 这种方法的泛化性甚至很好,也就是说我们 阅读全文
posted @ 2025-03-17 14:41 最爱丁珰 阅读(21) 评论(0) 推荐(0)
摘要:先来复习一下各个类型在计算机中的表现形式 \(32\)位浮点数 绿色数位越多,所能表示的范围越大(既可以表示更小的数,也可以表示更大的数);蓝色数位越多,所能表示的精度越高 \(16\)位浮点数 好处是可以节省内存。如果我们正在训练神经网络,但是突然发现内存不够了,有哪些解决方法呢? 我们就可以把所 阅读全文
posted @ 2025-03-15 13:51 最爱丁珰 阅读(27) 评论(0) 推荐(0)
摘要:来看一下讲师认为的理想的开发过程 Deploy的Absolute的意思:部署阶段的评测指标是绝对的,之前的阶段都是从若干个模型中选择最好的,但最后一个阶段就只剩下一个模型了,我们必须要让这个模型的准确率达到一个设定的绝对阈值 Publish的Standardized和Reproducible:标准化 阅读全文
posted @ 2025-03-14 18:58 最爱丁珰 阅读(25) 评论(0) 推荐(0)
摘要:这张图片就是:左边给了一个知识图谱,右边给了一个自然语言转化成逻辑语言然后在知识图谱中进行查询的方法 这堂课的重点是谈一谈阅读理解(Reading Comprehension) 解释一下两个例子 信息提取:假设现在我们想要做一个关于奥巴马的背景信息提取,如图所示,我们现在想要知道奥巴马在哪里受的教育 阅读全文
posted @ 2025-03-13 22:31 最爱丁珰 阅读(19) 评论(0) 推荐(0)
摘要:先来按照任务的开放性对自然语言生成的任务进行分类 不那么开放的 机器翻译 显然输出空间不是那么大 总结 一般开放的 对话 非常开放的 故事生成 将上面的任务总结成一条线如下 注意,不是说机器翻译就一定要用编码器-解码器,也不是说故事生成就一定要用解码器,上面只是一个惯例。只不过大家这么做是有原因的: 阅读全文
posted @ 2025-03-12 19:31 最爱丁珰 阅读(52) 评论(0) 推荐(0)
摘要:GPT-1 GPT-2(至少要三个支持是因为网络上的垃圾信息很多,有了支持能够显著减少垃圾信息的量) GPT-2首次实现了零样本学习。零样本学习是指模型在从未接触过特定任务的训练数据 、无需额外示例 、无需调整参数(梯度更新)的情况下,直接完成任务的能力。例如,用户只需给模型一个自然语言描述的任务( 阅读全文
posted @ 2025-03-11 23:49 最爱丁珰 阅读(46) 评论(0) 推荐(0)
摘要:对于像BERT这种现代NLP编码器,有以下的优点 解释一下第二条:我们微调也是需要调整BERT的(不只是调整添加的全连接层),所以我们已经预训练好了的BERT的参数就是初始参数,这个参数比我们随机的参数更好训练;解释一下第三个:就是我们可以通过现代NLP预训练模型(BERT需要额外微调才能生成文本, 阅读全文
posted @ 2025-03-11 15:45 最爱丁珰 阅读(55) 评论(0) 推荐(0)
摘要:目录人类语言的成分单词短语名词短语(NP.)介词短语(PP.)动词短语(VP.)不同短语之间的结合依存关系依存关系的定义树库依存关系所导致的语言中的歧义树库所能提供的信息依存句法分析的方式符号学习方法深度学习方法具体步骤结果基于图的方法依存句法分析的评估方法 人类语言的成分 单词 有八个类别,常见的 阅读全文
posted @ 2025-03-09 10:04 最爱丁珰 阅读(160) 评论(0) 推荐(0)
摘要:对于文本标注问题,如果不适用BERT,而是使用一般神经网络,那么应该长成下面这个样子 复习一下典型的神经网络反向传播的过程中求导的步骤 那个小圆圈是哈达姆积,想一下为什么可以这么转换 然后来看一下\(\frac{\partial{s}}{\partial{W}}\),如下 所以我们不必进行重复运算, 阅读全文
posted @ 2025-03-08 11:09 最爱丁珰 阅读(18) 评论(0) 推荐(0)
摘要:目录Word2Vec的直观理解如果采用直接计数的方法呢评估词向量的方法中间任务与实际任务1. 什么是中间任务?2. 为什么能直接分析词向量?内在评估1. 内在评估(Intrinsic Evaluation)外在评估2. 外在评估(Extrinsic Evaluation) Word2Vec的直观理解 阅读全文
posted @ 2025-03-07 12:27 最爱丁珰 阅读(14) 评论(0) 推荐(0)
摘要:对于文字的意义,语言学家有很多种定义。其中一种定义运用在自然语言处理中非常有用,这种意义的定义见下 分布式语义就是看上下文词来决定单词的意义。于是我们可以利用词向量来衡量两个词之间的相似程度,词的意义被分散在词向量的每一维中 词嵌入之所以叫词嵌入,是因为我们给每个单词分配一个向量的做法就是将每个单词 阅读全文
posted @ 2025-03-06 20:56 最爱丁珰 阅读(16) 评论(0) 推荐(0)