随笔分类 -  NLP知识

python如何Fleiss Kappa
摘要:目的 检验数据一致性 示例 机器学习中涉及新数据集发布的论文通常会描述数据集的构建过程,一份数据集往往由多位标注员共同完成,不同标注员对数据的理解很容易存在偏差,这极大程度上会影响数据集的一致性,从而限制算法的性能。因此在构建数据集的标注过程中,大多数构建数据集的工作都会对标注员之间的标注一致性进行 阅读全文

posted @ 2024-12-06 18:00 耀扬 阅读(307) 评论(0) 推荐(0)

[CLS],[SEP],[PAD] 解释
摘要:[CLS]作为起始符,[SEP]作为两句句子的中间隔离符。[PAD]标记在整个序列的最末尾 阅读全文

posted @ 2022-06-16 15:48 耀扬 阅读(693) 评论(0) 推荐(0)

networkx无法显示中文
摘要:修改matplotlibrc文件 font.family : sans-serif #打开该选项 #打开该选项 font.sans-serif : Microsoft YaHei , Bitstream Vera Sans, Lucida Grande, Verdana, Geneva, Lucid 阅读全文

posted @ 2022-06-03 23:24 耀扬 阅读(490) 评论(0) 推荐(0)

卷积与Max Pooling(池化)
摘要:#1、什么是卷积 从数学上讲,卷积就是一种运算。 有这么一副图像,可以看到,图像上有很多噪点: 高频信号,就好像平地耸立的山峰: 看起来很显眼。平滑后得到: 平滑这座山峰的办法之一就是,把山峰刨掉一些土,填到山峰周围去。用数学的话来说,就是把山峰周围的高度平均一下。 卷积可以帮助实现这个平滑算法。 阅读全文

posted @ 2021-08-10 17:04 耀扬 阅读(995) 评论(0) 推荐(0)

BiLSTM是什么
摘要:什么是LSTM和BiLSTM? LSTM的全称是Long Short-Term Memory,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。 BiLSTM是Bi-directional Long Short- 阅读全文

posted @ 2021-08-10 15:16 耀扬 阅读(4946) 评论(0) 推荐(0)

jieba自定义idf库
摘要:先建个list,名字叫:data_content 里面的内容如上图。要把数据处理成上面那样的 先分词、过滤。 最后引入如下代码: import math idf_dic = {} #data_content是分析文本 doc_count = len(data_content) # 总共有多少篇文章 阅读全文

posted @ 2021-02-04 13:04 耀扬 阅读(1124) 评论(0) 推荐(0)

CRF条件随机场的理解
摘要:CRF能用来做什么? CRF 是一个序列化标注算法(sequence labeling algorithm),接收一个输入序列如 并且输出目标序列 ,也能被看作是一种seq2seq模型。这里使用大写 X,Y 表示序列。例如,在词性标注任务中,输入序列为一串单词,输出序列就是相应的词性。 除了词性标注 阅读全文

posted @ 2020-07-26 22:55 耀扬 阅读(391) 评论(0) 推荐(0)

深度学习-学习率
摘要:原作地址 学习率 (learning rate),控制 模型的 学习进度 lr 即 stride (步长) ||学习率 大|学习率 小| |-|-|-| |学习速度|快|慢| |使用时间点|刚开始训练时|一定轮数过后| |副作用|1.易损失值爆炸;2.易振荡。|1.易过拟合;2.收敛速度慢。| 学习 阅读全文

posted @ 2020-07-26 14:18 耀扬 阅读(566) 评论(0) 推荐(0)

深度学习-三个概念:Epoch, Batch, Iteration
摘要:原文地址深度学习 | 三个概念:Epoch, Batch, Iteration 参考学习做笔记 在训练神经网络的时候,我们会看到Batch、Epoch和Iteration这几个概念。 名词解释: |名词|定义| |-|-| |Epoch|使用训练集的全部数据对模型进行一次完整的训练,被称之为“一代训 阅读全文

posted @ 2020-07-24 18:01 耀扬 阅读(2110) 评论(0) 推荐(2)

fastText自动调参
摘要:可能fastText 已经过时了。不过毕竟还是一个轻便快捷的深度模型。 自动调参方式原文文档 facebook提供了两种自动调参方式,一种是命令行的,一种是基于python的。 本人不喜欢命令行的,因为大多数调参的状态都是在python中写边改的。还是python编辑器方便。 import fast 阅读全文

posted @ 2020-07-24 17:16 耀扬 阅读(2320) 评论(2) 推荐(1)

fastText window10安装
摘要:直接使用pip安装报错 一看就是老问题,又是因为本机C++编译器版本的问题。 没事,老外有热心公益的 Unofficial Windows Binaries for Python Extension Packages 人家都给你编译好了 根据自己的版本进行选择 把文件放个简单的路径下,如E盘根目录, 阅读全文

posted @ 2020-07-22 11:28 耀扬 阅读(675) 评论(0) 推荐(0)

F1值,准确率,召回率
摘要:1、混淆矩阵 混淆矩阵中T、F、P、N的含义: T:真,F:假,P:阳性,N:阴性 然后组合: TP:真阳性 TN:真阴性 FP:假阳性 FN:假阴性 2、准确率 准确率:反映了系统对正样本预测的准确性 正确分类的样本数与总样本数之比 Accuracy=(TP+TN)/总样本数量 3、精确率: 你认 阅读全文

posted @ 2020-07-20 14:26 耀扬 阅读(4500) 评论(0) 推荐(0)

白话深度神经网络
摘要:#为什么要整出个深度神经网络? 先从方程说起 ###1、一元线性方程 首先说 一元线性方程 已知 x, y,通过算法探求 x->y 的规律,也就是计算 a,b的 值。 常用的算法 最小二乘法 ###2、多元线性方程 已知 x, y,通过算法探求 x->y 的规律,也就是计算 各个β,ε的 值。 常用 阅读全文

posted @ 2020-07-19 09:21 耀扬 阅读(643) 评论(0) 推荐(0)

TF-IDF算法原理及其使用详解
摘要:拜读了两篇大作,受益匪浅,感谢! 这孩子谁懂哈 https://blog.csdn.net/zhaomengszu/article/details/81452907 elly https://zhuanlan.zhihu.com/p/94446764 #如何准确抓住一篇文章内容的关键词? TF-ID 阅读全文

posted @ 2020-06-18 12:12 耀扬 阅读(1560) 评论(0) 推荐(0)

理解LSTM笔记
摘要:原文:https://www.jianshu.com/p/95d5c461924c 感谢作者 循环神经网络(Recurrent Neural Networks) 人对一个问题的思考不会完全从头开始。比如你在阅读本片文章的时,你会根据之前理解过的信息来理解下面看到的文字。在理解当前文字的时候,你并不会 阅读全文

posted @ 2020-02-17 13:44 耀扬 阅读(253) 评论(0) 推荐(0)

常用的激活函数
摘要:什么是激活函数? 激活函数(Activation functions)对于人工神经网络 [1] 模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。如图1,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数。引入 阅读全文

posted @ 2020-02-17 11:30 耀扬 阅读(370) 评论(0) 推荐(0)

文本清洗常用的工具
摘要:原文地址:https://zhuanlan.zhihu.com/p/53286270 贪心科技李文哲老师的文章 学习笔记 1、去除标点符号 s = ''.join(c for c in word if c not in string.punctuation) 2、英文转换为小写 s.lower() 阅读全文

posted @ 2020-02-14 15:55 耀扬 阅读(737) 评论(0) 推荐(0)

从BERT, XLNet, RoBERTa到ALBERT
摘要:原文地址:https://zhuanlan.zhihu.com/p/84559048 拜读贪心科技李文哲老师的文章,我做个笔记。 摘抄记录如下: 谷歌Lab近日发布了一个新的预训练模型"ALBERT"全面在SQuAD 2.0、GLUE、RACE等任务上超越了BERT、XLNet、RoBERTa再次刷 阅读全文

posted @ 2020-02-13 22:31 耀扬 阅读(779) 评论(0) 推荐(0)

机器学习中的MLE、MAP、贝叶斯估计
摘要:原文地址:https://zhuanlan.zhihu.com/p/72370235 好文必须共享,感谢贪心科技的李文哲老师。讲得非常透彻。 以下是我的学习笔记 MLE(极大似然估计)、MAP(最大后验估计)以及贝叶斯估计(Bayesian) 三者的关系是什么呢? 一个具体的例子 "张三想从清华计算 阅读全文

posted @ 2020-02-13 22:23 耀扬 阅读(949) 评论(0) 推荐(1)

关于最大似然估计的理解
摘要:似然 这个词害死人啊! 拽什么拽啊,就是 最大可能估计!还有什么极大似然估计。都是坑人的,都一样。 最大似然估计是机器学习领域最为常见的用来构建 目标函数 的方法。 他的核心思想是:根据观测到的结果来预测其中的未知参数。 假设有一枚硬币,它是不均匀的,也就是说出现正面的反面的概率是不同的。假设我们设 阅读全文

posted @ 2020-02-13 20:28 耀扬 阅读(467) 评论(0) 推荐(0)

导航