随笔分类 -  机器学习

摘要:https://zhuanlan.zhihu.com/p/35356992 阅读全文
posted @ 2019-12-17 14:35 下路派出所 阅读(393) 评论(0) 推荐(0)
摘要:熵 考虑另一个问题,对于某个事件,有n种可能性,每一种可能性都有一个概率p(xi)这样就可以计算出某一种可能性的信息量。举一个例子,假设你拿出了你的电脑,按下开关,会有三种可能性,下表列出了每一种可能的概率及其对应的信息量 序号事件概率p信息量I A 电脑正常开机 0.7 -log(p(A))=0. 阅读全文
posted @ 2019-12-02 17:00 下路派出所 阅读(301) 评论(0) 推荐(0)
摘要:熵和自信息 1. 自信息I(x)是变量X=x时的信息量或编码长度 \[I(x) = - \log (p(x))\] 2. 熵是用来衡量一个随机事件的不确定性 3. 熵是一个随机变量的平均编码长度,即自信息的数学期望(均值)。熵越高,则随机变量的信息越多;熵越低,则信息越少。 互信息 1. 互信息是衡 阅读全文
posted @ 2019-08-06 16:58 下路派出所 阅读(676) 评论(0) 推荐(0)
摘要:这份代码来自于苏剑林 阅读全文
posted @ 2019-08-02 16:44 下路派出所 阅读(1239) 评论(0) 推荐(0)
摘要:逐帧softmax CRF主要用于序列标注问题,可以简单理解为是给序列中的每一帧都进行分类,既然是分类,很自然想到将这个序列用CNN或者RNN进行编码后,接一个全连接层用softmax激活,如下图所示 条件随机场 然而,当我们设计标签时,比如用s、b、m、e的4个标签来做字标注法的分词,目标输出序列 阅读全文
posted @ 2019-08-01 18:06 下路派出所 阅读(6312) 评论(0) 推荐(2)
摘要:本质上讲,Focal Loss 就是一个解决分类问题中类别不平衡、分类难度差异的一个 loss,总之这个工作一片好评就是了。 看到这个 loss,开始感觉很神奇,感觉大有用途。因为在 NLP 中,也存在大量的类别不平衡的任务。最经典的就是序列标注任务中类别是严重不平衡的,比如在命名实体识别中,显然一 阅读全文
posted @ 2019-07-18 14:59 下路派出所 阅读(9838) 评论(0) 推荐(0)
摘要:1. 为什么需要normalization 1.1 独立同分布与白化 机器学习界的炼丹师们最喜欢的数据有什么特点?窃以为,莫过于“独立同分布”了,即independent and identically distributed,简称为 i.i.d. 独立同分布并非所有机器学习模型的必然要求(比如 N 阅读全文
posted @ 2019-06-29 23:25 下路派出所 阅读(2713) 评论(0) 推荐(0)
摘要:Windows: https://www.lfd.uci.edu/~gohlke/pythonlibs/#fasttext 下载需要的版本 然后:pip install 文件名 阅读全文
posted @ 2018-12-19 10:33 下路派出所 阅读(804) 评论(0) 推荐(0)
摘要:EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等 1. EM算法要解决的问题 我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布 阅读全文
posted @ 2018-12-18 19:55 下路派出所 阅读(451) 评论(0) 推荐(0)
摘要:即排除当前词的主题分配,根据其他词的主题分配和观察到的单词来计算当前词主题的概率公式 里面用到了伽马函数的性质 当Gibbs sampling 收敛后,我们需要根据最后文档集中所有单词的主题分配来计算和,作为我们估计出来的概率图模型中的隐含变量。每个文档上Topic的后验分布和每个Topic下的te 阅读全文
posted @ 2018-12-18 16:09 下路派出所 阅读(284) 评论(0) 推荐(0)
摘要:#日期识别 # -*- coding: utf-8 -*- import re from datetime import datetime, timedelta from dateutil.parser import parse import jieba.posseg as psg UTIL_CN_NUM = { '零': 0, '一': 1, '二': 2, '两': 2, '三... 阅读全文
posted @ 2018-12-17 14:34 下路派出所 阅读(836) 评论(0) 推荐(0)
摘要:语料库地址: 链接:https://pan.baidu.com/s/1dozkaKD8yQdt51Z-R4ExHQ 提取码:f705 阅读全文
posted @ 2018-12-17 13:34 下路派出所 阅读(637) 评论(0) 推荐(0)
摘要:XGBoost其实是由一群训练出来的CART回归树集成出来的模型。 目标 目标其实就是训练一群回归树,使这树群的预测值尽量接近真实值,并且有尽可能强大的泛化能力。来看看我们的优化函数: 优化函数 i表示的是第i个样本,前一项是表示的是预测误差。后一项表示的是树的复杂度的函数,值越小表示复杂度越低,泛 阅读全文
posted @ 2018-12-12 22:21 下路派出所 阅读(583) 评论(0) 推荐(0)
摘要:将自定义用户词典加入的词与词性中间的空格更改为@@ 1.原来:牵连关系 50 n 2.现在:牵连关系@@50@@n 更改jieba根目录下的__init__.py文件下代码: 1.原来:re_userdict = re.compile('^(.+?)( [0-9]+)?( [a-z]+)?$', r 阅读全文
posted @ 2018-12-10 17:46 下路派出所 阅读(3623) 评论(1) 推荐(1)
摘要:df = df.dropna(axis=0, how='any') 阅读全文
posted @ 2018-12-10 13:47 下路派出所 阅读(572) 评论(0) 推荐(0)
摘要:# 3维import numpy as np import matplotlib.pyplot as plt from sklearn.datasets.samples_generator import make_classification from mpl_toolkits.mplot3d import Axes3D fig = plt.figure() ax = Axes3D(fig) ... 阅读全文
posted @ 2018-12-07 17:01 下路派出所 阅读(1970) 评论(0) 推荐(0)
摘要:1.马尔科夫网络指无向图 2.一阶马尔科夫链指有向图,这个时刻的状态只依赖前一个时刻 阅读全文
posted @ 2018-12-03 17:29 下路派出所 阅读(672) 评论(0) 推荐(0)
摘要:LR:Logistic 是 Softmax 的特殊形式,多以如果 Softmax 与 MaxEnt 是等价的,则 Logistic 与 MaxEnt 是等价的。 HMM模型: 将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种生成模型,定义了 阅读全文
posted @ 2018-12-03 16:53 下路派出所 阅读(1671) 评论(0) 推荐(0)
摘要:LR如何解决低维不可分 特征映射:通过特征变换的方式把低维空间转换到高维空间,而在低维空间不可分的数据,到高维空间中线性可分的几率会高一些。具体方法:核函数,如:高斯核,多项式核等等。 从图模型角度看LR LR模型可以看作是CRF模型的低配版,在完全不定义随机变量交互,只考虑P(Y|X)的情况下,得 阅读全文
posted @ 2018-12-02 11:57 下路派出所 阅读(290) 评论(0) 推荐(0)
摘要:from sklearn.metrics import roc_curve, auc import matplotlib as mpl import matplotlib.pyplot as plt def plot_roc(labels, predict_prob): false_positive_rate,true_positive_rate,thresholds=roc_c... 阅读全文
posted @ 2018-11-19 14:32 下路派出所 阅读(3564) 评论(0) 推荐(0)