随笔分类 -  机器学习

摘要:import matplotlib.pyplot as plt x = pdf.loc[:, 'sway_intention'] plt.hist(x, bins=10, range=(0, 1), density=True, stacked=True, weights=None, cumulati 阅读全文
posted @ 2021-07-22 12:08 威威后花园 阅读(659) 评论(0) 推荐(0)
摘要:一,位式控制算法 存在的问题 1. 算法过于简单,由于输出只有二值,且执行部件具有惯性,最终导致不能稳定到set_value,而是在set_value上下大范围波动 2. 只考虑控制对象当前的状态值 二,pid算法 优化位式算法,产生pid算法 pid算法特点 1. 输入:比位式算法,增加了对过往历 阅读全文
posted @ 2020-12-16 11:31 威威后花园 阅读(367) 评论(0) 推荐(0)
摘要:import numpy as np import pandas as pd left = pd.DataFrame({'A': [1., np.nan, 3., 4.], 'B': [1., 2., 3., 4.]}) d = np.nanpercentile(left["B"], np.lins 阅读全文
posted @ 2020-12-15 17:46 威威后花园 阅读(1737) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2020-10-14 09:40 威威后花园 阅读(64) 评论(0) 推荐(0)
摘要:题目 某种疾病的患病率为 0.5%, 通过验血诊断该病的误诊率为5%(非患者中有5%的人验血结果为阳性,患者中有5%的人验血结果为阴性).现在知道某人的验血结果为阳性,求其患此病的概率 朴素贝叶斯公式如下: 阅读全文
posted @ 2020-10-10 13:58 威威后花园 阅读(407) 评论(0) 推荐(0)
摘要:map阶段 # -*- coding: utf-8 -*- import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words: print("%s\t%s" % (word, 1) 阅读全文
posted @ 2020-08-28 16:30 威威后花园 阅读(269) 评论(0) 推荐(0)
摘要:编辑距离是求两个文本的相似度的一种算法。 我们将两个字符串 a,b 的 Levenshtein Distance 表示为 lev_{a,b}(|a|, |b|),其中|a| 和 |b| 分别对应a,b 的长度,公式如下 红框中的数字即为最终求取的"xyz"与"xxc"的编辑距离 应用与思考 编辑距离 阅读全文
posted @ 2020-08-11 15:00 威威后花园 阅读(562) 评论(0) 推荐(0)
摘要:背景 总结自己做过的《向量检索技术实现医疗文章语义召回》搜索项目 如何query向量化,title向量化 图1 在线模块query过模型,转成query_vec 图2 离线模块title过模型,转成title_vec 如何train出simnet模型 图3 训练simnet模型 如何构建title_ 阅读全文
posted @ 2020-07-07 09:21 威威后花园 阅读(924) 评论(0) 推荐(0)
摘要:背景 学习梳理lstm和bilstm的理论知识 什么是lstm,bilstm lstm:是rnn的一种,针对有序的数据,有对数据信息长短记忆的功能 bilstm:是前向lstm和后项lstm的组合 为什么要lstm, bilstm lstm: 其可以更好的捕获较长距离的依赖关系,通过训练过程可以学到 阅读全文
posted @ 2020-07-04 10:21 威威后花园 阅读(9742) 评论(0) 推荐(0)
摘要:背景 学习numpy知识 import numpy as np # 产出300个在[-1, 1]之间等分的数据,shape为 (300,1) x_data = np.linspace(-1, 1, 300)[:, np.newaxis] # 产出正太分布下的随机数,函数normal参数为(均值,标准 阅读全文
posted @ 2020-06-25 12:35 威威后花园 阅读(140) 评论(0) 推荐(0)
摘要:背景 了解深度学习中的梯度爆炸与消失的原因,及如何处理梯度爆炸与消失。 梯度消失 梯度消失是激活函数和权重矩阵初始化值,这两个因素决定的。 sigmoid函数,求导的最大值为0.25 根据链式求导法则:导数小于0.25,如果初始化的W值,再小于1,这样逐个相乘后,会导致偏差为0,最终导致网路中的参数 阅读全文
posted @ 2020-06-24 17:24 威威后花园 阅读(243) 评论(0) 推荐(0)
摘要:什么是余弦距离 余弦距离 = 1 - 余弦相似度 余弦相似度计算方法如下 余弦距离的值域 [0, 2] 一般深度学习用余弦相似度作为预测值 什么是欧式距离 欧氏距离与余弦距离的选择 总体来说 欧氏距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异 关注绝对误差的时候,选欧式距离 例如分析用户活 阅读全文
posted @ 2020-02-22 16:53 威威后花园 阅读(1112) 评论(0) 推荐(0)
摘要:背景 彻底搞懂simhash原理,及如何进行文本相似度的比较。 simhash原理 概括的说即是:将文本向量化后,进行向量间的距离计算,卡某个阈值来判定两个文本是否相似。 涉及关键点 文本向量化操作 切词,并赋权重值 bin(hash(切词)).zfill(64); 转成定长01向量 向量乘权重;遇 阅读全文
posted @ 2020-02-19 20:48 威威后花园 阅读(1246) 评论(0) 推荐(0)
摘要:背景 面试机器学习经常被问到牛顿迭代法求根,现准备梳理下牛顿迭代法。 核心公式,可理解为机器学习中的优化器 xn+1 = xn - f(xn) / f'(xn) 举个求根号2的例子 x2 = 2, 使用牛顿迭代法求根 解: 转化成函数: f(x) = x2 - 2, 求该函数的近似正根;定义损失函数 阅读全文
posted @ 2020-02-18 18:01 威威后花园 阅读(644) 评论(0) 推荐(0)