随笔分类 - machine learning
摘要:knn分类算法 1.特点 精度高 对异常值不敏感、计算时间空间复杂度高 2.基本思想、算法伪代码 3.构思定义好存储数据结构 dataSet (m n阶矩阵):m代表m个数据,n代表每个数据的特征向量维度 labels (m 1 list):m与数据数对应 classCount (p个key val
阅读全文
摘要:优点 1. FM模型可以在非常稀疏的数据中进行合理的参数估计,而SVM做不到这点 2. 在FM模型的复杂度是线性的,优化效果很好,而且不需要像SVM一样依赖于支持向量。 3. FM是一个通用模型,它可以用于任何特征为实值的情况。而其他的因式分解模型只能用于一些输入数据比较固定的情况。 与LR联系与区
阅读全文
摘要:混淆矩阵 构造一个高正确率或高召回率的分类器比较容易,但很难保证二者同时成立 ROC 1. 横轴:FPR(假正样本率)=FP/(FP+TN) 即,所有负样本中被分错的比例 2. 纵轴:TPR(真正样本率)=TP/(TP+FN) 即,所有正样本中被分对的比例 横轴越小越好,纵轴越大越好,即,ROC曲线
阅读全文
摘要:本人参考了大神的博客(https://blog.csdn.net/cyh_24/article/details/50359055),写的非常详细,在此整理一下要点 逻辑斯蒂分布 基础公式了解 二项逻辑回归模型 w为参数 了解几率、对数几率 (输出Y=1的对数几率是由输入x的线性函数表示的模型,这就是
阅读全文
摘要:基础概念 G=(V, E) 如果无向图中从每一个顶点到其他每个顶点都存在一条路径,则称该无向图是连通的(connected)。具有这样性质的有向图称为是强连通的的(strongly connected)。如果有向图不是强连通的,但它的基础图(underlying graph)(也就是其弧上去掉方向说
阅读全文
摘要:优化函数 损失函数 BGD 我们平时说的梯度现将也叫做最速梯度下降,也叫做批量梯度下降(Batch Gradient Descent)。 对目标(损失)函数求导 沿导数相反方向移动参数 在梯度下降中,对于参数的更新,需要计算所有的样本然后求平均,其计算得到的是一个标准梯度(这是一次迭代,我们其实需要
阅读全文
摘要:首先熟悉numpy随机n维数组的生成方法(只列出常用的函数): pandas两种典型数据结构及创建方式: Series DataFrame 通过np.random多维数组创建 通过字典创建 pandas选取数据
阅读全文
摘要:http://archive.ics.uci.edu/ml/index.php 最有名的机器学习数据资源。来自美国加州大学欧文分校。其中很多数据被用来比较算法的性能,基于这些资源,研究人员可以得到想对客观的性能比较结果。 https://registry.opendata.aws/ Amazon拥有
阅读全文
摘要:ps:笔者会持续更新~ 领域分支概括 俗话说得好: 做research或者学习某个技能最重要的是要对自己的research要非常熟悉(3mins让别人听懂你做的这玩意儿是个啥,contribution在哪里,让别人觉得你做的东西有意义) 那么我就整理一下自然语言处理相关领域分支~ 自然语言包括许多分
阅读全文
摘要:笔者研一,刚刚步入此行业,目前专攻于(人工智能 机器学习 自然语言处理NLP 文本挖掘) 我将会随着自己的学习持续更新,记录自己的成长,与大家共同进步!~ 总体分类 监督学习(Supervised learning) 分类(Logistic Regression逻辑回归) 回归(Linear Reg
阅读全文
摘要:还未完全写完,本人会一直持续更新!~ 各大深度学习框架总结和比较 各个开源框架在GitHub上的数据统计,如下表: 主流深度学习框架在各个维度的评分,如下表: Caffe可能是第一个主流的工业级深度学习工具,它开始于2013年底,具有出色的卷积神经网络实现。在计算机视觉领域Caffe依然是最流行的工
阅读全文
摘要:有那么一句话 不懂word2vec,就别说自己是研究 人工智能 机器学习 自然语言处理(NLP) 文本挖掘 的 所以接下来我就从头至尾的详细讲解一下word2vec这个东西。 简要介绍 先直接给出维基百科上最权威的解释(大家英语水平够格的话一定要充分理解这个最权威的解释,比国内的某些长篇啰嗦解释简直
阅读全文

浙公网安备 33010602011771号