随笔分类 - 4_机器学习书籍及杂(西瓜书、机器学习实战、统计学习方法、百面机器学习等)
摘要:201116西瓜书机器学习系列 16、强化学习 一、总结 一句话总结: 【强化学习的应用非常非常广泛】 【AlphaGo代表着双人完美信息零和游戏。AlphaGo在围棋这么难的问题上取得了举世瞩目的成绩;AlphaGo是人工智能的一个里程碑。】 【Deepmind AlphaStar打败了星际争霸人
阅读全文
摘要:201119西瓜书系列博客 13、半监督学习 一、总结 一句话总结: 【主动学习仍需交互】:显然,主动学习需要与外界进行交互/查询/打标,其本质上仍然属于一种监督学习。 【无标记数据其实大有裨益】:事实上,无标记样本虽未包含标记信息,但它们与有标记样本一样都是【从总体中独立同分布采样得到】,因此它们
阅读全文
摘要:201119西瓜书系列博客 14、概率图模型 一、总结 一句话总结: 机器学习的核心在于【根据一些已经观察到的证据(例如训练样本)来对未知变量进行估计和预测】。 其中【基于概率的模型】将学习任务归结为【计算变量的概率分布】,正如之前已经提到的:【生成式模型先对联合分布进行建模,从而再来求解后验概率】
阅读全文
摘要:201119西瓜书系列博客 15、规则学习 一、总结 一句话总结: 【规则学习】是【从训练数据中】学习出一组【能用于对未见示例进行判别的规则】 【规则】本身是一个【贪心的搜索过程】 形式化地看,一条规则形如:$$\oplus \leftarrow f _ { 1 } \wedge f _ { 2 }
阅读全文
摘要:201116西瓜书机器学习系列 14、概率图模型 一、总结 一句话总结: 概率图模型:一类用【图】来【表达变量关系】的模型 从【有向图模型】到【无向图模型】,到学习与推断 1、马尔科夫假设? 概率图中各个状态的变化,【只与他的临近前一个状态相关】 $$P ( i _ { t } | i _ { 1
阅读全文
摘要:201116西瓜书机器学习系列 13、半监督学习 一、总结 一句话总结: 监督学习就是有feature有label,无监督学习只有feature没有label,半监督学习就是【部分数据有label,部分数据每有label】 半监督学习和主动学习的区别是没有【专家系统】 1、半监督学习 常用方法? 可
阅读全文
摘要:201116西瓜书机器学习系列 12、计算学习理论 一、总结 一句话总结: 计算学习理论:研究【泛化误差】和【经验误差】之间的【逼近程度】 1、PAC可学习? PAC可学习:以较大概率【预测】到【满足预测误差上限】的模型 2、量化假设空间的复杂度的方法? 【VC维和Rademacher复杂度】 3、
阅读全文
摘要:201116西瓜书机器学习系列 11、特征选择 一、总结 一句话总结: 特征选择的【步骤】,特征选择的【方法】 1、稀疏学习? 2、信息增益如何做特征选择? 【信息增益越大,特征越重要】 3、过滤式特征选择:代表算法Relief(Relevant Feature)? Relief原理:【能区分开目标
阅读全文
摘要:201116西瓜书机器学习系列 10、降维 一、总结 一句话总结: 先讲一个【引子:k-nearst labor】,然后讲【降维方法】,有【线性和非线性两种】,然后是度量学习 1、降维常见方法? 降维方法主要是【线性和非线性两种】,线性的里面有我们熟知的【主成分分析PCA】 2、K近邻学习? K近邻
阅读全文
摘要:201116西瓜书机器学习系列 9、聚类 一、总结 一句话总结: 1、聚类理论基础? 2、聚类方法? 3、聚类性能度量? 聚类的性能度量主要分为【外部指标】和【内部指标】 聚类的基本想是:【簇内相似度高,簇外相似度低】 4、聚类距离计算? 聚类距离计算分为 【有序属性、无序属性、混合属性(有序和无序
阅读全文
摘要:201116西瓜书机器学习系列 8、集成学习 一、总结 一句话总结: 1、继承学习理论基础? 个体与集成的关系、模型结合策略、多样性 2、集成学习有哪些方法? 3、个体与集成的关系? 4、模型结合策略? 5、模型的多样性? 6、AdaBoost实例:怎么判断是否是苹果问题? 【找特征->错误放大 的
阅读全文
摘要:EM算法总结 一、总结 一句话总结: EM算法也称【期望最大化(Expectation-Maximum,简称EM)】算法, 它是一个基础算法,【是很多机器学习领域算法的基础】,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等。 1、EM算法要解决的问题? 我们经常会从样本观察数据中,找
阅读全文
摘要:201116西瓜书机器学习系列 7、贝叶斯分类器 一、总结 一句话总结: 为什么贝叶斯可以解决分类问题:【贝叶斯决策论】 贝叶斯决策论目标:【讲述为什么贝叶斯可以用来分类】 贝叶斯决策论核心思想:【如果每个样本都能条件风险最小化,则整体条件风险也就最小化了】 1、贝叶斯 公式? P(c):【先验概率
阅读全文
摘要:201116西瓜书机器学习系列 6、svm 一、总结 一句话总结: 基础svm解决了线性可分问题,提高维度可以让问题可分,但是可能会有维度爆炸的问题 核函数解决了维度爆炸的问题 软间隔解决了噪音问题 1、svm基本原理? 寻找一个最好的超平面,将样本分开 在每个点分类正确基础上,最大化距离 2、sv
阅读全文
摘要:201116西瓜书机器学习系列 5、神经网络 一、总结 一句话总结: 1、神经网络核心方法? 2、正则化? 二、内容在总结中 博客对应课程的视频位置:
阅读全文
摘要:201116西瓜书机器学习系列 4、决策树 一、总结 一句话总结: 决策树概念:基于树模型做决策;每个节点对应某个属性;每个分支对应可能的结果;叶子节点对应预测结果 决策树基本流程:分而治之,自根至叶的递归过程 1、决策树步骤? 划分选择、剪枝处理、连续与缺失值的选择 2、决策树 其它? 多变量决策
阅读全文
摘要:信息熵通俗解释 一、总结 一句话总结: 【不确定性叫做熵】:当一件事情(宏观态)有多种可能情况(微观态)时,这件事情(宏观态)对某人(观察者)而言具体是哪种情况(微观态)的不确定性叫做熵(entropy) 【消除不确定性的叫信息】:而能够消除该人做这件事情(宏观态)不确定性的事物叫做信息 【熵和信息
阅读全文
摘要:201116西瓜书机器学习系列 3、线性模型 一、总结 一句话总结: 线性回归的形式非常简单:$$f ( x ) = w _ { 1 } x _ { 1 } + w _ { 2 } x _ { 2 } + \ldots + w _ { d } x _ { d } + b$$ 线性回归可以用最小二乘法
阅读全文
摘要:201116西瓜书机器学习系列 2、模型评估 一、总结 一句话总结: 1、经验误差vs泛化误差? 经验误差:在训练集上面的误差-对应训练集数据 泛化误差:在“未来”样本上的误差-对应测试集数据 验证集是用来做什么的:验证超参数 2、混淆矩阵? 3、偏差和方差? 4、复杂模型的方差和偏差情况? 模型越
阅读全文
摘要:201116西瓜书机器学习系列 1、绪论 一、总结 一句话总结: 1、机器学习做什么(常用案例)? 互联网推荐:比如淘宝、今日头条等给用户做的个性推荐 自动驾驶:现在的自动驾驶比较成熟了,5g的出现可能会进一步提升,因为降低了延迟 帮助川建国赢得大选:通过机器学习模型,对选民进行精准分群,提升广告投
阅读全文