摘要:
Two Main Branches of Learning 学习系统的两个方向: 专家系统:符号主义,基于规则来实现,目前仍然有在使用。适合数据量很少甚至没有的时候。 基于概率统计的系统:连接主义,基于学习的方式来实现,比如机器学习,深度学习。适合拥有大量数据的情况。 虽然目前最火的是基于概率统计的 阅读全文
摘要:
Language Model (语言模型) Noisy Channel Model \[ p(text|source) \propto p(source|text)p(text) \] $\propto$符号表示成正比,公式根据Bayes定理得出,目标是找到使得$p(text|source)$概率最 阅读全文
摘要:
前面我们已经讲解了线性回归和逻辑回归算法,但是当我们将这些算法应用到实际问题中时,有可能会出现过拟合问题(overfitting problem),导致效果很差,我们可以通过正则化来处理过拟合问题。 The Problem of Overfitting 主要介绍了什么是过拟合。 Example 以我 阅读全文
摘要:
本章主要通过一个应用实例——图片文字识别(Photo OCR),来讲解一个完整的机器学习问题中的相关概念。 Problem description and pipeline 本节主要讲解了什么是OCR,以及机器学习中流水线/管道(pipeline)的概念。 The Photo OCR problem 阅读全文
摘要:
本章主要讲解如何将大规模数据集运用到机器学习算法。 Learning with large datasets 从上面这幅图我们可以知道,数据集的规模往往比算法更重要,也就是说采用大数据量训练普通算法,效果也会比只拥有少量数据的优秀算法更好。 而大数据应用在机器学习算法上面最常见的问题就是运算量的问题 阅读全文