10 2015 档案
摘要:主要为第八周内容:聚类(Clustering)、降维聚类是非监督学习中的重要的一类算法。相比之前监督学习中的有标签数据,非监督学习中的是无标签数据。非监督学习的任务是对这些无标签数据根据特征找到内在结构。聚类就是通过算法把数据分成不同的簇(点集),k均值算法是其中一种重要的聚类算法。 K均值算法 K...
阅读全文
摘要:主要第七周的内容:支持向量机 可以参考JerryLeed 的支持向量机SVM系列博客http://www.cnblogs.com/jerrylead 以及 pluskid的支持向量机系列博客http://blog.pluskid.org/?page_id=683 优化目标 判定边界 核函数 总结
阅读全文
摘要:主要为第六周内容机器学习应用建议以及系统设计。 下一步做什么 当训练好一个模型,预测未知数据,发现结果不如人意,该如何提高呢? 1.获得更多的训练实例 2.尝试减少特征的数量 3.尝试获得更多的特征 4.尝试增加二项式特征 5.尝试减少归一化程度λ 6.尝试增加归一化程度λ 先不要急着尝试这些方法,而是通过一些机器学习诊断方法来判断现在算法是什么情况,哪些方法是可以提高算法的有效性,如何选择更有意...
阅读全文
摘要:质数又称素数。指在一个大于1的自然数中,除了1和此整数自身外,没法被其他自然数整除的数。怎么判断n以内的哪些数是质数呢? 埃拉托斯特尼筛法厄拉多塞是一位古希腊数学家,他在寻找素数时,采用了一种与众不同的方法:先将2-N的各数放入表中,然后在2的上面画一个圆圈,然后划去2的其他倍数;第一个既未画圈又没...
阅读全文
摘要:Floyd判圈算法 leetcode 上 编号为202 的happy number 问题,有点意思。happy number 的定义为: A happy number is a number defined by the following process: Starting with any p...
阅读全文
摘要:今天在leetcode看到一个题目:Majority Element,题目内容是: Given an array of size n, find the majority element. The majority element is the element that appears more t...
阅读全文
摘要:主要为第四周、第五周课程内容:神经网络神经网络模型引入 之前学习的线性回归还是逻辑回归都有个相同缺点就是:特征太多会导致计算量太大。如100个变量,来构建一个非线性模型。即使只采用两两特征组合,都会有接近5000个组成的特征。这对于普通的线性回归和逻辑回归计算特征量太大了。因此,神经网路孕育而生。神...
阅读全文
摘要:主要为第三周课程内容:逻辑回归与正则化 逻辑回归(Logistic Regression) 一、逻辑回归模型引入分类问题是指尝试预测的是结果是否属于某一个类。维基百科的定义为:根据已知训练区提供的样本,通过计算选择特征参数,建立判别函数以对样本进行的分类(有监督分类)。统计学习方法中定义:在监督学习...
阅读全文
摘要:最近学习python 做些数据挖掘相关的练习,涉及到很多第三方的库,所以做一总结。 Setuptools 可以让程序员更方便的创建和发布 Python 包,特别是那些对其它包具有依赖性的状况。 我特别喜欢它的easy_install 命令,能够自动查找、下载、安装、升级依赖包,不需要考虑其他杂七杂八的项目。 安装也非常方便。 地址:https://pypi.python.org/pypi/setu...
阅读全文

浙公网安备 33010602011771号