机器学习面经

入门:

1)吴恩达的课程,最好是看一遍,网上有课件下载的,边看课件边听课效果会更好。

    参考博客:http://blog.csdn.net/stdcoutzyx/article/category/2697301

            http://blog.csdn.net/abcjennifer/article/category/1173803/3

    这两个博客都是该课程的笔记,要是你能自己写出这样的笔记的话,那就更好。

2)统计学习方法:一本非常经典的书,几乎是找机器学习工作必看的书。这本书算是一个速成宝典,不过里面的公式还是挺多的。

3)机器学习实战:这本书有各种机器学习算法的代码,以及一些实战经验(实战经验很重要,面试提问的重点,但是这本书上写的也不是很多,即使写了也不会讲太多为什么,面试官很关心为什么的,看算法的时候多想想为什么会这样,也多跟有实战经验的人交流交流)。

4) PRML:有时间的话,一定要看一下这本宝典,没时间的话可以用其作为参考。纸质的只有英文版(书里面的英文真心不是很难),网上也有个人翻译版的(非专业的),还有各种看这本书的笔记博客,甚至还有专门的QQ群是用来讨论这本书的,可见这本书的重要地位。 

进阶(我没有完全做到):

  1. 推导出各个算法的公式,自己手动推导一遍算法,对算法的理解会上升一个等次。
  2. 自己动手写各种机器学习算法,用Python或者MATLAB写,相对容易很多。自己写完了算法,对算法的理解程度又会上升一个等级。【至少要把源码看一遍】
  3. 参加机器学习相关的竞赛,这类竞赛有很多很多。参加一次比赛,你对算法的理解又会上升一个等次。如果拿到一定的名次,奖金还挺丰厚的。

    这里列举一些这两年的比赛(有些已经举行完了,有些还在进行中):

    中国大数据技术创新大赛:http://bigdatacontest.ccf.org.cn/problems.html

         阿里天池大数据竞赛,这个里面有很多比赛,可以考虑参加下。http://tianchi.aliyun.com/competition/index.htm?spm=5176.100065.1234.3.qo6J75

   中国好创意CCF全国青年大数据创新大赛:http://www.wid.org.cn/project/2015ccf/index.php

面试官喜欢问的问题:

  1. 对比两个经典算法,如比较一下LR和SVM,这个问题大有文章可做。不仅仅是要你知道他们的区别,还要知道为什么会有这些区别。
  2. 讲解某个算法,比如你了解LR的原理吗?讲一下。这个平时得练练,试着跟同学互相练习。看懂一个算法是一回事,能讲出来又是另外一回事,能写出来又是一回事。讲解算法时要有条有理,而且不要过早地讲细节,先要讲清楚算法的大概框架。有的面试官会让你直接让你推导公式,比如你推导下随机梯度版本的LR。
  3. 某个算法有哪些特点,为什么?比如为什么SVM适合解决高维问题?【说一个算法的优缺点的时候,一般是指没有进行改进前的算法,比如SVM中使用SMO算法进行求解的话,可以避免一些问题】
  4. 某个算法使用某些假设和方法,为什么要这么做?比如为什么SVM要使用对偶问题来解决原问题?
  5. 数据对算法的影响,比如规范化处理对LR和SVM的影响?数据不平衡对LR和SVM的影响?为什么会有这些影响?标称型数据该怎么处理?这些如果有实战经验的话,就更容易明白了。
  6. 其他经典问题:如何处理过拟合和欠拟合,如何调参,LR和SVM如何处理多分类问题,SVM如何选择核函数。

 

技术博客撰写:很重要,机器学习知识还是比较多比较细的,所以要养成写博客的习惯。

引用:写博客很费时费力,但技术博客有很多的好处,一是帮助自己理解知识,如果自己写出来了,对知识就是真正的理解了,不然很有可能是自以为是的理解;二是帮助知识归纳,面试前不会乱了阵脚,只要看看自己写的博客就行了;三是帮助面试,如果写得好的话,可以在自己的简历上粘上链接,面试官会有兴趣看的,这样对面试加分会很大。

posted on 2015-09-27 21:05  二的二次方  阅读(1107)  评论(0编辑  收藏  举报

导航