摘要: 导读:作者wrchow是浙江大学计算机硕士,通过自己的努力终于拿到了心仪的offer(搜狗Web数据挖掘助理研究员),实现了从事互联网数据挖掘的梦想。他对数据挖掘这个行业的兴趣,以及为了进入这个行业所做的准备和努力,非常值得想进入这一行业的在校生或朋友们参考。我的数据挖掘之路由于本科专业是生物信息(可以理解为生物统计学或者与基因数据相关的数据挖掘学科), 所以那时已经开始接触数据挖掘,对统计也算有一定的基础。记得大二的时候,我便开始学用 matlab,然后玩弄SVM,神经网络之类的机器学习算法做一些分析和实验。现在想想那时候可能连这些算法的基本概念都不是很清晰,算是皮毛都不懂。但有一点就是,让 阅读全文
posted @ 2012-10-22 17:22 亲爱的扣扣 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 几个月前找实习的时候囫囵吞枣地看了一遍《这些道理没有人告诉过你》,觉得讲得还不错,现在重看,顺便写一下读书笔记。1 择业主要从四个方面进行选择:行业,职业,公司,薪资,而不是某个具体职业。2关于大学规划的反思:作者以一个过来人的角度,回眸并得到经验,大学规划应该:(1)打造自己的通才本领:越是知名企业越看重通才能力,通才包括1 英语口语水平,尤其是实用口语的练习;2 计算机操作水平,要把word,excel ,PPT学精学透,而不是只懂得基本操作。(其实在实习期间我也有此感悟,当时才暗暗下定决心要好好学,要不然好多操作都要花上好长时间,结果一回到学校就缺乏动力了)3 逻辑思维能力:逻辑思维能力 阅读全文
posted @ 2012-10-22 17:19 亲爱的扣扣 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 交叉验证(Cross validation),有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize),交叉验证一般要尽量满足:1)训练集的比例要足够多,一般大于一半2)训练集和测试集要均匀抽样交叉验证主要分成以下几类:1)k-folder cross-validation:k个子集,每个子集均做一次测试集,其余的作为训练集。交叉验证重复k次,每 阅读全文
posted @ 2012-10-07 08:55 亲爱的扣扣 阅读(186) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2012-09-24 15:26 亲爱的扣扣 阅读(2) 评论(0) 推荐(0) 编辑