随笔分类 -  百面机器学习笔记

摘要:经典算法 决策树 场景描述 时间:早上八点,地点:婚介所。 “闺女,我又给你找了个合适的对象,今天要不要见一面?” “多大?” “26岁。” “长得帅吗?” “还可以,不算太帅。” “工资高么?” “略高于平均水平。” “会写代码吗?” “人家是程序员,代码写得棒着呢!” “好,那把他联系方式发来吧 阅读全文
posted @ 2020-04-08 00:07 看星星的小宇 阅读(207) 评论(0) 推荐(0)
摘要:经典算法 逻辑回归 question:逻辑回归相比于线性回归,有何异同? answer:逻辑回归处理的是分类问题,线性回归处理的是回归问题,这是两者的最本质的区别。逻辑回归中,因变量取值是一个二元分布,模型学习得出的是 ,即给定自变量和超参数后,得到因变量的期望,并基于此期望来处理预测分类问题。而线 阅读全文
posted @ 2020-04-06 23:47 看星星的小宇 阅读(164) 评论(0) 推荐(0)
摘要:经典算法 支持向量机(svm) question: 在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点在超平面上的投影仍然是线性可分的吗? answer:不是。 补充: 实际上,该问题也可以通过凸优化理论中的超平面分离定理(Separating Hyperplane Theorem, 阅读全文
posted @ 2020-04-05 23:15 看星星的小宇 阅读(353) 评论(0) 推荐(0)
摘要:模型评估 超参数调优 question:超参数有哪些调优方法? answer:一般用网格搜索、随机搜索、贝叶斯优化。 ■ 网格搜索 网格搜索可能是最简单、应用最广泛的超参数搜索算法,它通过查找搜索范 围内的所有的点来确定最优值。如果采用较大的搜索范围以及较小的步长,网格 搜索有很大概率找到全局最优值 阅读全文
posted @ 2020-04-04 23:37 看星星的小宇 阅读(213) 评论(0) 推荐(0)
摘要:点击查看creditcard 参考网上资料,自己跑了一遍,由于参考资料众多,就不列举了 阅读全文
posted @ 2020-04-03 23:49 看星星的小宇 阅读(235) 评论(0) 推荐(0)
摘要:模型评估 ROC曲线 question:如何计算AUC? answer:首先,AUC是指ROC曲线下的面积大小,该值能够量化地反映基于ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC横轴做积分就可以了。 由于ROC曲线一般都处于y=x这条直线的上方(如果不是的话,只要把模型预测的 概率反转成 阅读全文
posted @ 2020-04-03 23:39 看星星的小宇 阅读(195) 评论(0) 推荐(0)
摘要:模型评估 评估指标的局限性 question:准确率的局限性? answer:准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷。比 如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确 率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的 阅读全文
posted @ 2020-04-02 00:07 看星星的小宇 阅读(131) 评论(0) 推荐(0)
摘要:特征工程 文本表示模型 question:有哪些文本表示模型?它们各有什么优缺点? answer:词袋模型和N-gram模型、主题模型、词嵌入与深度学习模型 最基础的文本表示模型是词袋模型。就是将每篇文章看成一袋子 词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开, 然后每篇文章 阅读全文
posted @ 2020-03-31 21:58 看星星的小宇 阅读(301) 评论(0) 推荐(0)
摘要:特征工程 特征归一化 为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得 不同指标之间具有可比性。想要得到更为准确的结果,就需要进行特征归一化 (Normalization)处理,使各指标处于同一数值量级,以便进行分析。 question:为什么需要对数值类型的特征做归一化? ans 阅读全文
posted @ 2020-03-30 21:09 看星星的小宇 阅读(265) 评论(0) 推荐(0)