随笔分类 -  9417

machine learning and data mining
题目
摘要:1. K-NN algorithm does more computation on test time rather than train time True, 因为要计算query与其他所有点之间的距离 2. 用decision tree表示Boolean function,可以先将真值表画出来 阅读全文

posted @ 2020-05-03 08:26 Eleni 阅读(162) 评论(0) 推荐(0)

final 3
摘要:1. Bias-Variance Decomposition bias:模型真实值与预测值之间的差距(模型本身问题) variance:由于训练数据不同导致的误差 2. stability variance小,bias大的模型 同一个数据集产生两个set,同一个training algorithm对 阅读全文

posted @ 2020-05-02 14:28 Eleni 阅读(250) 评论(0) 推荐(0)

final 2
摘要:1. inductive bias: 模型由于假定好的限制,不能跟真实的模型足够接近 如linear regression:假设target function是线性的;使用尽可能减小MSE来作为优化方向 nearest neighbor:假设function不能由一个简单的线性或非线性的functi 阅读全文

posted @ 2020-05-02 10:19 Eleni 阅读(389) 评论(0) 推荐(0)

final 1
摘要:1. machine learning分类 supervised learning:output class is given (regression + classification) unsupervised learning 2. regression预测的结果是一个连续的值,即对x y进行拟 阅读全文

posted @ 2020-04-30 12:42 Eleni 阅读(372) 评论(0) 推荐(0)

班课8
摘要:1. unsupervised learning 可用于cluster analysis,常用方法可以分为两个大类:hierarchical methods, partitioning methods。前者为层级方式 对于同一个cluster来讲,需要同一个cluster里面的元素尽可能接近,不同c 阅读全文

posted @ 2020-04-28 10:14 Eleni 阅读(156) 评论(0) 推荐(0)

班课7
摘要:1. input layer形式为x1, x2, x3...xn,交互得到下一层hidden layer(如两者相加),hidden layer可以有很多层,最后得到output layer 2.perceptual 第一个圆中是根据不同的weight将input求和,第二个是根据求和的结果,大于0 阅读全文

posted @ 2020-04-27 17:45 Eleni 阅读(185) 评论(0) 推荐(0)

班课6
摘要:1. project preprocess: a. bag of words: sklearn.feature_extraction.text.CountVectorizer 把所有出现过的单词整合成字典 b. TFIDF: sklearn.feature_extraction.text.Tfidf 阅读全文

posted @ 2020-04-13 09:16 Eleni 阅读(125) 评论(0) 推荐(0)

班课5
摘要:1. learning scenarios:machine learning中会遇到的几种问题 a) classification b) regression c) scoring and ranking:对每一个类型进行打分(可划分在classification中) d) probability 阅读全文

posted @ 2020-04-11 12:54 Eleni 阅读(159) 评论(0) 推荐(0)

班课4 decision tree
摘要:1. TDIDT:找到最佳decision attribute,然后将数据分开 如ID3,所选attribute一定是categorical attributes(yes,no等), 不能是数值型的 另一个方法为CaRT,这节课不做太多涉及 2. ID3的选取原则为测算entropy:数据混乱程度; 阅读全文

posted @ 2020-03-19 11:59 Eleni 阅读(202) 评论(0) 推荐(0)

班课3
摘要:1. bayesian methods: 隶属generative model,即通过先前的概率(prior)对新加进来的点的分类进行预测;为了对这个预测进行改进,我们可以先对新加进来的点进行观察,根据它的特点进行预测 2. 如果需要考虑prior,计算maximum a posteriori hy 阅读全文

posted @ 2020-03-18 11:15 Eleni 阅读(146) 评论(0) 推荐(0)

班课2
摘要:1. classification 即根据我们观察到的feature分类,核心是找到中间的boundary,大于该值的一类,小于该值的分到另一类(ax1+bx2+c=0) 为了避免公式过于复杂,定义weight vector, WT=[a, b], XT=[x1, x2],故而得到新的表达式XTw= 阅读全文

posted @ 2020-03-10 07:08 Eleni 阅读(132) 评论(0) 推荐(0)

lecture 4
摘要:5. The arithmetic mean minimises squared Euclidean distance 算数平均值可以使squared Euclidean distance最小(squared Euclidean distance指这个点到dataset里所有点的距离平方之和) 如果 阅读全文

posted @ 2020-02-29 17:23 Eleni 阅读(282) 评论(0) 推荐(0)

串讲
摘要:COMP9417 1. machine learning分为supervised learning与unsupervised learning supervised learning基于input以及output做出判断,算法分为classification(得到分类)与regression(数值预 阅读全文

posted @ 2020-02-25 19:11 Eleni 阅读(256) 评论(2) 推荐(0)

lecture 3
摘要:1. Bias-Variance Decomposition irreducible error无法被减小,而reducible error可以通过对model的调整将其最小化 2. 一般情况下而言,model越复杂,bias越小,而variance越高,故而我们要找到一个平衡使MSE最小 3. c 阅读全文

posted @ 2020-02-25 19:10 Eleni 阅读(188) 评论(1) 推荐(0)

lecture 2
摘要:1. Gradient Descent包含两种方法 a) Batch Gradient Descent replace the gradient with the sum of gradient for all sample and continue untill convergence conve 阅读全文

posted @ 2020-02-22 15:10 Eleni 阅读(184) 评论(1) 推荐(0)

lecture 1
摘要:1.machine learning研究如何使机器从一开始的遵循简单规则到可以根据以往经验做出自主判断/行为预测(对data的pattern进行研究) 2. 举例:recommender systems: 第一种方法是找到过往搜索中出现过的pattern,推荐类似的应用;第二种方法是找到搜索过相同p 阅读全文

posted @ 2020-02-18 12:15 Eleni 阅读(159) 评论(1) 推荐(0)

导航