随笔分类 -  读书笔记

摘要:3.1 数据预处理 数据质量的三个要素:准确性、完整性和一致性。 3.1.2 数据预处理的主要任务 数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据。 数据集成: 数据归约: 3.2 数据清理 3.2.1 缺失值 1.忽略元组 2.人工填写缺失值 3.使用一个全局 阅读全文
posted @ 2016-02-14 21:22 地表最强队队员 阅读(2185) 评论(0) 推荐(0)
摘要:上下文包括用户访问推荐系统的时间、地点、心情等。 5.1 时间上下文信息 5.1.1 时间效应简介 时间信息对用户兴趣的影响表现在以下几个方面: 1.用户兴趣是变化:关注最近行为 2.物品也是有生命周期的: 3.季节效应 5.1.2 时间效应举例 5.1.3 系统时间特性的分析 包含时间信息的用户行 阅读全文
posted @ 2016-01-29 17:33 地表最强队队员 阅读(2468) 评论(0) 推荐(0)
摘要:3.1 冷启动问题简介 主要分三类: 1.用户冷启动:如何给新用户做个性化推荐。 2.物品冷启动:如何将新的物品推荐给可能对它感兴趣的用户这一问题。 3.系统冷启动:如何在一个新开发的网站上设计个性化推荐系统。 解决方案: 1.提供非个性化的推荐:热门排行榜,当用户数据收集到一定的时候,再切换为个性 阅读全文
posted @ 2016-01-29 15:10 地表最强队队员 阅读(5005) 评论(0) 推荐(0)
摘要:2.1 用户行为数据简介 显性反馈行为:用户明确表示对物品喜好的行为。评分、喜欢、不喜欢。 隐性反馈行为:不能明确反应用户喜好的行为。比如页面浏览。 显性反馈数据 隐性反馈数据 用户兴趣 明确 不明确 数量 较少 庞大 存储 数据库 分布式文件系统 实时读取 实时 有延迟 正负反馈 都有 只有正反馈 阅读全文
posted @ 2016-01-26 18:53 地表最强队队员 阅读(5893) 评论(0) 推荐(0)
摘要:1.1 什么是推荐系统 80/20原则:80%的销售额来自于20%的热门品牌 不热门的商品数量极其庞大,这些长尾商品的总销售额将是一个不可小觑的数字,也许会超过热门商品带来的销售额。 主流商品代表了绝大多数用户的需求,而长尾商品代表了一小部分用户的个性化需求。 推荐系统通过发掘用户的行为,找... 阅读全文
posted @ 2016-01-24 19:52 地表最强队队员 阅读(2181) 评论(0) 推荐(0)
摘要:2.1 数据对象与属性类型2.1.1 什么是属性2.1.2 标称属性:其值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看作是分类的。 标称属性不是定量的,找出它的均值或中位数没有意义,有意义的是找到众数,是一种中心趋势度量。2.1.3 二元属性:是一种标称属性,只有两个... 阅读全文
posted @ 2016-01-24 18:13 地表最强队队员 阅读(1406) 评论(0) 推荐(0)
摘要:3.1 决策树的构造优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据.缺点:可能会产生过度匹配问题.适用数据类型:数值型和标称型.一般流程:1.收集数据2.准备数据3.分析数据4.训练算法5.测试算法6.使用算法3.1.1 信息增益创建数据集def createD... 阅读全文
posted @ 2015-12-06 19:40 地表最强队队员 阅读(555) 评论(0) 推荐(0)
摘要:knn算法:1.优点:精度高、对异常值不敏感、无数据输入假定2.缺点:计算复杂度高、空间复杂度高。3.适用数据范围:数值型和标称型。一般流程:1.收集数据2.准备数据3.分析数据4.训练算法:不适用5.测试算法:计算正确率6.使用算法:需要输入样本和结构化的输出结果,然后运行k-近邻算法判定输入数据... 阅读全文
posted @ 2015-12-05 14:40 地表最强队队员 阅读(424) 评论(0) 推荐(0)
摘要:http://sourceforge.net/projects/numpy/files/下载对应版本的numpy,到处下不到,找到一个没python2.7用pip吧,pip install numpy下载完毕,提示没装C++,意思是还要装VS2008,但装的是VS2012,只好去下载一个VC for... 阅读全文
posted @ 2015-12-04 19:45 地表最强队队员 阅读(382) 评论(0) 推荐(0)
摘要:# 婚外情数据集data(Affairs, package = "AER")summary(Affairs)table(Affairs$affairs)# 用二值变量,是或否Affairs$ynaffair[Affairs$affairs > 0] |z|) (Intercept) 1.... 阅读全文
posted @ 2015-12-04 16:44 地表最强队队员 阅读(7439) 评论(0) 推荐(0)
摘要:简单线性:用一个量化验的解释变量预测一个量化的响应变量多项式:用一个量化的解决变量预测一个量化的响应变量,模型的关系是n阶多项式多元线性:用两个或多个量化的解释变量预测一个量化的响应变量多变量:用一个或多个解释变量预测多个响应变量Logistic:用一个或多个解释变量预测一个类别型响应变量泊松:用一... 阅读全文
posted @ 2015-11-29 16:32 地表最强队队员 阅读(7392) 评论(0) 推荐(1)
摘要:summary()sapply(x,fun,options):对数据框或矩阵中的每一个向量进行统计meansd:标准差var:方差min:max:median:length:range:quantile:vars <- c("mpg", "hp", "wt")head(mtcars[vars])su... 阅读全文
posted @ 2015-11-27 20:49 地表最强队队员 阅读(1815) 评论(0) 推荐(0)
摘要:#安装vcd包,数据集在vcd包中library(vcd)counts <- table(Arthritis$Improved)counts# 垂直barplot(counts, main = "Simple Bar Plot", xlab = "Improvement", ylab = "... 阅读全文
posted @ 2015-11-27 13:53 地表最强队队员 阅读(989) 评论(0) 推荐(0)
摘要:5.2.1 数据函数abs:sqrt:ceiling:求不小于x的最小整数floor:求不大于x的最大整数trunc:向0的方向截取x中的整数部分round:将x舍入为指定位的小数signif:舍入为指定的有效数字位数cos,sin,tanacos,asin,atan:反正弦,反余弦,反正切cosh... 阅读全文
posted @ 2015-11-19 21:13 地表最强队队员 阅读(467) 评论(0) 推荐(0)
摘要:4.2 创建新变量几个运算符:^或**:求幂x%%y:求余x%/%y:整数除4.3 变量的重编码with():within():可以修改数据框4.4 变量重命名包reshape中有个函数rename,可以改名 rename(df,c(manage='managerID',date='testDate... 阅读全文
posted @ 2015-11-15 19:28 地表最强队队员 阅读(514) 评论(0) 推荐(0)
摘要:这篇简直是白写了,写到后面发现ggplot明显更好用3.1 使用图形attach(mtcars)plot(wt, mpg) #x轴wt,y轴pgabline(lm(mpg ~ wt)) #画线拟合title("Regression of MPG on Weight")detach(mtcars)... 阅读全文
posted @ 2015-11-15 10:51 地表最强队队员 阅读(617) 评论(0) 推荐(0)
摘要:2.2.2 矩阵matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames)其中:byrow=TRUE/FALSE,表示按行填充还是按列填充,默认情况下是按列填充2.2.4 数据框1.attach,... 阅读全文
posted @ 2015-11-15 10:35 地表最强队队员 阅读(526) 评论(0) 推荐(0)
摘要:1.3.3 工作空间getwd():显示当前工作目录setwd():设置当前工作目录ls():列出当前工作空间中的对象rm():删除对象1.3.4 输入与输出source():执行脚本 阅读全文
posted @ 2015-11-15 10:10 地表最强队队员 阅读(434) 评论(0) 推荐(0)
摘要:为了培养一个机器学习领域专家那样的直觉,最好的办法就是,对你遇到的每一个机器学习问题,把所有的算法试个遍,直到有一天,你凭直觉就知道某些算法行不通. 阅读全文
posted @ 2015-11-14 19:15 地表最强队队员 阅读(182) 评论(0) 推荐(0)
摘要:#数据集来源http://spamassassin.apache.org/publiccorpus/#加载数据library(tm)library(ggplot2)data.path,有些没有#参数是一封邮件向量,每一个元素就是邮件的一行get.from ]')[[1]]#忽略空元素 from ... 阅读全文
posted @ 2015-10-22 14:18 地表最强队队员 阅读(386) 评论(0) 推荐(0)