文章分类 -  R

R语言技术学习交流
摘要:我们有一期的文章讲述了如何使用caret包进行数据的预处理,其中内容包括哑变量的创建、近零方差变了的筛选、数据标准化、缺失值处理、数据分割等。可以在教你使用caret包(一)--数据预处理获取更详细的内容介绍。下面我们接着讲讲如何使用caret包实现特征选择的任务。 特征选择的实质就是在已有的变量基 阅读全文
posted @ 2016-12-20 20:07 payton数据之旅 阅读(1094) 评论(0) 推荐(0)
摘要:原文地址:Complete Guide to Parameter Tuning in XGBoost (with codes in Python) 译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考。另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中 阅读全文
posted @ 2016-12-12 20:12 payton数据之旅 阅读(777) 评论(0) 推荐(0)
摘要:In the series of implementing Recommendation engines, in my previous blog about recommendation system in R, I have explained about implementing user b 阅读全文
posted @ 2016-11-30 17:03 payton数据之旅 阅读(201) 评论(0) 推荐(0)
摘要:A Quick View of Recommender System The main task of recommender system is to predict unknown entries in the rating matrix based on observed values, as 阅读全文
posted @ 2016-11-30 16:58 payton数据之旅 阅读(242) 评论(0) 推荐(0)
摘要:Many sites nowadays use recommendation engines in order to offer additional value to the client and increase revenue. This technology is used for a wi 阅读全文
posted @ 2016-11-29 15:16 payton数据之旅 阅读(789) 评论(0) 推荐(0)
摘要:接着之前写的并行算法parallel包,parallel相比foreach来说,相当于是foreach的进阶版,好多东西封装了。而foreach包更为基础,而且可自定义的内容很多,而且实用性比较强,可以简单的用,也可以用得很复杂。笔者将自己的学习笔记记录一下。 R︱并行计算以及提高运算效率的方式(p 阅读全文
posted @ 2016-11-29 12:00 payton数据之旅 阅读(3963) 评论(0) 推荐(0)
摘要:终于开始攻克并行这一块了,有点小兴奋,来看看网络上R语言并行办法有哪些: 赵鹏老师(R与并行计算)做的总结已经很到位。现在并行可以分为: 隐式并行:隐式计算对用户隐藏了大部分细节,用户不需要知道具体数据分配方式 ,算法的实现或者底层的硬件资源分配。系统会根据当前的硬件资源来自动启动计算核心。显然,这 阅读全文
posted @ 2016-11-29 11:56 payton数据之旅 阅读(4475) 评论(0) 推荐(0)
摘要:简单说下安装过程,一般不会有问题,重点是RMySQL的使用方式。 系统环境说明 Redhat系统:Linux 460-42.6.32-431.29.2.el6.x86_64 系统编码:LANG=zh_CN.UTF-8(中文UTF-8格式) MySQL版本:mysql Ver 14.14 Distri 阅读全文
posted @ 2016-11-24 10:52 payton数据之旅 阅读(385) 评论(0) 推荐(0)
摘要:本节将会学习到: 协同过滤推荐系统 协同过滤推荐系统的R实现 推荐系统的可视化 不同推荐系统的离线实验算法比较及可视化 前言 推荐系统概述 数据构成 数据转换 数据也可转换为数据框类型,或通过normalize()函数进行标准化处理,标准化的目的是为了去除用户评分的偏差、、通过binarize()函 阅读全文
posted @ 2016-11-23 10:42 payton数据之旅 阅读(5231) 评论(0) 推荐(0)
摘要:协同过滤的步骤是: 创建数据模型 —> 用户相似度算法 —>用户近邻算法 —>推荐算法。 基于用户的协同过滤算法在Mahout库中已经模块化了,通过4个模块进行统一的方法调用。首先,创建数据模型(DataModel),然后定义用户的相似度算法(UserSimilarity),接下来定义用户近邻算法( 阅读全文
posted @ 2016-11-22 19:34 payton数据之旅 阅读(7730) 评论(0) 推荐(0)
摘要:引言 在生活中我们怎样给别人推荐呢?是根据我们过去的经验。 现在想象一下,如果现在在现实生活中我们依据数据做我们及时的推荐会怎么样?首先,我们会感觉像一个明智的建议者。其次,我们不再是人类。因此,我们的目的是构建聪明的软件,这个软件要能给我们提供一些令人信服的推荐。 当我们访问像亚马逊、Netfli 阅读全文
posted @ 2016-11-17 18:32 payton数据之旅 阅读(844) 评论(0) 推荐(0)
摘要:Many predictive and machine learning models have structural or tuning parameters that cannot be directly estimated from the data. For example, when us 阅读全文
posted @ 2016-11-16 15:43 payton数据之旅 阅读(361) 评论(0) 推荐(0)
摘要:“Good, better, best. Never let it rest. ‘Til your good is better and your better is best.” – St. Jerome tl;dr H2O now has random hyperparameter search 阅读全文
posted @ 2016-11-16 14:45 payton数据之旅 阅读(709) 评论(0) 推荐(0)
摘要:1 pkgs <- list("hflights", "doParallel", "foreach", "dplyr", "rbenchmark", "data.table") 2 lapply(pkgs, require, character.only = T) 3 4 data(hflights) 5 6 benchmark(replications = 10, orde... 阅读全文
posted @ 2016-11-01 10:17 payton数据之旅 阅读(151) 评论(0) 推荐(0)
摘要:【前言】8月初的蒙特利尔深度学习暑期班,由Yoshua Bengio、 Leon Bottou等大神组成的讲师团奉献了10天精彩的讲座,剑桥大学自然语言处理与信息检索研究组副研究员Marek Rei参加了本次课程,在本文中,他精炼地总结了学到的26个有代表性的知识点,包括分布式表示,tricks的技 阅读全文
posted @ 2016-10-28 17:02 payton数据之旅 阅读(245) 评论(0) 推荐(0)
摘要:你是如何提升深度学习模型的效果? 这是我经常被问到的一个问题。 有时候也会换一种问法: 我该如何提高模型的准确率呢? ……或者反过来问: 如果我的网络模型效果不好,我该怎么办? 通常我的回答是: “具体原因我不清楚,但我有一些想法可以试试。” 然后我会列举一些我认为能够提升性能的方法。 为了避免重复 阅读全文
posted @ 2016-10-27 19:55 payton数据之旅 阅读(306) 评论(0) 推荐(0)
摘要:原文:https://herbertmj.wikispaces.com/stacking%E7%AE%97%E6%B3%95 stacked 产生方法是一种截然不同的组合多个模型的方法,它讲的是组合学习器的概念,但是使用的相对于bagging和boosting较少,它不像bagging和boosti 阅读全文
posted @ 2016-10-26 12:05 payton数据之旅 阅读(1441) 评论(0) 推荐(0)
摘要:债务违约预测是Kaggle中的一个比赛,本文将介绍取得第一名成绩的方法,本次比赛的目标包括两个方面。其一是建立一个模型,债务人可以通过它来更好地进行财务方面的决策。其二是债权人可以预测这个债务人何时会陷入到财务方面的困境。最终目的是,通过预测未来两年内债务违约的概率,来改进现有的信用评分制度。这是一 阅读全文
posted @ 2016-10-26 11:33 payton数据之旅 阅读(781) 评论(0) 推荐(0)
摘要:文章目录 1. R自带函数 2. reshape2数据重构 3. dplyr 4. tidyr 5. 字符串处理 1. R自带函数 1.1 转置 使用函数t()可对一个矩阵或数据框进行转置,对于数据框,行名将变成变量(列)名。 数列array进行维度转换 aperm 1.2 整合数据aggregat 阅读全文
posted @ 2016-10-22 00:10 payton数据之旅 阅读(11126) 评论(0) 推荐(1)
摘要:前言: 本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分类器,可能会使用Random Forest来做,下了几篇论文看了看,简单的random forest还比较容易弄懂,复杂一点的还会与boosting等算法结合(参见iccv09) 阅读全文
posted @ 2016-09-08 00:32 payton数据之旅 阅读(177) 评论(0) 推荐(0)