R - 文章分类(第4页) - payton数据之旅

借助caret包实现特征选择的工作

摘要：我们有一期的文章讲述了如何使用caret包进行数据的预处理，其中内容包括哑变量的创建、近零方差变了的筛选、数据标准化、缺失值处理、数据分割等。可以在教你使用caret包(一)--数据预处理获取更详细的内容介绍。下面我们接着讲讲如何使用caret包实现特征选择的任务。特征选择的实质就是在已有的变量基阅读全文

posted @ 2016-12-20 20:07 payton数据之旅阅读(1094) 评论(0) 推荐(0)

XGBoost参数调优完全指南（附Python代码）（转）

摘要：原文地址：Complete Guide to Parameter Tuning in XGBoost (with codes in Python) 译注：文内提供的代码和运行结果有一定差异，可以从这里下载完整代码对照参考。另外，我自己跟着教程做的时候，发现我的库无法解析字符串类型的特征，所以只用其中阅读全文

posted @ 2016-12-12 20:12 payton数据之旅阅读(777) 评论(0) 推荐(0)

Item Based Collaborative Filtering Recommender Systems in R

摘要：In the series of implementing Recommendation engines, in my previous blog about recommendation system in R, I have explained about implementing user b 阅读全文

posted @ 2016-11-30 17:03 payton数据之旅阅读(201) 评论(0) 推荐(0)

recosystem: Recommender System Using Parallel Matrix Factorization

摘要：A Quick View of Recommender System The main task of recommender system is to predict unknown entries in the rating matrix based on observed values, as 阅读全文

posted @ 2016-11-30 16:58 payton数据之旅阅读(242) 评论(0) 推荐(0)

The alternating least squares algorithm in recommenderlab

摘要：Many sites nowadays use recommendation engines in order to offer additional value to the client and increase revenue. This technology is used for a wi 阅读全文

posted @ 2016-11-29 15:16 payton数据之旅阅读(789) 评论(0) 推荐(0)

R︱foreach+doParallel并行+联用迭代器优化内存+并行机器学习算法

摘要：接着之前写的并行算法parallel包，parallel相比foreach来说，相当于是foreach的进阶版，好多东西封装了。而foreach包更为基础，而且可自定义的内容很多，而且实用性比较强，可以简单的用，也可以用得很复杂。笔者将自己的学习笔记记录一下。 R︱并行计算以及提高运算效率的方式(p 阅读全文

posted @ 2016-11-29 12:00 payton数据之旅阅读(3963) 评论(0) 推荐(0)

R︱并行计算以及提高运算效率的方式(parallel包、clusterExport函数、SupR包简介)

摘要：终于开始攻克并行这一块了，有点小兴奋，来看看网络上R语言并行办法有哪些：赵鹏老师（R与并行计算）做的总结已经很到位。现在并行可以分为：隐式并行：隐式计算对用户隐藏了大部分细节，用户不需要知道具体数据分配方式，算法的实现或者底层的硬件资源分配。系统会根据当前的硬件资源来自动启动计算核心。显然，这阅读全文

posted @ 2016-11-29 11:56 payton数据之旅阅读(4475) 评论(0) 推荐(0)

R语言使用RMySQL连接及读写Mysql数据库

摘要：简单说下安装过程，一般不会有问题，重点是RMySQL的使用方式。系统环境说明 Redhat系统：Linux 460-42.6.32-431.29.2.el6.x86_64 系统编码：LANG=zh_CN.UTF-8（中文UTF-8格式） MySQL版本：mysql Ver 14.14 Distri 阅读全文

posted @ 2016-11-24 10:52 payton数据之旅阅读(385) 评论(0) 推荐(0)

协同过滤推荐系统的R实现

摘要：本节将会学习到：协同过滤推荐系统协同过滤推荐系统的R实现推荐系统的可视化不同推荐系统的离线实验算法比较及可视化前言推荐系统概述数据构成数据转换数据也可转换为数据框类型，或通过normalize()函数进行标准化处理，标准化的目的是为了去除用户评分的偏差、、通过binarize()函阅读全文

posted @ 2016-11-23 10:42 payton数据之旅阅读(5231) 评论(0) 推荐(0)

基于用户的协同过滤算法(Java实现或R语言实现)

摘要：协同过滤的步骤是：创建数据模型 —> 用户相似度算法 —>用户近邻算法 —>推荐算法。基于用户的协同过滤算法在Mahout库中已经模块化了，通过4个模块进行统一的方法调用。首先，创建数据模型(DataModel)，然后定义用户的相似度算法(UserSimilarity)，接下来定义用户近邻算法( 阅读全文

posted @ 2016-11-22 19:34 payton数据之旅阅读(7730) 评论(0) 推荐(0)

探索推荐系统（附R语言实战案例）

摘要：引言在生活中我们怎样给别人推荐呢？是根据我们过去的经验。现在想象一下，如果现在在现实生活中我们依据数据做我们及时的推荐会怎么样？首先，我们会感觉像一个明智的建议者。其次，我们不再是人类。因此，我们的目的是构建聪明的软件，这个软件要能给我们提供一些令人信服的推荐。当我们访问像亚马逊、Netfli 阅读全文

posted @ 2016-11-17 18:32 payton数据之旅阅读(844) 评论(0) 推荐(0)

Bayesian Optimization of Machine Learning Models

摘要：Many predictive and machine learning models have structural or tuning parameters that cannot be directly estimated from the data. For example, when us 阅读全文

posted @ 2016-11-16 15:43 payton数据之旅阅读(361) 评论(0) 推荐(0)

Hyperparameter Optimization in H2O: Grid Search, Random Search and the Future

摘要：“Good, better, best. Never let it rest. ‘Til your good is better and your better is best.” – St. Jerome tl;dr H2O now has random hyperparameter search 阅读全文

posted @ 2016-11-16 14:45 payton数据之旅阅读(709) 评论(0) 推荐(0)

Fastest Way to Add New Variables to A Large Data.Frame

摘要：1 pkgs <- list("hflights", "doParallel", "foreach", "dplyr", "rbenchmark", "data.table") 2 lapply(pkgs, require, character.only = T) 3 4 data(hflights) 5 6 benchmark(replications = 10, orde... 阅读全文

posted @ 2016-11-01 10:17 payton数据之旅阅读(151) 评论(0) 推荐(0)

Yoshua Bengio等大神传授：26条深度学习经验

摘要：【前言】8月初的蒙特利尔深度学习暑期班，由Yoshua Bengio、 Leon Bottou等大神组成的讲师团奉献了10天精彩的讲座，剑桥大学自然语言处理与信息检索研究组副研究员Marek Rei参加了本次课程，在本文中，他精炼地总结了学到的26个有代表性的知识点，包括分布式表示，tricks的技阅读全文

posted @ 2016-10-28 17:02 payton数据之旅阅读(245) 评论(0) 推荐(0)

如何有效提升深度学习性能

摘要：你是如何提升深度学习模型的效果？这是我经常被问到的一个问题。有时候也会换一种问法：我该如何提高模型的准确率呢？ ……或者反过来问：如果我的网络模型效果不好，我该怎么办？通常我的回答是： “具体原因我不清楚，但我有一些想法可以试试。” 然后我会列举一些我认为能够提升性能的方法。为了避免重复阅读全文

posted @ 2016-10-27 19:55 payton数据之旅阅读(306) 评论(0) 推荐(0)

Ensemble_learning 集成学习算法 stacking 算法

摘要：原文：https://herbertmj.wikispaces.com/stacking%E7%AE%97%E6%B3%95 stacked 产生方法是一种截然不同的组合多个模型的方法，它讲的是组合学习器的概念，但是使用的相对于bagging和boosting较少，它不像bagging和boosti 阅读全文

posted @ 2016-10-26 12:05 payton数据之旅阅读(1441) 评论(0) 推荐(0)

Kaggle大赛：债务违约预测冠军作品解析

摘要：债务违约预测是Kaggle中的一个比赛，本文将介绍取得第一名成绩的方法，本次比赛的目标包括两个方面。其一是建立一个模型，债务人可以通过它来更好地进行财务方面的决策。其二是债权人可以预测这个债务人何时会陷入到财务方面的困境。最终目的是，通过预测未来两年内债务违约的概率，来改进现有的信用评分制度。这是一阅读全文

posted @ 2016-10-26 11:33 payton数据之旅阅读(781) 评论(0) 推荐(0)

R语言数据处理方法~小结（转）

摘要：文章目录 1. R自带函数 2. reshape2数据重构 3. dplyr 4. tidyr 5. 字符串处理 1. R自带函数 1.1 转置使用函数t()可对一个矩阵或数据框进行转置，对于数据框，行名将变成变量（列）名。数列array进行维度转换 aperm 1.2 整合数据aggregat 阅读全文

posted @ 2016-10-22 00:10 payton数据之旅阅读(11126) 评论(0) 推荐(1)

模型组合(Model Combining)之Boosting与Gradient Boosting（转）

摘要：前言：本来上一章的结尾提到，准备写写线性分类的问题，文章都已经写得差不多了，但是突然听说最近Team准备做一套分布式的分类器，可能会使用Random Forest来做，下了几篇论文看了看，简单的random forest还比较容易弄懂，复杂一点的还会与boosting等算法结合（参见iccv09）阅读全文

posted @ 2016-09-08 00:32 payton数据之旅阅读(177) 评论(0) 推荐(0)

payton数据之旅

文章分类 - R

公告