2020年2月8日
摘要:
1. 目的:构建线性回归模型并考虑自变量之间的交互效应。 2. 数据来源及背景 2.1 数据来源:数据为本人上课的案例数据, 2.2 数据背景:一公司想通过商品销售价格及是否提供打折来预测顾客购买商品的可能性。 library(car) library(ggplot2) library(jtools
阅读全文
posted @ 2020-02-08 02:57
shanshant
阅读(23000)
推荐(0)
2020年2月6日
摘要:
setwd("/Users/shanshantong/Desktop/Skills/1.Tools/R/6.Datasets/") housing.df <- read.csv("WestRoxbury.csv", header = TRUE) # load datatable(housing.df
阅读全文
posted @ 2020-02-06 04:07
shanshant
阅读(4303)
推荐(0)
2020年2月4日
摘要:
1. 目的:构建线性回归模型并检验其假设是否成立。 2. 数据来源及背景 2.1 数据来源:数据为本人上课的案例数据, 2.2 数据背景:“玻璃制造公司”主要向新建筑承包商和汽车公司供应产品。该公司认为,他们的年销售额应与新建筑数量以及汽车生产高度相关,因此希望构建线性回归模型来预测其销售额。 gl
阅读全文
posted @ 2020-02-04 03:21
shanshant
阅读(5917)
推荐(0)
2020年1月30日
摘要:
1. 目的:通过案例介绍R语言实现交叉检验的方法,构建非线性回归模型,并比较不同模型的准确性。 2. 数据来源:Datacamp https://assets.datacamp.com/production/repositories/894/datasets/6f144237ef9d7da94b2c
阅读全文
posted @ 2020-01-30 12:41
shanshant
阅读(1875)
推荐(0)
2020年1月29日
摘要:
1. 目的:介绍将数据集划分为训练集、验证集和测试集的方法。 2. 数据来源:github https://github.com/reisanar/datasets/blob/master/WestRoxbury.csv 3. 此博客主要介绍划分数据的方法,因此不对变量做过多介绍。 4. 划分方法
阅读全文
posted @ 2020-01-29 00:56
shanshant
阅读(14398)
推荐(1)
2019年12月6日
摘要:
1. 摘要:基于鸢尾花卉(iris)数据集来练习运用ggplot2进行数据可视化。 2. 数据来源:R语言内置数据集 3. 练习 3.1 基于原数据集以及整合数据集 # Aggregate the first four column by Species and calculate the mean
阅读全文
posted @ 2019-12-06 04:33
shanshant
阅读(3780)
推荐(0)
2019年11月27日
摘要:
1. 背景及目的:维基百科是任何人都可以编辑和贡献的免费在线百科全书。它支持多种语言,并且一直在增长。在英语版本的Wikipedia上,当前有470万页,共有超过7.6亿次的编辑。任何人都可编辑的后果之一是有些人破坏了页面。这可以采取以下形式:删除内容,添加促销或不适当的内容,或者进行更细微的更改以
阅读全文
posted @ 2019-11-27 00:15
shanshant
阅读(613)
推荐(1)
2019年11月22日
摘要:
1. 目的:通过分析和挖掘推特上的推文,来尽可能准确的判断其对苹果公司的态度(积极、消极、或者为其他)。 2. 数据来源: Twitter API;构建因变量方法:Amazon Mechanical Turk;自变量为推文内容。 Amazon Mechanical Turk: 亚马逊Mechanic
阅读全文
posted @ 2019-11-22 12:43
shanshant
阅读(3106)
推荐(1)
2019年11月21日
摘要:
1. 目的:根据银行客户信息,判断其是否接受银行向他们提供的个人贷款。 2. 数据来源:https://www.kaggle.com/lowecoryr/universalbank 3. 数据介绍:数据中共包含5000个观测值,14个变量。其中,每一个观测值代表一个客户。 bank.df <- re
阅读全文
posted @ 2019-11-21 12:09
shanshant
阅读(3830)
推荐(1)
2019年11月19日
摘要:
1. 目的:根据房子信息,判断博士顿地区的房价。 2. 数据来源:论文《Hedonic housing prices and the demand for clean air》,数据中共含506个观测值,及16个变量。其中,每个观测值代表一个人口普查区。 boston <- read.csv("bo
阅读全文
posted @ 2019-11-19 12:01
shanshant
阅读(2074)
推荐(1)