0

链家广州二手房的数据与分析——数据分析2

继续 "上一篇" 的工作继续分析广州链家二手房的数据。 Normality Test 用nortest package 的 ad.test() 分别对三个主要因素(面积,总价和均价)进行正态分布检验,结果显示这三个变量都不满足正态分布,而 Q Q Plot 的表现方式就更直观了: 房子的面积 r t ...

yukiwu 发布于 2019-08-11 12:01 评论(0)阅读(34)
0

R语言入门1:安装R和RStudio

R语言入门1:安装R和RStudio 曹务强 中科院遗传学博士研究生 曹务强 中科院遗传学博士研究生 曹务强 中科院遗传学博士研究生 曹务强 曹务强 曹务强 中科院遗传学博士研究生 中科院遗传学博士研究生 中科院遗传学博士研究生 9 人赞同了该文章 1. Windows安装R 在Windows系统上 ...

功夫 熊猫 发布于 2019-08-07 11:47 评论(0)阅读(22)
0

R Data Frame

https://www.datamentor.io/r-programming/data-frame/ Check if a variable is a data frame or not We can check if a variable is a data frame or not using ...

功夫 熊猫 发布于 2019-08-07 02:03 评论(0)阅读(11)
0

链家广州二手房的数据与分析——数据分析1

上一篇分享了 "爬取链家二手房的数据" ,接下来就应该是分析这份数据。 小插曲:懒洋洋的夏天到了连人也变得懒洋洋的了(借口!)。拖拖拉拉地等到了链家网页改版等到了二手房放盘数目又多了 10,000 + 套(楼市小复苏?),总之又不得不重新爬了一份 51,000 + 的 "数据" 。 Inspect ...

yukiwu 发布于 2019-07-30 19:30 评论(0)阅读(61)
0

初次用R的实际案例数据分析

这是一次教授布置的期末作业,也是书籍《商务数据分析与应用》的一个课后作业 目录 数据描述 数据预处理 描述性统计分析 模型分析(方差分析) 数据描述 非学位职业培训机构的178个学员的数据,目的是了解什么样的学员可能获得更好的学习效果 数据预处理 打开数据,查看一部分数据并锁定数据(这样之后可以直接 ...

kisaragiRY 发布于 2019-07-24 14:25 评论(0)阅读(64)
0

KEGG富集分析散点图.md

输入数据格式 pathway = read.table("kegg.result",header=T,sep="\t") pp = ggplot(pathway,aes(richFactor,Pathway)) Pathwy是ID,richFactor是富集的基因数目除以背景的基因数目 改变点的大小 ...

raisok 发布于 2019-06-13 08:37 评论(0)阅读(199)
0

画相关性热图

数据格式如下 Sample CM11 CM12 CM13 CM21 CM22 CM23 CM31 CM32 CM33 CM11 1 0.9627369 0.9884578 0.9841946 0.9762492 0.983613 0.9575127 0.743262 0.6178 CM12 0.96 ...

raisok 发布于 2019-06-12 16:24 评论(0)阅读(105)
0

链家广州二手房的数据与分析——爬取数据

之前在博客分享了利用 R 和 rvest 包爬虫的基础方法。现在就来实战一下:爬取链家网广州 40,000+ 套二手房的数据。 之前在 "Web Scraping with R" 说过的爬虫方法在这篇中就不在赘述了。这里就分享怎么样爬取网站中翻页的数据。 Web Scraping across Mu ...

yukiwu 发布于 2019-06-07 11:27 评论(0)阅读(158)
0

Web Scraping with R: How to Fill Missing Value (爬虫:如何处理缺失值)

网络上有大量的信息与数据。我们可以利用爬虫技术来获取这些巨大的数据资源。 这次用 IMDb 网站的 "2018年100部最欢迎的电影" 来练练手,顺便总结一下 R 爬虫的方法。 Preparation 感谢 Hadley Wickham 大大,我们有 包可以用。因此爬虫前先安装并加载 包。 Down ...

yukiwu 发布于 2019-06-05 13:00 评论(0)阅读(63)
0

Rust所有权语义模型

编程语言的内存管理,大概可以分为自动和手动两种。 自动管理就是用 GC(垃圾回收)来自动管理内存,像 Java、Ruby、Golang、Elixir 等语言都依赖于 GC。而 C/C++ 却是依赖于手工管理内存,程序员使用 malloc 和 free 函数来分配释放内存。 GC技术经过这么多年的发展 ...

tiana_Z 发布于 2019-06-04 14:42 评论(0)阅读(32)
0

Word Cloud (词云) - R

在前面已经陆续总结了如何用 "Python" 和 "JavaScript" 创建词云了,今天要说的是 R。其实 SPSS 和 SAS 的 Word Cloud 扩展模板都是基于 R 实现的。 Create Word Cloud via R 1) 准备文本。 我们再…再次使用上次保存的 Word Cl ...

yukiwu 发布于 2019-06-02 18:18 评论(0)阅读(37)
0

数据框筛选特定的子集

a=read.table(file = "H_V75_ENSG,T,P_type-mart_export.txt",header = TRUE,sep = "\t")#以数据框格式读取原文件pro_cod=a[a$Gene.Biotype=="protein_coding",]#筛选出数据框中第四列 ...

杜泽乾 发布于 2019-05-31 10:51 评论(0)阅读(58)
0

R数据分析(一)

R语言特点: 主要用于统计分析、图表显示。 属于解释型语言。支持模块化编程。 应用:数据科学、统计计算、机器学习 学习方法: 做笔记,记重点或者心得 手动实践,加深理解 坚持练习,利用身边数据进行应用分析 理解扩展包和函数背后的原理 运行R语言的三种方式: 在console中执行交互式命令(用于比较 ...

程霜灵 发布于 2019-05-13 20:57 评论(0)阅读(147)
0

R语言dataframe的常用操作总结

前言:近段时间学习R语言用到最多的数据格式就是data.frame,现对data.frame常用操作进行总结,其中函数大部分来自dplyr包,该包由Hadley Wickham所作,主要用于数据的清洗和整理。 一、创建 data.frame创建较为容易,调用data.frame函数即可。本文创建一个 ...

HuskySir 发布于 2019-05-09 22:44 评论(0)阅读(1631)
0

解决新版本R3.6.0不能加载devtools包问题

首先是看到下面这个文章想试着练习一下,结果第一步就卡住了,无法加载devtools包,繁体字都冒出来了......汗!(没有截图,但过程痛苦不堪~) https://www.sohu.com/a/122630261_468636 在网上遍寻不着此题的答案,但根据热心网友的回答,我大概懂了一点里面的门 ...

lynnPP 发布于 2019-05-01 23:21 评论(0)阅读(920)
1

D02-R语言基础学习

R语言基础学习——D02 20190423内容纲要: 1、前言 2、向量操作 (1)常规操作 (2)不定长向量计算 (3)序列 (4)向量的删除与保留 3、列表详解 (1)列表的索引 (2)列表得元素属性 (3)更改列表元素 (4)删除列表元素 (5)合并两个列表 (6)将列表转换为向量 4、推荐 ...

m1racle 发布于 2019-04-23 00:13 评论(0)阅读(207)
0

Patchwork(2013年)--CNV检测方法流程

文章题目:Patchwork: allele-specific copy number analysis of whole-genome sequenced tumor tissue 特点: 可以检测配对样本,也可以检测带reference的tumor样本。但是没有考虑肿瘤异质性问题。使用DNAco ...

luxliy 发布于 2019-03-15 09:44 评论(0)阅读(175)
0

R语言入门 :基本数据结构

关于R语言基本数据结构的简要学习(向量、矩阵、数组、数据框、列表) ...

HuskySir 发布于 2019-03-14 14:25 评论(0)阅读(323)
0

R语言读入数据库的中英名词互译测试并计分脚本(考试用)

1. 分子生物学中英文.csv,输入文件,两列,以tab键分隔的txt文本,没有列名 2. 错误的名解.csv, 如果在测试中拼写错误,会写出到这个文件,可用这个容易犯错的名词进行新的测试 3. 注意加载data.table包,因为R语言readline函数,使用脚本不能很好交互,暂时只能在R交互模 ...

ywliao 发布于 2019-03-08 21:00 评论(0)阅读(155)
0

相关不是因果,哪又是啥?

[TOC] 近期广泛阅读券商关于 宏观高频数据 的研报,发现了两点不足: 就研究手段而言,比较粗放,普遍停留在仅仅比较数据相关系数的层面; 就理论高度而言,很少探讨数据背后的因果关联。 不过有些理念先进的券商团队已经开始从 产业链传导 的角度试图细致的描述数据间的关联,这正好契合了下面这篇文章的核心 ...

xuruilong100 发布于 2019-02-25 23:17 评论(0)阅读(240)