随笔分类 - 数据分析
摘要:摘要:使用logistic回归来预测某个人的入学申请是否会被接受 声明:(本文的内容非原创,但经过本人翻译和总结而来,转载请注明出处) 本文内容来源:https://www.dataquest.io/mission/59/logistic-regression 原始数据展示 这是一份美国入学申请的录取记录表,admit – 是否录取,1代表录取,0代表否定;gpa – gpa成绩,g...
阅读全文
摘要:机器学习简易入门(二) - 分类 摘要:本文简单叙述了如何通过分类算法来评估银行发放贷款的模型 声明:(本文的内容非原创,但经过本人翻译和总结而来,转载请注明出处) 本文内容来源:https://www.dataquest.io/mission/57/classification-basics 在你向银行申请信用卡或者贷款时,银行会使用根据过往的数据所建立的模型,再根据你的实际情况来决定是...
阅读全文
摘要:摘要:本文简单叙述了如何用聚类来通过投票记录分析美国参议员的实际政治倾向 声明:(本文的内容非原创,但经过本人翻译和总结而来,转载请注明出处) 本文内容来源:https://www.dataquest.io/mission/60/clustering-basics 在前面的两篇文章中使用的线性回归和分类都属于有监督的机器学习(根据已有的数据训练模型,然后预测未知的数据),而无监督的学习...
阅读全文
摘要:摘要:本文简单叙述了如何根据标准普尔500指数使用线性回归来预测股票的走势 声明:(本文的内容非原创,但经过本人翻译和总结而来,转载请注明出处) 本文内容来源:https://www.dataquest.io/mission/58/regression-basics 标准普尔500(S&P 500)说明:http://www.investopedia.com/ask/answers/05/s...
阅读全文
摘要:本文内容来源:https://www.dataquest.io/mission/128/working-with-data-frames 本文摘要:简单介绍一下用R处理数据 原始数据展示(这是一份UFO的目击统计报告,每一行代表了一份目击报告的信息,date sighted - 目击UFO的日期, date reported - 报告日期,duration - 目击时长, latitud...
阅读全文
摘要:本文内容来源:https://www.dataquest.io/mission/126/introduction-to-r 本文数据来源:https://www.whitehouse.gov/21stcenturygov/tools/salaries 本文摘要:简单介绍了一下R语言的入门语法 赋值 大部分的语言对变量赋值都是使用等号(=),R语言也支持用等号赋值,但是,最传统且默认的...
阅读全文
摘要:本文内容来源:https://www.dataquest.io/mission/129/introduction-to-sql 本文所用数据来源:https://github.com/fivethirtyeight/data/tree/master/college-names 摘要:主要简介了SQLite的一些简易操作(增删改查) 原始数据展示(数据库facts存储了如下的这张表,主要字段描...
阅读全文
摘要:本文内容来源:https://www.dataquest.io/mission/133/creating-compelling-visualizations 本文数据来源:http://www.cdc.gov/nchs/nsfg.htm 本文摘要:介绍一个以matplotlib为底层,更容易定制化作图的库Seaborn Seaborn其实是在matplotlib的基础上进行了更高级的A...
阅读全文
摘要:本文来源:https://www.dataquest.io/mission/132/data-visualization-and-exploration 本文数据来源https://github.com/fivethirtyeight/data/blob/master/college-majors/recent-grads.csv 本文主要介绍了一下如何简单的探查数据之间的关系 原始数...
阅读全文
摘要:本节的内容来源:https://www.dataquest.io/mission/10/plotting-basics 本节的数据来源:https://archive.ics.uci.edu/ml/datasets/Forest+Fires 原始数据展示(这张表记录了某个公园的火灾情况,X和Y代表的是坐标位置,area代表的是烧毁面积) import pandas forest_fi...
阅读全文
摘要:在刚学Pandas时,行选择和列选择非常容易混淆,在这里进行一下讨论和归纳 本文的数据来源:https://github.com/fivethirtyeight/data/tree/master/fandango import pandas as pd fandango = pd.read_csv('fandango_score_comparison.csv') 原始的数据如下(截...
阅读全文
摘要:本节主要介绍一下Pandas的另一个数据结构:DataFrame,本文的内容来源:https://www.dataquest.io/mission/147/pandas-internals-dataframes 在上一节中已经介绍过了Series对象,Series对象可以理解为由一列索引和一列值,共两列数据组成的结构。而DataFrame就是由一列索引和多列值组成的结构,其中,在DataFram...
阅读全文
摘要:本节主要介绍一下Pandas的数据结构,本文引用的网址:https://www.dataquest.io/mission/146/pandas-internals-series 本文所使用的数据来自于:https://github.com/fivethirtyeight/data/tree/master/fandango 该数据主要描述了一些电影的烂番茄评分情况 数据结构 在Pand...
阅读全文
摘要:目录: 处理缺失数据 制作透视图 删除含空数据的行和列 多行索引 使用apply函数 本节主要介绍如何处理缺失的数据,可以参考原文:https://www.dataquest.io/mission/12/working-with-missing-data 本节要处理的数据来自于泰坦尼克号的生存者名单,它的数据如下 ...
阅读全文
摘要:目录: 读取数据 索引 选择数据 简单运算 声明,本文引用于:https://www.dataquest.io/mission/8/introduction-to-pandas (建议阅读原文) Pandas使用一个二维的数据结构DataFrame来表示表格式的数据,相比较于Numpy,Pandas
阅读全文

浙公网安备 33010602011771号