摘要: 文件读取 import pandas as pd import matplotlib.pyplot as plt import numpy as np %matplotlib inline #由于数据太多,只读取前1000行 data = pd.read_csv("creditcard.csv",n 阅读全文
posted @ 2020-07-04 19:05 鑫获 阅读(315) 评论(0) 推荐(0)
摘要: import pandas as pd import numpy as np %matplotlib inline#pd.date_range() df = pd.Series(np.random.randn(600),index=pd.date_range('7-1-2016',periods=6 阅读全文
posted @ 2020-07-04 16:55 鑫获 阅读(532) 评论(0) 推荐(0)
摘要: 常用的数据分析函数 #统计每列所有属性的个数 df.value_counts(ascending = True/False,bins = 1) """ ascending为False从大到小 bins 对于很多离散的数据而,可以设置区间 """ #连续属性离散化分箱函数pd.cut() ages = 阅读全文
posted @ 2020-07-04 16:48 鑫获 阅读(197) 评论(0) 推荐(0)
摘要: 编写一个 SQL 查询,获取 Employee 表中第一高的薪水(Salary) 。 + + +| Id | Salary |+ + +| 1 | 100 || 2 | 200 || 3 | 300 |+ + + 例如上述 Employee 表,SQL查询应该返回 200 作为第一高的薪水。如果不存 阅读全文
posted @ 2020-07-04 14:02 鑫获 阅读(114) 评论(0) 推荐(0)
摘要: 这一章节主要讲了spark如何工作 spark的架构属于主从架构,主节点复制任务的一系列操作以及资源申请,在spark主节点叫做DRIVER节点 driver节点的作用: 1:根据用户编写的代码会创建一个SparkContext指挥官,然后向资源管理器申请(内存和cpu等资源)进行任务的分配和监控, 阅读全文
posted @ 2020-07-04 13:38 鑫获 阅读(1124) 评论(0) 推荐(0)
摘要: 1:直接利用索引来查询数据 df['香港'][1:] 17 香港 18 香港 19 香港 20 香港 21 香港 .. 122 香港 123 香港 124 香港 125 香港 126 香港 Name: 香港, Length: 110, dtype: object 2:df.iloc(index:in 阅读全文
posted @ 2020-07-04 09:43 鑫获 阅读(389) 评论(0) 推荐(0)
摘要: df = pd.read_excel('titanic.xlsx',nrows=111,dtype={'价格':np.float},skiprows=13,index_col=0)nrows:选取前面多少条dtype:改变某一列类型skiprows:跳过前面多少行index_col:将第一列设置位索 阅读全文
posted @ 2020-07-03 21:49 鑫获 阅读(213) 评论(0) 推荐(0)
摘要: 项目来源厦门大学林子雨老师得Spark学习项目中,里面为部分项目代码和实验截图 读取文件 from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession from pyspark.ml.feature 阅读全文
posted @ 2020-07-03 18:52 鑫获 阅读(869) 评论(0) 推荐(0)
摘要: 编辑距离,设计最大最小值问题,考虑动态规划 在编辑距离的时候,需要考虑是修改,删除,或者替换的三种情况 def LevenShtein_Distince(str1,str2): matrix = [[i+j for j in range(len(str2)+1)] for i in range(le 阅读全文
posted @ 2020-06-10 13:13 鑫获 阅读(146) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/lyxleft/article/details/100884104 阅读全文
posted @ 2020-06-03 11:27 鑫获 阅读(452) 评论(0) 推荐(0)