随笔分类 - 机器学习和数据挖掘
摘要:import csvdef readfile0(): print('test read file') in_file = open('C:\python\demo\LiaoXueFeng\data\lianjian_zufang_version_4.csv','r',encoding='UTF-8'
阅读全文
摘要:第一部分:Hive简介 什么是Hive •Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 •本质是将SQL转换为MapReduce程序 第二部分:为什么使用Hive 面临的问题 人员学习成本太高 项目周期要求太短 我只是需要一个简单的
阅读全文
摘要:Spark体系架构 zhuangzai Spark体系架构包括如下三个主要组件: 数据存储 API 管理框架 接下来让我们详细了解一下这些组件。 数据存储: Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源,包括HDFS,HBase,Cassandra等。 API:
阅读全文
摘要:1.Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。 2.HDFS(分布式文件系统):它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),
阅读全文
摘要:Hadoop,mapreduce 介绍 59888745@qq.com 大数据工程师是在Linux系统下搭建Hadoop生态系统(cloudera是最大的输出者类似于Linux的红帽), 把用户的交易或行为信息通过HDFS(分布式文件系统)等存储用户数据文件,然后通过Hbase(类似于NoSQL)等
阅读全文
摘要:import numpy as np import matplotlib.pyplot as plt from pylab import * numpy 常用来组织源数据: 使用 plot 函数直接绘制上述函数曲线, 可以通过配置 plot 函数参数调整曲线的样式、粗细、颜色、标记等: 曲线图:ma
阅读全文
摘要:python seaborn 画图 59888745@qq.com 2017.08.02 distplot( ) kdeplot( ) distplot( )为hist加强版, kdeplot( )为密度曲线图 箱型图 boxplot( ) 联合分布jointplot( ) 热点图heatmap(
阅读全文
摘要:# * _*_ coding:utf-8 _*___author__:'denny 20170730'from functools import reduceimport functoolsimport pandas as pd #create dataframe#df method#partial
阅读全文
摘要:python. pandas(series,dataframe,index,reindex,csv file read and write) method test import pandas as pdimport numpy as np def testpandas(): p = pd.Seri
阅读全文
摘要:#read and write csv of pandasimport pandas as pdgoog =pd.read_csv(r'C:\python\demo\LiaoXueFeng\data\test_vrt.csv',index_col=0)goog=goog.reindex(pd.to_
阅读全文
摘要:Python 入门网络爬虫之精华版 转载 宁哥的小站,总结的不错 Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。 首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-网络爬虫 当我们在浏
阅读全文
摘要:Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib
阅读全文
摘要:检测访问者的浏览器和版本号有关访问者的浏览器的更多信息有关访问者的浏览器的全部细节根据浏览器来提醒用户 <html><body><script type="text/javascript">document.write("<p>浏览器:")document.write(navigator.appNa
阅读全文
摘要:6.函数: match.sqrt(),lower(),len(),type(),isinstance('a',str),max(),min(),dir(),hex(),setattar(obj,'y',19),getattar(obj,'y') map(),reduce(),filter(),lis
阅读全文
摘要:1.python简介特点: 是简单义学,有功能强大,高性能。面向对象,对动态输入的支持。解释性语言的本质,是大多数平台上理想的脚本语言。 简单,义学 免费,开源 高级语言,不用管理内存等底层细节 可移植性:Linux,windows,freebsd,windowsce,mac 解释性:python解
阅读全文
摘要:1.切片:截取List,tuple指定范围内的值:>>L[0,3] 2.如果给定一个list或tuple,我们可以通过for循环来遍历这个list或tuple,这种遍历我们称为迭代(Iteration)。 在Python中,迭代是通过for ... in来完成的 for x in L print(x
阅读全文
摘要:调用函数 / 类型转换 / 切片/ 迭代 1. 调用函数:abs(),max(),min() 2. 数据类型转换:int(),float(),str(),tool(),a=abs, 3. 定义函数,如果没有return语句,函数执行完毕后也会返回结果,只是结果为None 在Python中,定义一个函
阅读全文
摘要:dict and set dict: 键-值 /重复添加 set : 键 / key不能重复 对于不变对象来说,调用对象自身的任意方法,也不会改变该对象自身的内容。相反,这些方法会创建新的对象并返回,这样,就保证了不可变对象本身永远是不可变 Python内置了字典:dict的支持,dict全称dic
阅读全文
摘要:1. list Python内置的一种数据类型是列表:list。 list是一种有序的集合,可以随时添加和删除其中的元素。 最后一个元素的索引是len(classmates) - 1,用-1做索引,直接获取最后一个元素以此类推,可以获取倒数第2个、倒数第3个: >>> classmates[-2]
阅读全文
摘要:字符串和编码 数字--文本 ascii(bg2312,shift_jis,eur_kr)--unicode--utf-8 ord(""),chr() 1 Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符: 2.如果要在网络上传输,或者保存到磁盘上,就需要把st
阅读全文

浙公网安备 33010602011771号