随笔分类 - 数据分析
spark-shell 中rdd常用方法
摘要:centos 7.2 spark 2.3.3 scala 2.11.11 java 1.8.0_202-ea spark-shell中为scala语法格式 1.distinct 去重 val c = sc.parallerlize(List("Gnu","Cat","Rat","Dog","Gnu"
阅读全文
spark 基础
摘要:scala版 ,基本名词概念及 rdd的基本创建及使用 var conf = new SparkConf() var sc: SparkContext = new SparkContext(conf) val rawRDDA = sc.parallelize(List("!! bb ## cc","
阅读全文
elasticsearch基本使用
摘要:elasticsearch 是java对lucence的封装,所以需要事先安装java。 它适用于全文索引,便捷的分布式,主要原理就是倒排索引。一般搜索某个关键字,是通过在一篇篇文章中查找这个关键字,而elasticsearch是存储的时候就将需要索引的内容进行分词,形成多个标签,查找时直接在标签索
阅读全文
hadoop安装
摘要:Hadoop是一个开源的Apache项目,允许对大规模,分布于不同网络的数据集进行并行处理 它由HDFS(hadoop distibuted file system )和hadoop YARN组成 HDFS:处理不同的节点上的大量数据 hadoop YARN :任务调度框架,调度所有节点上的数据处理
阅读全文
openpyxl读取Excel数据
摘要:python 读取Excel的各种模块说明网站 http://www.python-excel.org/ openpyxl 推荐的,用于读写Excel2010的.xlsx文件 Download | Documentation | Bitbucket xlsxwriter 可选的包,用于写入数据、 格
阅读全文
python 最小二乘拟合,反卷积,卡方检验
摘要:import numpy as np # from enthought.mayavi import mlab ''' ogrid[-1:5:6j,-1:5:6j] [array([[-1. ], [ 0.2], [ 1.4], [ 2.6], [ 3.8], [ 5. ]]), array([[-1
阅读全文
matplotlib小示例
摘要:matplotlib 画廊 http://matplotlib.org/gallery.html import numpy as np import matplotlib.pyplot as plt x=np.linspace(0,10,800) #作图的变量的自变量 y=np.sin(x)+1 #
阅读全文
pandas 常用语句
摘要:pandas的功能非常强大,支持类似与sql的数据增、删、查、改,并且带有丰富的数据处理函数; 支持时间序列分析功能;支持灵活处理缺失数据等。 pandas的基本数据结构是Series和DataFrame。 Series是序列,类似一维数组; DataFrame相当于一张二维表格,类似二维数组,它的
阅读全文
re 正则
摘要:如果直接给出字符,就是精确匹配。对于特殊字符- ,在正则表达式中要用转义字符\转义。 \d 一个数字, \w 任意单个字符,空白符除外(例 字母、数字或下划线 . 英文点号) \s 一个空格(也包括Tab等空白符) 大写的为小写的取反模式 \D 除0到9的数字以外的任何字符 \W 匹配除数字、字母和
阅读全文
tf.nn的conv2d卷积与max_pool池化
摘要:tf.nn.conv2d(value,filter,strides,[...]) 对于图片来说 value : 形状通常是np.array()类型的4维数组也称tensor(张量), (batch,height,width,channels) 可以理解为(图片样本的个数,高,宽,图片的颜色通道数)
阅读全文
tensorflow 模型保存后的加载路径问题
摘要:import tensorflow as tf #保存模型 saver = tf.train.Saver() saver.save(sess, "e://code//python//test//package_test//model.ckpt", global_step=step) #加载读取模型
阅读全文
ValueError: Argument must be a dense tensor:... got shape [6, 60, 160, 3], but wanted [6].
摘要:在将 列表或元组 数据转换成 dataset类型时 import numpy as np import tensorflow as tffrom sklearn.cross_validation import train_test_split pic_array=np.ones((60,160,3)
阅读全文
numpy 小示例
摘要:import numpy as np 生成 3*4 的由 0 组成的二维数组 >>> np.zeros((3,4)) array([[0., 0., 0., 0.], [0., 0., 0., 0.], [0., 0., 0., 0.]]) 生成 2*3*4 的由 1 组成的三维数组 >>>np.o
阅读全文