数据分析 - 随笔分类 - 庭明

spark-shell 中rdd常用方法

摘要：centos 7.2 spark 2.3.3 scala 2.11.11 java 1.8.0_202-ea spark-shell中为scala语法格式 1.distinct 去重 val c = sc.parallerlize(List("Gnu","Cat","Rat","Dog","Gnu" 阅读全文

posted @ 2019-07-04 20:43 庭明阅读(530) 评论(0) 推荐(0)

spark 基础

摘要：scala版，基本名词概念及 rdd的基本创建及使用 var conf = new SparkConf() var sc: SparkContext = new SparkContext(conf) val rawRDDA = sc.parallelize(List("!! bb ## cc"," 阅读全文

posted @ 2019-06-28 19:23 庭明阅读(185) 评论(0) 推荐(0)

elasticsearch基本使用

摘要：elasticsearch 是java对lucence的封装，所以需要事先安装java。它适用于全文索引，便捷的分布式，主要原理就是倒排索引。一般搜索某个关键字，是通过在一篇篇文章中查找这个关键字，而elasticsearch是存储的时候就将需要索引的内容进行分词，形成多个标签，查找时直接在标签索阅读全文

posted @ 2018-12-14 17:55 庭明阅读(1290) 评论(0) 推荐(0)

hadoop安装

摘要：Hadoop是一个开源的Apache项目，允许对大规模，分布于不同网络的数据集进行并行处理它由HDFS（hadoop distibuted file system )和hadoop YARN组成 HDFS：处理不同的节点上的大量数据 hadoop YARN :任务调度框架，调度所有节点上的数据处理阅读全文

posted @ 2018-10-31 15:22 庭明阅读(389) 评论(0) 推荐(0)

openpyxl读取Excel数据

摘要：python 读取Excel的各种模块说明网站 http://www.python-excel.org/ openpyxl 推荐的，用于读写Excel2010的.xlsx文件 Download | Documentation | Bitbucket xlsxwriter 可选的包，用于写入数据、格阅读全文

posted @ 2018-08-28 14:55 庭明阅读(1155) 评论(0) 推荐(0)

python 最小二乘拟合，反卷积，卡方检验

摘要：import numpy as np # from enthought.mayavi import mlab ''' ogrid[-1:5:6j,-1:5:6j] [array([[-1. ], [ 0.2], [ 1.4], [ 2.6], [ 3.8], [ 5. ]]), array([[-1 阅读全文

posted @ 2018-08-28 14:49 庭明阅读(668) 评论(0) 推荐(0)

matplotlib小示例

摘要：matplotlib 画廊 http://matplotlib.org/gallery.html import numpy as np import matplotlib.pyplot as plt x=np.linspace(0,10,800) #作图的变量的自变量 y=np.sin(x)+1 # 阅读全文

posted @ 2018-08-28 11:55 庭明阅读(202) 评论(0) 推荐(0)

pandas 常用语句

摘要：pandas的功能非常强大，支持类似与sql的数据增、删、查、改，并且带有丰富的数据处理函数；支持时间序列分析功能；支持灵活处理缺失数据等。 pandas的基本数据结构是Series和DataFrame。 Series是序列，类似一维数组； DataFrame相当于一张二维表格，类似二维数组，它的阅读全文

posted @ 2018-07-11 18:33 庭明阅读(2097) 评论(0) 推荐(0)

re 正则

摘要：如果直接给出字符，就是精确匹配。对于特殊字符- ，在正则表达式中要用转义字符\转义。 \d 一个数字， \w 任意单个字符,空白符除外（例字母、数字或下划线 . 英文点号） \s 一个空格（也包括Tab等空白符）大写的为小写的取反模式 \D 除0到9的数字以外的任何字符 \W 匹配除数字、字母和阅读全文

posted @ 2018-07-11 17:34 庭明阅读(435) 评论(0) 推荐(0)

tf.nn的conv2d卷积与max_pool池化

摘要：tf.nn.conv2d(value,filter,strides,[...]) 对于图片来说 value : 形状通常是np.array()类型的4维数组也称tensor(张量), (batch,height,width,channels) 可以理解为（图片样本的个数，高，宽，图片的颜色通道数）阅读全文

posted @ 2018-07-02 18:34 庭明阅读(299) 评论(0) 推荐(0)

tensorflow 模型保存后的加载路径问题

摘要：import tensorflow as tf #保存模型 saver = tf.train.Saver() saver.save(sess, "e://code//python//test//package_test//model.ckpt", global_step=step) #加载读取模型阅读全文

posted @ 2018-07-02 17:40 庭明阅读(683) 评论(0) 推荐(0)

ValueError: Argument must be a dense tensor:... got shape [6, 60, 160, 3], but wanted [6].

摘要：在将列表或元组数据转换成 dataset类型时 import numpy as np import tensorflow as tffrom sklearn.cross_validation import train_test_split pic_array=np.ones((60,160,3) 阅读全文

posted @ 2018-06-28 16:31 庭明阅读(1309) 评论(0) 推荐(0)

numpy 小示例

摘要：import numpy as np 生成 3*4 的由 0 组成的二维数组 >>> np.zeros((3,4)) array([[0., 0., 0., 0.], [0., 0., 0., 0.], [0., 0., 0., 0.]]) 生成 2*3*4 的由 1 组成的三维数组 >>>np.o 阅读全文

posted @ 2018-06-21 17:50 庭明阅读(153) 评论(0) 推荐(0)

随笔分类 - 数据分析

公告