云山之巅

2018年11月28日

摘要：一.简介从Spark 1.3开始，Spark SQL正式发布。而之前的另一个基于Spark的SQL开源项目Shark随之停止更新，基于Spark的最佳SQL计算就是Spark SQL。Spark SQL是Spark的一个模块，专门用于处理结构化数据。Spark SQL与Spark核心及其他模块之间阅读全文

posted @ 2018-11-28 11:28 云山之巅阅读(1602) 评论(0) 推荐(0)

2018年11月26日

Spark自定义函数/聚合函数代码实战【udf、udaf】

摘要：一.简介 Spark的自定义udf和udaf是为了提供函数扩展，Spark本身提供了几十上百个算子，在数据分析的各个方面的常用计算方式都有提到，但计算场景千差万别，算子也不会面面俱到，如何在单机或集群上定义函数就是要重点关注的地方。特别是在集群模式中，函数需要使用spark注册才能在各个节点上使用，阅读全文

posted @ 2018-11-26 17:56 云山之巅阅读(794) 评论(0) 推荐(0)

2018年11月25日

Scrapy代码实战

摘要： 1.Spider爬虫代码 3.Pipelines管道代码 4.setting代码（开启管道，300表示优先级，越小优先级越高） 5.运行爬虫执行命令：scrapy crawl yszd_spider 注意：yszd_spider为你定义爬虫的名称，与1中的第8行代码对应！ 6.执行结果阅读全文

posted @ 2018-11-25 16:32 云山之巅阅读(581) 评论(0) 推荐(0)

2018年11月24日

JVM内核优化

摘要： 1.垃圾回收器 JVM垃圾回收器有串行和并行两种。 1.1 Serial收集器（串行，单线程），现在使用较少 Serial一般收集新生代 SerialOld一般收集老年代（采用标记压缩算法） 1.2 ParNew收集器（多线程，并行）低延迟，采用复制标记算法 1.3 Parallel收集器（多线程阅读全文

posted @ 2018-11-24 12:55 云山之巅阅读(185) 评论(0) 推荐(0)

Scala泛型

摘要：结果：阅读全文

posted @ 2018-11-24 09:50 云山之巅阅读(310) 评论(0) 推荐(0)

2018年11月23日

Tensorflow激活函数

摘要：注意： 1.大多情况下使用Relu激活函数这种激活函数计算快，且在梯度下降中不会卡在plateaus（平稳段），对于大的输入，也不会饱和。 2.logistic function和hyperbloic tangent funcation会饱和在1。阅读全文

posted @ 2018-11-23 18:00 云山之巅阅读(318) 评论(0) 推荐(0)

2018年11月22日

CNN卷积神经网络代码实现【基于Python,Tensorflow】

摘要：一.概述卷积神经网络【Convolutional Neural Networks,CNN】是一类包含卷积计算且具有深度结构的前馈神经网络【Feedforward Neural Networks】是深度学习的代表算法之一。卷积神经网络具有表征学习【representation learning】能力阅读全文

posted @ 2018-11-22 18:33 云山之巅阅读(29822) 评论(2) 推荐(0)

2018年11月21日

Spark Word2Vec算法代码实现

摘要：分词结果：分词结果部分数据：模型：结果：分析：预测结果与训练集数据紧密相关，Word2Vec会根据训练集中各词之间的紧密程度设置不同的相识度，因此，要想获得较好的预测结果，需要有合适的训练集！阅读全文

posted @ 2018-11-21 11:10 云山之巅阅读(2979) 评论(0) 推荐(0)

2018年11月20日

Spark ML逻辑回归

摘要：结果：阅读全文

posted @ 2018-11-20 13:59 云山之巅阅读(862) 评论(0) 推荐(0)

2018年11月19日

SolrCloud搜索引擎集群搭建【伪分布式、完全分布式】

摘要：一.SolrCloud简介 Apache Solr能够设置结合了容错能力和高可用性的Solr服务器集群。这些功能称为SolrCloud，其提供分布式索引和搜索功能，具有以下特点： 1.集群的集中配置 2.自动负载均衡和查询故障转移 3.集成ZooKeeper用于集群协调和配置 SolrCloud是灵阅读全文

posted @ 2018-11-19 17:29 云山之巅阅读(777) 评论(0) 推荐(0)

Scala之List,Set及Map基本操作

摘要：结果：阅读全文

posted @ 2018-11-19 14:09 云山之巅阅读(1808) 评论(0) 推荐(0)

2018年11月17日

bs4爬虫入门

摘要：爬虫结果：阅读全文

posted @ 2018-11-17 17:24 云山之巅阅读(448) 评论(0) 推荐(0)

Scrapy爬虫入门

摘要： 1.安装Scrapy 打开Anaconda Prompt，执行：pip install Scrapy执行安装！注意：要是安装过程中抛出： error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ 阅读全文

posted @ 2018-11-17 12:14 云山之巅阅读(279) 评论(0) 推荐(0)

2018年11月15日

Solr参数详解【Web客户端，DIH数据导入】

摘要：一.Web客户端所有与Solr核心服务有关的交互，如查询处理，都是通过HTTP请求执行的。当查询表单时，会创建一个HTTP GET请求并发送给Solr。其Web界面及相关介绍如下：备注：每个表单查询都是发送HTTP GET请求，请求命令及详细解释如下：搜索体验优化的操作由Solr客户端负责阅读全文

posted @ 2018-11-15 15:21 云山之巅阅读(301) 评论(0) 推荐(0)

Python多态

摘要：结果：阅读全文

posted @ 2018-11-15 11:01 云山之巅阅读(202) 评论(0) 推荐(0)

2018年11月14日

List基础操作

摘要：结果：阅读全文

posted @ 2018-11-14 15:57 云山之巅阅读(264) 评论(0) 推荐(0)

2018年11月13日

Python多继承

摘要：结果：阅读全文

posted @ 2018-11-13 18:03 云山之巅阅读(200) 评论(0) 推荐(0)

Spark线性回归实现优化

摘要：结果：阅读全文

posted @ 2018-11-13 15:04 云山之巅阅读(685) 评论(0) 推荐(0)

2018年11月12日

Python类继承，方法重写及私有方法

摘要：结果：阅读全文

posted @ 2018-11-12 16:49 云山之巅阅读(1746) 评论(0) 推荐(0)

2018年11月8日

大数据的前世今生【Hadoop、Spark】

摘要：一.大数据简介大数据是一个很热门的话题，但它是什么时候开始兴起的呢？大数据【big data】这个词最早在UNIX用户协会的会议上被使用，来自SGI公司的科学家在其文章“大数据与下一代基础架构”【big data and the next wave of infrastress】中用它来描述数据阅读全文

posted @ 2018-11-08 18:39 云山之巅阅读(754) 评论(0) 推荐(0)

------自学是你超越他人使自己变的重要的一种能力！

公告