上一页 1 ··· 7 8 9 10 11 12 13 14 15 16 下一页
摘要: 一.简介 从Spark 1.3开始,Spark SQL正式发布。而之前的另一个基于Spark的SQL开源项目Shark随之停止更新,基于Spark的最佳SQL计算就是Spark SQL。Spark SQL是Spark的一个模块,专门用于处理结构化数据。Spark SQL与Spark核心及其他模块之间 阅读全文
posted @ 2018-11-28 11:28 云山之巅 阅读(1534) 评论(0) 推荐(0) 编辑
摘要: 一.简介 Spark的自定义udf和udaf是为了提供函数扩展,Spark本身提供了几十上百个算子,在数据分析的各个方面的常用计算方式都有提到,但计算场景千差万别,算子也不会面面俱到,如何在单机或集群上定义函数就是要重点关注的地方。特别是在集群模式中,函数需要使用spark注册才能在各个节点上使用, 阅读全文
posted @ 2018-11-26 17:56 云山之巅 阅读(748) 评论(0) 推荐(0) 编辑
摘要: 1.Spider爬虫代码 3.Pipelines管道代码 4.setting代码(开启管道,300表示优先级,越小优先级越高) 5.运行爬虫 执行命令:scrapy crawl yszd_spider 注意:yszd_spider为你定义爬虫的名称,与1中的第8行代码对应! 6.执行结果 阅读全文
posted @ 2018-11-25 16:32 云山之巅 阅读(572) 评论(0) 推荐(0) 编辑
摘要: 1.垃圾回收器 JVM垃圾回收器有串行和并行两种。 1.1 Serial收集器(串行,单线程),现在使用较少 Serial一般收集新生代 SerialOld一般收集老年代(采用标记压缩算法) 1.2 ParNew收集器(多线程,并行) 低延迟,采用复制标记算法 1.3 Parallel收集器(多线程 阅读全文
posted @ 2018-11-24 12:55 云山之巅 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 结果: 阅读全文
posted @ 2018-11-24 09:50 云山之巅 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 注意: 1.大多情况下使用Relu激活函数这种激活函数计算快,且在梯度下降中不会卡在plateaus(平稳段),对于大的输入,也不会饱和。 2.logistic function和hyperbloic tangent funcation会饱和在1。 阅读全文
posted @ 2018-11-23 18:00 云山之巅 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 一.概述 卷积神经网络【Convolutional Neural Networks,CNN】是一类包含卷积计算且具有深度结构的前馈神经网络【Feedforward Neural Networks】是深度学习的代表算法之一。卷积神经网络具有表征学习【representation learning】能力 阅读全文
posted @ 2018-11-22 18:33 云山之巅 阅读(29396) 评论(2) 推荐(0) 编辑
摘要: 分词结果: 分词结果部分数据: 模型: 结果: 分析: 预测结果与训练集数据紧密相关,Word2Vec会根据训练集中各词之间的紧密程度设置不同的相识度,因此,要想获得较好的预测结果,需要有合适的训练集! 阅读全文
posted @ 2018-11-21 11:10 云山之巅 阅读(2934) 评论(0) 推荐(0) 编辑
摘要: 结果: 阅读全文
posted @ 2018-11-20 13:59 云山之巅 阅读(847) 评论(0) 推荐(0) 编辑
摘要: 一.SolrCloud简介 Apache Solr能够设置结合了容错能力和高可用性的Solr服务器集群。这些功能称为SolrCloud,其提供分布式索引和搜索功能,具有以下特点: 1.集群的集中配置 2.自动负载均衡和查询故障转移 3.集成ZooKeeper用于集群协调和配置 SolrCloud是灵 阅读全文
posted @ 2018-11-19 17:29 云山之巅 阅读(712) 评论(0) 推荐(0) 编辑
摘要: 结果: 阅读全文
posted @ 2018-11-19 14:09 云山之巅 阅读(1788) 评论(0) 推荐(0) 编辑
摘要: 爬虫结果: 阅读全文
posted @ 2018-11-17 17:24 云山之巅 阅读(434) 评论(0) 推荐(0) 编辑
摘要: 1.安装Scrapy 打开Anaconda Prompt,执行:pip install Scrapy执行安装! 注意:要是安装过程中抛出: error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ 阅读全文
posted @ 2018-11-17 12:14 云山之巅 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 一.Web客户端 所有与Solr核心服务有关的交互,如查询处理,都是通过HTTP请求执行的。当查询表单时,会创建一个HTTP GET请求并发送给Solr。 其Web界面及相关介绍如下: 备注: 每个表单查询都是发送HTTP GET请求,请求命令及详细解释如下: 搜索体验优化的操作由Solr客户端负责 阅读全文
posted @ 2018-11-15 15:21 云山之巅 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 结果: 阅读全文
posted @ 2018-11-15 11:01 云山之巅 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 结果: 阅读全文
posted @ 2018-11-14 15:57 云山之巅 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 结果: 阅读全文
posted @ 2018-11-13 18:03 云山之巅 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 结果: 阅读全文
posted @ 2018-11-13 15:04 云山之巅 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 结果: 阅读全文
posted @ 2018-11-12 16:49 云山之巅 阅读(1728) 评论(0) 推荐(0) 编辑
摘要: 一.大数据简介 大数据是一个很热门的话题,但它是什么时候开始兴起的呢? 大数据【big data】这个词最早在UNIX用户协会的会议上被使用,来自SGI公司的科学家在其文章“大数据与下一代基础架构”【big data and the next wave of infrastress】中用它来描述数据 阅读全文
posted @ 2018-11-08 18:39 云山之巅 阅读(688) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 16 下一页