摘要:
一.简介 从Spark 1.3开始,Spark SQL正式发布。而之前的另一个基于Spark的SQL开源项目Shark随之停止更新,基于Spark的最佳SQL计算就是Spark SQL。Spark SQL是Spark的一个模块,专门用于处理结构化数据。Spark SQL与Spark核心及其他模块之间 阅读全文
摘要:
一.简介 Spark的自定义udf和udaf是为了提供函数扩展,Spark本身提供了几十上百个算子,在数据分析的各个方面的常用计算方式都有提到,但计算场景千差万别,算子也不会面面俱到,如何在单机或集群上定义函数就是要重点关注的地方。特别是在集群模式中,函数需要使用spark注册才能在各个节点上使用, 阅读全文
摘要:
1.Spider爬虫代码 3.Pipelines管道代码 4.setting代码(开启管道,300表示优先级,越小优先级越高) 5.运行爬虫 执行命令:scrapy crawl yszd_spider 注意:yszd_spider为你定义爬虫的名称,与1中的第8行代码对应! 6.执行结果 阅读全文
摘要:
1.垃圾回收器 JVM垃圾回收器有串行和并行两种。 1.1 Serial收集器(串行,单线程),现在使用较少 Serial一般收集新生代 SerialOld一般收集老年代(采用标记压缩算法) 1.2 ParNew收集器(多线程,并行) 低延迟,采用复制标记算法 1.3 Parallel收集器(多线程 阅读全文
摘要:
结果: 阅读全文
摘要:
注意: 1.大多情况下使用Relu激活函数这种激活函数计算快,且在梯度下降中不会卡在plateaus(平稳段),对于大的输入,也不会饱和。 2.logistic function和hyperbloic tangent funcation会饱和在1。 阅读全文
摘要:
一.概述 卷积神经网络【Convolutional Neural Networks,CNN】是一类包含卷积计算且具有深度结构的前馈神经网络【Feedforward Neural Networks】是深度学习的代表算法之一。卷积神经网络具有表征学习【representation learning】能力 阅读全文
摘要:
分词结果: 分词结果部分数据: 模型: 结果: 分析: 预测结果与训练集数据紧密相关,Word2Vec会根据训练集中各词之间的紧密程度设置不同的相识度,因此,要想获得较好的预测结果,需要有合适的训练集! 阅读全文
摘要:
一.SolrCloud简介 Apache Solr能够设置结合了容错能力和高可用性的Solr服务器集群。这些功能称为SolrCloud,其提供分布式索引和搜索功能,具有以下特点: 1.集群的集中配置 2.自动负载均衡和查询故障转移 3.集成ZooKeeper用于集群协调和配置 SolrCloud是灵 阅读全文
摘要:
结果: 阅读全文
摘要:
爬虫结果: 阅读全文
摘要:
1.安装Scrapy 打开Anaconda Prompt,执行:pip install Scrapy执行安装! 注意:要是安装过程中抛出: error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ 阅读全文
摘要:
一.Web客户端 所有与Solr核心服务有关的交互,如查询处理,都是通过HTTP请求执行的。当查询表单时,会创建一个HTTP GET请求并发送给Solr。 其Web界面及相关介绍如下: 备注: 每个表单查询都是发送HTTP GET请求,请求命令及详细解释如下: 搜索体验优化的操作由Solr客户端负责 阅读全文
摘要:
结果: 阅读全文
摘要:
一.大数据简介 大数据是一个很热门的话题,但它是什么时候开始兴起的呢? 大数据【big data】这个词最早在UNIX用户协会的会议上被使用,来自SGI公司的科学家在其文章“大数据与下一代基础架构”【big data and the next wave of infrastress】中用它来描述数据 阅读全文