正文内容加载中...
posted @ 2018-09-13 17:47 云山之巅 阅读(166) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-09-10 16:20 云山之巅 阅读(2565) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-09-07 17:49 云山之巅 阅读(3159) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-08-29 16:57 云山之巅 阅读(1327) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-08-24 16:53 云山之巅 阅读(1058) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-27 14:54 云山之巅 阅读(477) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-26 16:36 云山之巅 阅读(1028) 评论(0) 推荐(1) 编辑
正文内容加载中...
posted @ 2018-07-24 16:26 云山之巅 阅读(273) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-21 16:57 云山之巅 阅读(254) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-18 15:55 云山之巅 阅读(1053) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-17 18:04 云山之巅 阅读(1220) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-17 17:34 云山之巅 阅读(526) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-17 14:35 云山之巅 阅读(446) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-16 15:06 云山之巅 阅读(2511) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-13 11:23 云山之巅 阅读(534) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-13 11:12 云山之巅 阅读(247) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-13 11:09 云山之巅 阅读(635) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-12 10:32 云山之巅 阅读(482) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-12 10:17 云山之巅 阅读(617) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2018-07-11 16:12 云山之巅 阅读(1082) 评论(0) 推荐(0) 编辑
摘要:一.NumPy NumPy是Python科学计算的基础包。它提供了以下功能: 快速高效的多维数组对象ndarray。 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。 用于读写硬盘上基于数组的数据集的工具。 线性代数运算、傅里叶变换,以及随机数生成。 用于C、C++、Fortran代码集成 阅读全文
posted @ 2020-11-17 16:40 云山之巅 阅读(77) 评论(0) 推荐(0) 编辑
摘要:一.简介 在分布式环境下,用户必须要考虑系统出错的情形,例如,Region服务器发生故障时, MemStore 缓存中还没有被写入文件的数据会全部丢失。因此,HBase 采用 HLog 来保证系统发生故障时能够恢复到正常的状态。 二.WAL机制 每个 Region 服务器都有一个 HLog 文件,同 阅读全文
posted @ 2020-10-20 11:43 云山之巅 阅读(192) 评论(0) 推荐(0) 编辑
摘要:现代人给家中兄弟姐妹排行一般用老大、老二、老三、老四表示,既简单又明了。不过古人为兄弟姐妹排行可有讲究,他们按照从大到小的顺序给出一个名词,分别以“伯、仲、叔、季”表示。“伯”就是老大,也可以用“孟”表示,不过“孟”多指庶出的老大;“仲”是老二;“叔”是老三;“季”最小。古人在“字”前常加排行的次序 阅读全文
posted @ 2020-10-12 20:34 云山之巅 阅读(112) 评论(1) 推荐(0) 编辑
摘要:一.简介 Word2Vec是一个Estimator表示文档的单词序列并用于训练一个 Word2VecModel。该模型将每个单词映射到唯一的固定大小的向量。使用Word2VecModel 文档中所有单词的平均值将转换为向量;然后,可以将此向量用作预测,文档相似度计算等功能。 二.例子 在下面的代码段 阅读全文
posted @ 2020-09-29 10:25 云山之巅 阅读(212) 评论(0) 推荐(0) 编辑
摘要:一.图像数据源 图像数据源用于从目录加载图像文件,它可以通过ImageIO Java库将压缩图像(jpeg,png等)加载为原始图像表示形式。加载的DataFrame具有一StructType列:“ image”,其中包含存储为图像架构的图像数据。该image列的架构为: origin :(Stri 阅读全文
posted @ 2020-09-07 18:22 云山之巅 阅读(184) 评论(0) 推荐(0) 编辑
摘要:一.概述 GraphX是Spark中用于图形和图形并行计算的新组件。在较高的层次上,GraphX 通过引入新的Graph抽象来扩展Spark RDD:一个有向多重图,其属性附加到每个顶点和边上。为了支持图计算,GraphX公开了一组基本的操作符(例如, subgraph,joinVertices和  阅读全文
posted @ 2020-08-22 11:18 云山之巅 阅读(297) 评论(0) 推荐(0) 编辑
摘要:Spark流式计算程序要想运行顺畅,也需要一些基本的调优,总结一下主要在两个方向: 每个批次的处理时间尽可能短。 收到数据后,尽可能地处理。 1.减少批处理的时间 一是增加数据接收的并发数量,尤其是当瓶颈发生在数据接收的时候。默认每个Input DStream都只会创建一个接收器,运行在某个节点上, 阅读全文
posted @ 2020-07-30 19:02 云山之巅 阅读(196) 评论(0) 推荐(0) 编辑
摘要:一.什么是机器学习? 什么是机器学习?Herbert Sinmon给“学习”做出了这样的定义:“如果一个系统能够通过执行某个过程而改进性能,这就是学习。”更通俗的理解是:机器学习能够自动地从数据中学习“程序”,而这个程序不是人来编写的。 平面上有两类点,黄色代表类别a,蓝色代表类别b。这时我们希望能 阅读全文
posted @ 2020-07-26 11:38 云山之巅 阅读(167) 评论(0) 推荐(0) 编辑
摘要:一.DStream的两类操作 DStream内部其实是RDD序列,所有的DStream操作最终都转换为RDD操作。通过分析源码,可以进一步窥探这种转换是如何进行的。 DStream有一些与RDD类似的基础属性: 依赖的其它DStream列表。 生成RDD的时间间隔。 一个名为compute的计算函数 阅读全文
posted @ 2020-07-20 11:49 云山之巅 阅读(168) 评论(0) 推荐(0) 编辑
摘要:一.简介 拼写检查是个不错的功能,不过还可以根据用户的输入给出建议查询词,从最开始就避免拼写错误。在移动端中“胖手指失误”是很常见的。自动建议就能发挥很大的作用。 效果如下: 一般情况下,自动建议功能需要满足两个要求: 1.速度快。一个笨重的输入方案不能跟上用户的输入节奏,没有比这更让人恼火的了。建 阅读全文
posted @ 2020-07-01 20:21 云山之巅 阅读(174) 评论(0) 推荐(0) 编辑
摘要:一.拼写检查常用场景 1.查询包括一个或多个拼写错误的词,导致结果中得到不相关的内容。如果查询建议可用,搜索引擎应自动执行查询建议,向用户显示一条消息,如“显示的是xxx的搜索结果”或“仍然搜索xxx”。 2.查询包括罕见词,没有返回什么搜索结果。与此同时,存在可用的查询建议,并且能够得到多一些搜索 阅读全文
posted @ 2020-06-13 17:16 云山之巅 阅读(186) 评论(0) 推荐(0) 编辑
摘要:一.原因分析 根据是使用java集合还是scala数据集原因也不尽相同。 1.java集合 因为 Java 集合类型在 Scala 操作时没有 foreach 方法。 2.scala数据集 一般为scala版本与spark版本不兼容导致! 二.解决方案 1.java集合 需要将其转换为Scala的集 阅读全文
posted @ 2020-05-18 18:30 云山之巅 阅读(378) 评论(0) 推荐(0) 编辑
摘要:一.高亮简介 大多数的搜索应用都存在类似的情况,那就是搜索结果显示的屏幕空间有限。如果文档很短并可以在结果列表中显示全部内容,对屏幕空间显示就不会构成太大的问题。但大多数情况下都只能显示每个结果文档的一小部分。这就提出了一个问题:如何决定结果文档中显示哪一部分?理想情况下,应该是基于各片段与用户查询 阅读全文
posted @ 2020-05-11 10:49 云山之巅 阅读(342) 评论(0) 推荐(0) 编辑
摘要:一.DAGScheduler SparkContext在初始化时,创建了DAG调度和Task调度来负责RDD Action操作的调度执行。 DAGScheduler负责Spark的最高级别的任务调度,调度的粒度是Stage,它为每个Job的所有Stage计算一个有向无环图,控制它们的并发,并找到一个 阅读全文
posted @ 2020-04-29 11:02 云山之巅 阅读(200) 评论(0) 推荐(0) 编辑
摘要:一.选择响应格式 XML是Solr的默认响应格式。从Solr的角度看,什么样的响应格式并不重要。Solr可以返回XML、JSON、Ruby、Python、PHP、二进制Java等,甚至是自定义格式。使用wt参数修改响应格式。Solr的wt参数的可用格式如下: 当需要更改Solr的响应格式时,需要在请 阅读全文
posted @ 2020-04-26 18:47 云山之巅 阅读(213) 评论(0) 推荐(0) 编辑
摘要:一.简介 Solr的函数可以动态计算每个文档的值,而不是返回在索引阶段对应字段的静态数值集。函数查询是一类特殊的查询,它可以像关键词一样添加到查询中,对所有文档进行匹配并返回它们的函数计算值作为文档得分。使用函数查询,函数计算结果将用于修改相关度得分或用于搜索结果的排序。在应用程序层,函数计算的结果 阅读全文
posted @ 2020-04-17 11:30 云山之巅 阅读(602) 评论(1) 推荐(0) 编辑
摘要:一.简介 SparkContext是Spark程序最主要的入口,用于与Spark集群连接。Spark集群的所有操作都通过SparkContext来进行,使用它可以在Spark集群上创建RDD、计数器以及广播变量。所有的Spark程序都必须创建一个SparkContext对象。进行流式计算时使用的St 阅读全文
posted @ 2020-04-14 18:35 云山之巅 阅读(238) 评论(0) 推荐(0) 编辑
摘要:一.Spark核心数据结构RDD RDD是Spark最重要的抽象,掌握了RDD,可以说就掌握了Spark计算的精髓。它不但对理解现有Spark程序大有帮助, 也可能提升Spark程序编写能力。 RDD的全称是“弹性分布式数据集”。首先,它是一个数据集,就像Scala语言中的Array,List,Tu 阅读全文
posted @ 2020-04-11 15:53 云山之巅 阅读(161) 评论(0) 推荐(0) 编辑
摘要:一.简介 Spark对程序提供了非常灵活的配置方式,可以使用环境变量、配置文件、命令行参数,还可以直接在Spark程序中指定,不同的配置方式有不同的优先级,可以相互覆盖。而且这些配置的属性在Web界面中可以直接看到,非常方便我们管理配置。 二.Spark程序配置加载过程 Spark程序一般都是由脚本 阅读全文
posted @ 2020-04-08 20:24 云山之巅 阅读(166) 评论(0) 推荐(0) 编辑
摘要:一.背景 2003年,Google发表了“The Google File System”的论文。这个分布式文件系统简称GFS,它使用商用硬件集群存储海量数据。文件系统将数据在节点之间冗余复制,这样的话,即使一台存储服务器发生故障,也不会影响数据的可用性。它对数据的流式读取也做了优化,可以边处理边读取 阅读全文
posted @ 2020-04-06 18:51 云山之巅 阅读(130) 评论(0) 推荐(0) 编辑