随笔列表第2页 - 云山之巅

2020年4月4日

摘要：一.维度 1.数据模型数据有多种存储的方式，包括键值对【类似Map】、半结构化的列式存储和文档结构存储。 2.存储模型内存还是磁盘持久化可以和RDBMS进行比较，它们通常持久化存储数据到磁盘中。即使需要的是纯粹内存模式，也仍旧有其他方案。一旦考虑持久化存储，就需要考虑选择的方案是否影响到访问模式阅读全文

posted @ 2020-04-04 18:05 云山之巅阅读(188) 评论(0) 推荐(0) 编辑

2020年3月31日

HBase储备知识二：起源

摘要：一.海量数据的黎明以前，因为缺乏划算的方式来存储所有信息，很多公司会忽略某些数据源，但是现在这样的处理方式会让公司丧失竞争力。存储和分析每一个数据点的需求在不断增长，这种需求的增长直接导致各公司电子商务平台产生了更多的数据。过去，唯一的选择就是将收集到的数据删减后保存起来，例如只保存最近N天的数阅读全文

posted @ 2020-03-31 18:35 云山之巅阅读(218) 评论(0) 推荐(0) 编辑

2020年3月23日

Flink Socket WordCount常见异常及解决方案

摘要：一.代码实现 package cn.socket import org.apache.flink.streaming.api.scala._ // 数据类型异常，动态数据引入 // import org.apache.flink.api.scala._ // 数据类型异常，静态数据引入 /** * 阅读全文

posted @ 2020-03-23 18:47 云山之巅阅读(1339) 评论(0) 推荐(0) 编辑

2020年3月21日

Solr查询解析器大全

摘要：一.字段查询解析器字段查询解析器在指定字段中搜索词项或短语，可以使用该字段定义的任何文本分析方式。f参数指明要进行词项或短语搜索的字段，语法如下： {!field f=myfield}hello world 该语法与使用Lucene查询解析器搜索短语myfield:"hello world"是等价阅读全文

posted @ 2020-03-21 08:56 云山之巅阅读(471) 评论(0) 推荐(0) 编辑

2020年3月7日

Keras深度神经网络模型分层分析【输入层、卷积层、池化层】

摘要：一.输入层 1.用途构建深度神经网络输入层，确定输入数据的类型和样式。 2.应用代码 input_data = Input(name='the_input', shape=(1600, 200, 1)) 3.源码 def Input(shape=None, batch_shape=None, na 阅读全文

posted @ 2020-03-07 19:26 云山之巅阅读(2987) 评论(0) 推荐(0) 编辑

2020年3月3日

Keras模型分类分析及代码实现

摘要：一.序列模型 1.序列模型【写法一】序列模型属于通用模型的一种，这种模型各层之间是依次顺序的线性关系。在第k层和第k+1层之间可以加上各种元素来构造神经网络。这些元素可以通过一个列表来制定，然后作为参数传递给序列模型来生成相应的模型。 from keras.models import Sequen 阅读全文

posted @ 2020-03-03 16:38 云山之巅阅读(1354) 评论(0) 推荐(0) 编辑

2020年3月2日

Solr查询配置及优化【eDisMax查询解析器】

摘要：一.简介 Lucene查询解析器语法支持创建任意复杂的布尔查询，但还有一些缺点，它不是用户查询处理的理想解决方案。这里面最大的问题是Lucene查询解析器的语法要求严格，一旦破坏就会抛出异常。指望用户在输入关键词时能够理解Lucene查询语法并始终能输入完美的查询表达式，这显然是不合理的。这意味着，阅读全文

posted @ 2020-03-02 16:03 云山之巅阅读(1083) 评论(1) 推荐(0) 编辑

2020年2月29日

Flink&Blink【编程模型、核心概念、SQL代码实战】

摘要：一.Flink新特性 1.支持Scala2.12 2.对SQL功能进行完善 a.Streaming SQL新增Temporal Tables【时态表】时态表：时态表记录了数据改变的历史状态，该表可以返回特定时间点的表的内容。 b.Streaming SQL支持模式匹配模式匹配：Flink CEP 阅读全文

posted @ 2020-02-29 17:58 云山之巅阅读(3660) 评论(0) 推荐(1) 编辑

2020年2月25日

Keras深度学习框架之损失函数

摘要：一.损失函数的使用损失函数【也称目标函数或优化评分函数】是编译模型时所需的两个参数之一。 model.compile(loss='mean_squared_error', optimizer='sgd') 或 from keras import losses model.compile(loss= 阅读全文

posted @ 2020-02-25 16:40 云山之巅阅读(3702) 评论(0) 推荐(0) 编辑

2020年2月22日

Solr搜索解析及查询解析器用法概述

摘要：一.简介大多数查询都使用了标准的Solr语法。这种语法是Solr最常见的，由默认查询解析器负责处理。Solr的默认查询解析器是Lucene查询解析器【LuceneQParserPlugin类实现】。Lucene查询解析器全面支持Lucene语法及Solr的一些专用扩展。二.Lucene查询解析阅读全文

posted @ 2020-02-22 17:35 云山之巅阅读(927) 评论(0) 推荐(0) 编辑

2020年2月15日

Solr查询和过滤器执行顺序剖析

摘要：一.简介 Solr的搜索主要由两个操作组成：找到与请求参数相匹配的文档；对这些文档进行排序，返回最相关的匹配文档。默认情况下，文档根据相关度进行排序。这意味着，找到匹配的文档集之后，需要另一个操作来计算每个匹配文档的相关度得分。二.fq和q参数为有效地查找匹配的文档和计算文档的相关度得分，Sol 阅读全文

posted @ 2020-02-15 11:36 云山之巅阅读(742) 评论(0) 推荐(0) 编辑

2020年2月5日

Flink集群模式部署及案例执行

摘要：一.软件要求 Flink在所有类UNIX的环境【例如linux，mac os x和cygwin】上运行，并期望集群由一个主节点和一个或多个工作节点组成。在开始设置系统之前，确保在每个节点上都安装了一下软件： 1.Java1.8.x或更高版本 2.ssh，必须运行sshd才能使用管理远程组件的Fli 阅读全文

posted @ 2020-02-05 11:11 云山之巅阅读(1918) 评论(0) 推荐(0) 编辑

2020年2月3日

Solr查询解析及内核剖析

摘要：一.Solr请求概念 Solr最常见的请求类型是在Solr索引中查找相关文档的查询【query】。除此之外，Solr还可以处理许多不同类型的请求。所有的请求基本上都是通过请求处理器提交给Solr。搜索处理器【search handler】是查询处理的默认请求处理器，通过调用一个或多个搜索组件，每个组阅读全文

posted @ 2020-02-03 15:08 云山之巅阅读(322) 评论(0) 推荐(0) 编辑

2020年2月1日

Spark Streaming流计算核心概念

摘要：一.DStreams【离散流】 DStreams或离散流是Spark Streaming提供的基本抽象。它表示连续的数据流，可以是从源接收的输入数据流，也可以是通过转换输入流生成的已处理数据流。在内部，DStream由一系列连续的RDD表示，这是Spark对不可变的分布式数据集的抽象。DStream 阅读全文

posted @ 2020-02-01 10:44 云山之巅阅读(485) 评论(0) 推荐(0) 编辑

2020年1月15日

Kaldi语音识别CVTE模型实战

摘要：一.下载训练好的模型下载路径：http://kaldi-asr.org/models/m2 二.上传&配置 1.上传到kaldi/egs/目录下 2.解压，tar -zxvf 0002_cvte_chain_model_v2.tar.gz 备注：因HCLG.fst模型解压后文件较大，在解压过程中会阅读全文

posted @ 2020-01-15 09:48 云山之巅阅读(1759) 评论(0) 推荐(0) 编辑

2020年1月14日

Kaldi基础代码库及建模

posted @ 2020-01-14 11:12 云山之巅阅读(537) 评论(0) 推荐(0) 编辑

2020年1月13日

Kaldi样例实战

摘要：一.前提条件在kaldi目录下的子目录kaldi/egs/目录下保存着资源管理示例脚本。查看该目录中的README.txt文件，尤其是查看资源管理部分，它提到与语料库相对应的LDC目录号。这可以从LDC获取数据。进入rm目录，浏览README.txt文件查看整体结构，进入s5子目录，在s5目录阅读全文

posted @ 2020-01-13 14:39 云山之巅阅读(1355) 评论(0) 推荐(0) 编辑

2020年1月8日

Solr文本分析剖析【文本分析、分词器详解、自定义文本分析字段及分词器】

摘要：一.概述 Solr文本分析消除了索引词项与用户搜索词项之间的语言差异，让用户在搜索buying a new house时能找到类似的内容，例如：purchasing a new home这样的文档。如果搭配恰当，文本分析就能允许用户使用自然语言进行搜索，而无需考虑搜索词项的所有可能形式。毕竟谁也不想阅读全文

posted @ 2020-01-08 09:47 云山之巅阅读(919) 评论(0) 推荐(0) 编辑

2020年1月2日

Flink场景分析与比较【事件驱动、数据分析、数据管道】

摘要：一.事件驱动提到事件驱动应用，首先讲什么是事件驱动的应用程序？事件驱动的应用程序是有状态的应用程序，它从一个或多个事件中提取事件，并通过触发计算，状态更新或外部操作来对传入的事件做出反应。事件驱动的应用程序是传统应用程序设计的发展，具有分离的计算和数据存储层。在这种体系结构中，应用程序从远程事务阅读全文

posted @ 2020-01-02 19:41 云山之巅阅读(2449) 评论(0) 推荐(0) 编辑

2019年12月31日

什么是Apache Flink实时流计算框架？

摘要：一.概述 Apache Flink 是一个框架和分布式处理引擎，用于对无限制和有限制的数据流进行有状态的计算。Flink被设计为可以在所有常见的集群环境中运行，以内存速度和任何规模的计算。首先，需要对什么是无限制什么是有限制做一下说明，首先看官方的解释： 1、无限制数据流无限制数据流指数据是没有阅读全文

posted @ 2019-12-31 10:45 云山之巅阅读(1292) 评论(0) 推荐(0) 编辑

云山之巅

------自学是你超越他人使自己变的重要的一种能力！

公告