正文内容加载中...
posted @ 2018-09-13 17:47 云山之巅 阅读 (59) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-09-10 16:20 云山之巅 阅读 (1392) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-09-07 17:49 云山之巅 阅读 (1298) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-08-29 16:57 云山之巅 阅读 (630) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-08-24 16:53 云山之巅 阅读 (434) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-27 14:54 云山之巅 阅读 (243) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-26 16:36 云山之巅 阅读 (637) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-24 16:26 云山之巅 阅读 (116) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-21 16:57 云山之巅 阅读 (94) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-18 15:55 云山之巅 阅读 (766) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-17 18:04 云山之巅 阅读 (954) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-17 17:34 云山之巅 阅读 (365) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-17 14:35 云山之巅 阅读 (252) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-16 15:06 云山之巅 阅读 (1679) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-13 11:23 云山之巅 阅读 (314) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-13 11:12 云山之巅 阅读 (115) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-13 11:09 云山之巅 阅读 (229) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-12 10:32 云山之巅 阅读 (207) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-12 10:17 云山之巅 阅读 (457) 评论 (0) 编辑
正文内容加载中...
posted @ 2018-07-11 16:12 云山之巅 阅读 (776) 评论 (0) 编辑
摘要:一.下载训练好的模型 下载路径:http://kaldi-asr.org/models/m2 二.上传&配置 1.上传到kaldi/egs/目录下 2.解压,tar -zxvf 0002_cvte_chain_model_v2.tar.gz 备注:因HCLG.fst模型解压后文件较大,在解压过程中会 阅读全文
posted @ 2020-01-15 09:48 云山之巅 阅读 (39) 评论 (0) 编辑
摘要:一.通用工具 在kaldi/src/base/目录下,查看kaldi-common.h文件,内容如下: // base/kaldi-common.h // Copyright 2009-2011 Microsoft Corporation // See ../../COPYING for clari 阅读全文
posted @ 2020-01-14 11:12 云山之巅 阅读 (13) 评论 (0) 编辑
摘要:一.前提条件 在kaldi目录下的子目录kaldi/egs/目录下保存着资源管理示例脚本。查看该目录中的README.txt文件,尤其是查看资源管理部分,它提到 与语料库相对应的LDC目录号。这可以从LDC获取数据。 进入rm目录,浏览README.txt文件查看整体结构,进入s5子目录,在s5目录 阅读全文
posted @ 2020-01-13 14:39 云山之巅 阅读 (20) 评论 (0) 编辑
摘要:一.概述 Solr文本分析消除了索引词项与用户搜索词项之间的语言差异,让用户在搜索buying a new house时能找到类似的内容,例如:purchasing a new home这样的文档。如果搭配恰当,文本分析就能允许用户使用自然语言进行搜索,而无需考虑搜索词项的所有可能形式。毕竟谁也不想 阅读全文
posted @ 2020-01-08 09:47 云山之巅 阅读 (34) 评论 (0) 编辑
摘要:一.事件驱动 提到事件驱动应用,首先讲什么是事件驱动的应用程序?事件驱动的应用程序是有状态的应用程序,它从一个或多个事件中提取事件,并通过触发计算,状态更新或外部操作来对传入的事件做出反应。 事件驱动的应用程序是传统应用程序设计的发展,具有分离的计算和数据存储层。在这种体系结构中,应用程序从远程事务 阅读全文
posted @ 2020-01-02 19:41 云山之巅 阅读 (37) 评论 (0) 编辑
摘要:一.概述 Apache Flink 是一个框架和分布式处理引擎,用于对无限制和有限制的数据流进行有状态的计算。Flink被设计为可以在所有常见的集群环境中运行,以内存速度和任何规模的计算。 首先,需要对什么是无限制什么是有限制做一下说明,首先看官方的解释: 1、无限制数据流 无限制数据流指数据是没有 阅读全文
posted @ 2019-12-31 10:45 云山之巅 阅读 (52) 评论 (0) 编辑
摘要:一.简介 Tesseract是一个开源的文本识别【OCR】引擎,可通过Apache 2.0许可获得。它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言。该软件包包含一个ORC引擎【libtesseract】和一个命令行程序【tesseract】。Tesseract4添加了一个新的基于 阅读全文
posted @ 2019-12-27 10:08 云山之巅 阅读 (278) 评论 (0) 编辑
摘要:一.在使用中出现的问题 1 package test 2 3 import org.apache.log4j.{Level, Logger} 4 import org.apache.spark.sql.SparkSession 5 6 /** 7 * Created by Administrator 阅读全文
posted @ 2019-12-24 11:33 云山之巅 阅读 (56) 评论 (0) 编辑
摘要:一.简介 Kaldi是使用C++编写的语音识别工具包,Apache License v2.0许可。主要供语音识别研究人员使用。Kaldi的目标和范围与HTK类似。目标是拥有易于修改和扩展的现代而灵活的代码。主要功能包括: 1.与有限状态传感器FST的代码进行集成,根据OpenFst工具箱【作为库】进 阅读全文
posted @ 2019-12-11 19:02 云山之巅 阅读 (90) 评论 (0) 编辑
摘要:一.索引存储 当文档提交到索引之后,directory目录组件会将它们写入到持久化存储器。Solr的目录组件具有以下重要特点: 1.隐藏持久存储的读写细节,例如,将文档写入到磁盘或通过JDBC在数据库中存储文档。 2.实现特定的存储锁定机制,防止索引出错。例如,在操作系统级别上基于文件系统的存储锁定 阅读全文
posted @ 2019-12-07 18:52 云山之巅 阅读 (27) 评论 (0) 编辑
摘要:一.索引提交 当一个文档被添加到Solr中,但没有提交给索引之前,这个文档是无法被搜索的。换句话说,从查询的角度看,文档直到提交之后才是可见的。Solr有两种类型的提交:软提交和正常提交【也称硬提交】。 1.正常提交 Solr正常提交是将所有未提交的文档写入磁盘,并刷新一个内部搜索器组件,让新提交的 阅读全文
posted @ 2019-12-01 20:17 云山之巅 阅读 (126) 评论 (0) 编辑
摘要:一.图表概述 1.数据图表能使表达形象化。使用数据图表可以使冗长的文字表达简洁化,化抽象为具体,使深奥的内容形象化,使阅读者更容易理解所要表达的主题及观点。 2.数据图表便于突出重点。通过对图表中数据的颜色和字体等信息的设置,可以把问题的重点有效地传达给阅读者。 3.数据图表更能体现专业化。恰当、得 阅读全文
posted @ 2019-12-01 12:47 云山之巅 阅读 (28) 评论 (0) 编辑
摘要:一.相关性分析 1.简介 计算两个系列数据之间的相关性是统计中的常见操作。在spark.ml中提供了很多算法用来计算两两的相关性。目前支持的相关性算法是Pearson和Spearman。Correlation使用指定的方法计算输入数据集的相关矩阵。输出是一个DataFrame,其中包含向量列的相关矩 阅读全文
posted @ 2019-11-29 15:09 云山之巅 阅读 (159) 评论 (0) 编辑
摘要:一.分区策略 GraphX采用顶点分割的方式进行分布式图分区。GraphX不会沿着边划分图形,而是沿着顶点划分图形,这可以减少通信和存储的开销。从逻辑上讲,这对应于为机器分配边并允许顶点跨越多台机器。分配边的方法取决于分区策略PartitionStrategy并且对各种启发式方法进行了一些折中。用户 阅读全文
posted @ 2019-11-27 16:09 云山之巅 阅读 (88) 评论 (0) 编辑
摘要:一.算法 非形式地说,算法【algorithm】就是任何定义的计算过程,该过程取某个值或值的集合作为输入并产生某个值或值的集合作为输出。这样算法就是把输入转换成输出的计算步骤的一个序列。 我们也可以把算法看成是用于求解计算问题的工具。一般来说,问题陈述说明了期望的输入/输出关系。算法则描述一个特定的 阅读全文
posted @ 2019-11-23 21:31 云山之巅 阅读 (155) 评论 (0) 编辑
摘要:一.概述 在许多数据中,都存在类别的数据,在一些功能中需要根据类别分别获取前几或后几的数据,用于数据可视化或异常数据预警。在这种情况下,实现分组TopN就显得非常重要了,因此,使用了Spark聚合函数和排序算法实现了分布式TopN计算功能。 二.代码实现 1 package scala 2 3 im 阅读全文
posted @ 2019-11-20 19:22 云山之巅 阅读 (48) 评论 (0) 编辑
摘要:一.案例SparkPi代码 1 package scala 2 3 import org.apache.spark.sql.SparkSession 4 5 import scala.math.random 6 7 /** Computes an approximation to pi */ 8 o 阅读全文
posted @ 2019-11-11 15:48 云山之巅 阅读 (48) 评论 (0) 编辑
摘要:一.图构建器 GraphX提供了几种从RDD或磁盘上的顶点和边的集合构建图形的方法。默认情况下,没有图构建器会重新划分图的边;相反,边保留在默认分区中。Graph.groupEdges要求对图进行重新分区,因为它假定相同的边将在同一分区上放置,因此在调用Graph.partitionBy之前必须要调 阅读全文
posted @ 2019-11-08 20:40 云山之巅 阅读 (86) 评论 (0) 编辑
摘要:一.概述 强化学习是根据奖励信号以改进策略的机器学习方法。策略和奖励是强化学习的核心元素。强化学习试图找到最大化总奖励的策略。强化学习不是监督学习,因为强化学习的学习过程中没有参考答案;强化学习也不是非监督学习,因为强化学习需要利用奖励信号来学习。 强化学习任务常用“智能体/环境”接口建模。学习和决 阅读全文
posted @ 2019-11-06 17:12 云山之巅 阅读 (270) 评论 (0) 编辑
摘要:一.缓存原理 缓存,带来急速性能体验! Solr提供了一系列的内置缓存来优化查询性能。Solr的缓存原理主要涉及以下4个方面: 1.缓存大小及缓存置换法 从缓存大小的角度来看,不能将缓存设置的太大,否则它会消耗JVM大量的内存。Solr能将所有的缓存对象都保存到内存中,不会溢写到磁盘中。为了控制缓存 阅读全文
posted @ 2019-11-01 22:00 云山之巅 阅读 (64) 评论 (0) 编辑