08 2016 档案

摘要:数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入 阅读全文
posted @ 2016-08-29 16:46 saratearing
摘要:本文转自:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool 此文解决了Spark yarn-cluster模式运行时,内存不足的问题。 Spark yarn-cluster模式运行时 阅读全文
posted @ 2016-08-27 17:19 saratearing
摘要:本文转自:http://blog.sina.com.cn/s/blog_15126e2170102w5o8.html 一、JDK的安装与配置 1、从官网下载jdk,注意是jdk不是jre。最好从官网下载,也可以直接度娘。 2、下载完毕后,安装jdk,​直接按照安装向导的提示安装即可,安装时可以自己选 阅读全文
posted @ 2016-08-26 22:04 saratearing
摘要:本文转自:http://www.cnblogs.com/Scott007/p/3889959.html 1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yar 阅读全文
posted @ 2016-08-26 15:10 saratearing
摘要:本文转自:http://www.itweet.cn/2015/07/24/yarn-resources-manager-allocation/ Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源 阅读全文
posted @ 2016-08-26 15:08 saratearing
摘要:问题一 解决方法:表面上看是因为shuffle没有地方写了,如果后面的stack是local space 的问题,那么清一下磁盘就好了。上面这种问题,是因为一个excutor给分配的内存不够,此时,减少excutor-core的数量,加大excutor-memory的值应该就没有问题。 问题二 解决 阅读全文
posted @ 2016-08-26 14:57 saratearing
摘要:1、 名词说明中文分词要处理的数据为文本数据:solr.TextField,需在schema.xml文件中做相关配置,配置选项如下: analyzer:告诉solr在建立索引和搜索的时候,如何处理text类型的内容。它在schema.xml文件中配置,可以直接指定一个类给它,也可以由tokenize 阅读全文
posted @ 2016-08-05 14:11 saratearing
摘要:一、 准备软件 3. 解压文件 二、 安装1、 将solr-6.1.0\server\solr-webapp文件夹下webapp文件夹复制到Tomcat安装目录\webapps\目录下,并改成solr 2、 将solr-6.1.0\server\lib\ext\目录下的所有Jar包拷贝到Tomcat 阅读全文
posted @ 2016-08-05 14:02 saratearing
摘要:Velocity简介 Velocity是一个基于Java的模板引擎(template engine)。它可以让视图的设计者在web页面中引用Java代码中定义的数据对象和命令,从而使Web designers和Java开发者依照MVC思想(Model-View-Controller)开发系统,这意味 阅读全文
posted @ 2016-08-05 11:38 saratearing
摘要:参考资料: http://wiki.apache.org/solr/ExtractingRequestHandler#Sending_documents_to_Solr /update 标准的update request handler,适用于XML,JSON,CSV或者JAVABIN文件类型 /u 阅读全文
posted @ 2016-08-05 10:37 saratearing
摘要:参考资料: https://cwiki.apache.org/confluence/display/solr/Uploading+Structured+Data+Store+Data+with+the+Data+Import+Handler https://wiki.apache.org/solr/ 阅读全文
posted @ 2016-08-05 09:37 saratearing
摘要:在Solr中,每一个索引,都要有一个唯一的ID,类似于关系型数据库表中的主键。为了方便创建索引,需要配置自动生成的ID,即UUID。 一、配置schema.xml文件 添加uuid字段类型,修改字段id的类型。 二、配置solrconfig.xml文件 添加更新策略配置,调用Solr中的UUIDUp 阅读全文
posted @ 2016-08-05 09:06 saratearing