随笔分类 -  BigData相关

摘要:按照Elasticsearch API,在Java端使用是ES服务需要创建Java Client,但是每一次连接都实例化一个client,对系统的消耗很大,即使在使用完毕之后将client close掉,由于服务器不能及时回收socket资源,极端情况下会导致服务器达到最大连接数。 为了解决上述问题 阅读全文
posted @ 2017-04-14 17:51 SummerChill 阅读(4794) 评论(0) 推荐(0)
摘要:本文部分转载于: http://www.cnblogs.com/luxiaoxun/p/4869509.html ElasticSearch的基本用法与集群搭建 一、简介 ElasticSearch和Solr都是基于Lucene的搜索引擎,不过ElasticSearch天生支持分布式,而Solr是4 阅读全文
posted @ 2017-04-14 17:29 SummerChill 阅读(1115) 评论(0) 推荐(0)
摘要:指定路径下文件中的内容: 程序运行结果: 阅读全文
posted @ 2017-04-06 23:26 SummerChill 阅读(320) 评论(0) 推荐(0)
摘要:上代码: 多数据源 增加过滤器 阅读全文
posted @ 2017-04-06 23:18 SummerChill 阅读(286) 评论(0) 推荐(0)
摘要:上代码: 阅读全文
posted @ 2017-04-06 23:15 SummerChill 阅读(1342) 评论(0) 推荐(0)
摘要:上代码:主要看main方法中的设置. 如下代码是一般情况下的设置方法...Trident中设置多数据源看对应的博客总结 阅读全文
posted @ 2017-04-06 23:13 SummerChill 阅读(3755) 评论(0) 推荐(0)
摘要:1.全局定时器 局部定时器 阅读全文
posted @ 2017-04-06 08:26 SummerChill 阅读(3460) 评论(0) 推荐(0)
摘要:Storm的acker消息确认机制... ack/fail消息确认机制(确保一个tuple被完全处理) 在spout中发射tuple的时候需要同时发送messageid,这样才相当于开启了消息确认机制 如果你的topology里面的tuple比较多的话, 那么把acker的数量设置多一点,效率会高一 阅读全文
posted @ 2017-04-05 23:15 SummerChill 阅读(1657) 评论(0) 推荐(0)
摘要:ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍,本文将结合作者身边的项目例子,系统地对ZK的应用场景进行一个分门归类的 阅读全文
posted @ 2017-01-12 09:07 SummerChill 阅读(210) 评论(0) 推荐(0)
摘要:zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg,需要将其修改为zoo.cfg。其中各配置项的含义,解释如下: 1.tickTime:CS通信心跳时间Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就 阅读全文
posted @ 2017-01-12 07:49 SummerChill 阅读(935) 评论(0) 推荐(0)
摘要:1.程序需要的材料 文件中各个字段的含义,其中第6,7,8,9是要统计的流量相关的字段. 文件内容: 二.程序: // 代码二: 阅读全文
posted @ 2017-01-07 22:09 SummerChill 阅读(1934) 评论(0) 推荐(0)
摘要:1 package elasticsearch; 2 3 import java.util.HashMap; 4 import java.util.List; 5 import java.util.Map; 6 7 import org.elasticsearch.action.bulk.BulkItemResponse; 8 import org.el... 阅读全文
posted @ 2016-11-17 09:25 SummerChill 阅读(2232) 评论(0) 推荐(0)
摘要:1 ##################### Elasticsearch Configuration Example ##################### 2 3 # This file contains an overview of various configuration settings, 4 # targeted at operations staff. ... 阅读全文
posted @ 2016-11-06 17:34 SummerChill 阅读(1907) 评论(0) 推荐(0)
摘要:nutch抓取流程注入起始url(inject)、生成爬取列表(generate)、爬取(fetch)、解析网页内容(parse)、更新url数据库(updatedb)1:注入起始url(inject) org.apache.nutch.crawl.Injector 注入待抓取URL,因为Nutch 阅读全文
posted @ 2016-10-11 08:25 SummerChill 阅读(1632) 评论(0) 推荐(0)
摘要:nutch-default解释.xml regex-urlfilter解释.txt 阅读全文
posted @ 2016-10-10 09:05 SummerChill 阅读(2158) 评论(0) 推荐(0)
摘要:必须针对data文件中的value类型来使用对应的类来查看(把这个data文件,放到了本地Windows的D盘根目录下). 代码: 运行结果: 阅读全文
posted @ 2016-10-09 22:26 SummerChill 阅读(395) 评论(0) 推荐(0)
摘要:1.HelloMahout.java2.DistanceTest.java3.MahoutDemo.java 1.HelloMahout.java 1 package cn.crxy.mahout; 2 3 import java.io.File; 4 import java.util.List; 阅读全文
posted @ 2016-10-04 19:11 SummerChill 阅读(635) 评论(0) 推荐(0)
摘要:Shuffle Grouping: 随机分组, 随机派发stream里面的tuple, 保证bolt中的每个任务接收到的tuple数目相同.(它能实现较好的负载均衡) Fields Grouping:按字段分组, 比如按userid来分组, 具有同样userid的tuple会被分到同一任务, 而不同 阅读全文
posted @ 2016-08-21 23:19 SummerChill 阅读(2597) 评论(0) 推荐(2)
摘要:打成jar包放在主节点上去运行. 阅读全文
posted @ 2016-08-19 08:43 SummerChill 阅读(334) 评论(0) 推荐(0)
摘要:1 import java.io.File; 2 import java.io.IOException; 3 import java.util.Collection; 4 import java.util.HashMap; 5 import java.util.List; 6 import java.util.Map; 7 import java.util.Ma... 阅读全文
posted @ 2016-08-16 08:24 SummerChill 阅读(483) 评论(0) 推荐(0)