08 2017 档案
摘要:Kafka高性能之道 高效使用磁盘 零拷贝 批处理和压缩 Partition ISR 高效使用磁盘 》顺序写cipan 》Append Only(数据不更新,无记录级的数据删除,只会整个segment删除) 》充分利用Page Cache 》支持多Directory(可使用多Drive) 零拷贝 》
阅读全文
摘要:Overview Concepts Topology Time States Window Hopping time windows Tumbling time windows Sliding windows Join API Low-Level Processor API High-Level D
阅读全文
摘要:New API Producer 》增加发送回调 》重构Partition 统一High Level API与Low Level API 》从kafka.consumer和kafka.javaapi到kafka.clients.consumer(Kafka将所有的相关类都放在这个包中) 》subsc
阅读全文
摘要:Zookeeepr实现分布式集群监控 Zookeeper中节点有两种:临时节点和永久节点 从类型上看节点又可以分为四种节点类型:PERSIST,PERSIST_SEQUENTIAL,EPHEMERAL,EPHEMERAL_SEQUENTIAL 临时节点有一个特点:当创建临时节点的程序停掉之后,这个临
阅读全文
摘要:Consumer High Level Consumer 简要:很多应用场景下,客户程序知识希望从Kafka顺序读取并处理数据,并不太关心具体的offset。 同时也希望提供一些语义,例如同一条消息只被一个Consumer消费(单播)或被所有Consumer消费(广播)。 Kafka High Le
阅读全文
摘要:Leader Election Zookeeper的基本操作 Zookeeper虽然是分布式系统,但它并不是为文件存储而设计的,Zookeeper里存储的一般是配置信息和源信息。实际上,Zookeeper在每个节点上存储大小都在1M一下(通常是远小于1M) 基于Zookeeper的Leader El
阅读全文
摘要:技术选型 在后期项目跑通之后我们可以选用Zookeeper来实现监控功能。 部署方案 爬虫项目:堕胎服务器 网站爬虫分类URL定时项目:一台服务器 Hbase数据库:集群 Solr服务器:集群 Redis服务器:集群 爬虫监控项目:一台服务器 Web项目:多台服务器 Zookeeper服务器:集群
阅读全文
摘要:总体架构解析 数据流向 模块划分 各模块解读 总体架构解析: 数据流向 模块划分 数据采集模块解读 数据分析模块解读: 报表管理模块解读 系统管理与监控模块解读
阅读全文
摘要:难点分析 1.网站采取反爬策略 2.网站模板定期变动 3.网站url抓取失败 4.网站频繁抓取ip被封 1.网站采取反爬策略 》网站默认对方正常访问的方式是浏览器访问而不是代码访问,为了防止对方使用大规模服务器进行爬虫从而导致自身服务器承受过大的压力,通常网站会采取反爬策略 根据这一特性,我们用代码
阅读全文
摘要:今天安装storm集群的时候,各个进程也都起来,却发现Storm ui界面下无法观察Storm集群的状态 有很多地方处理不当都会造成这种现象: 1.storm.yaml配置不当 2.防火墙的问题 3.启动顺序的问题 启动nimbus后台运行:bin/storm nimbus < /dev/null
阅读全文
摘要:Zookeeper Zookeeper是一个高性能分布式应用协调服务 》Naming Service 》配置管理 》Leader Election 》服务发现 》同步 》Group Service 》Barrier 》分布式队列(其实zookeeper并不适合作为分布式队列,性能不高只不过在特定场合
阅读全文
摘要:数据辅助与Failover CAP理论(它具有一致性、可用性、分区容忍性) CAP理论:分布式系统中,一致性、可用性、分区容忍性最多只可同时满足两个。一般分区容忍性都要求有保障,因此很多时候在可用性与一致性之间做权衡。 一致性方案 1.Master-slave 》RDBMS的读写分离即为典型的Mas
阅读全文
摘要:Kafka架构 1.Kafka消息系统一般包括三个部分:Producer(发布者)、Broker(Kafka Server)、Consumer(消费者/订阅者),并辅以Zookeeper来协调。 2.Consumer通过pull来想Broker拉去数据,这样的好处就是Broker设计简单,不需要感知
阅读全文
摘要:Kafka简介 消息系统分类: 1.Peer-to-Peer 它仅支持单播发送,一条消息只能被一个消费者消费 2.发布/订阅系统 它支持单播、多播发送,一条消息能被多个消费者消费(kafka) 常用消息系统对比: RabbitMQ:重量级消息系统 Redis:基于Key-Value对的NoSQL数据
阅读全文
摘要:1、Topology的构造backtype.storm.topology.TopologyBuilder 2、Spout组件的编写实现接口 backtype.storm.topology.IRichSpout; 或者继承backtype.storm.topology.base.BaseRichSpo
阅读全文

浙公网安备 33010602011771号