随笔分类 -  分布式系统手记

基于Cassandra的日志和分布式小文件存储系统【1】
摘要:系统简述Cassandra高性能写,而日志业务读取量少,不要求数据即可展现,查询量少,查询逻辑比较简单,适合用于cassandra存储.而用cassandra做小型文件的分布式存储,则无需人工干预数据的迁移。日志系统 日志功能:添加、修改、删除、查询四种基本数据操作的记录自定义操作类型管理日志数据查... 阅读全文

posted @ 2014-02-22 17:22 AI001 阅读(762) 评论(0) 推荐(0)

基于storm和hadoop的广告系统研究【7】
摘要:基于用户跟踪的数据进行挖掘,则初级挖掘数据表基础表如下:页面记录表序号字段名类型注释1idint2urlstring页面地址3StoreTimetime收集时间页面关键词解析表序号字段名类型注释1idint2pageidint页面记录表id3keywordstring关键词网页拓扑结构表序号字段名类... 阅读全文

posted @ 2014-02-11 18:54 AI001 阅读(115) 评论(0) 推荐(0)

基于storm和hadoop的广告系统研究【6】
摘要:对广告系统业务用户跟踪逻辑进一步梳理,则将所需要的数据表细分到以下的这些:页面访问记录表序号字段名类型注释1idint2pageidguid页面id3useridguid用户id4loadtimetime页面载入时间5leavetimetime页面关闭或失效时间6browerstring浏览器类型7... 阅读全文

posted @ 2014-02-11 18:39 AI001 阅读(141) 评论(0) 推荐(0)

基于storm和hadoop的广告系统研究【5】
摘要:数值逻辑化处理许多维度上的数据并不是数值的,如一个用户访问的网页地址,搜索的关键词等等直接对这样的维度进行处理并不合适,需要进行数字化处理,一般就是用id替代然后,大多数情况下通过id只存在时序上的相关并不存在逻辑上的相关。比如id相邻的两个关键词,一个是“金融”,一个是“考古”,但是在某些算法分析... 阅读全文

posted @ 2013-12-25 11:26 AI001 阅读(145) 评论(0) 推荐(0)

基于storm和hadoop的广告系统研究【4】
摘要:分析数据抽取基于用户行为分析其实是文本分析的更进一步,通过对文本解析的的结果进一步数据挖掘,对用户人群进行行为分类建模,可以更有针对性的投放广告。用户访问记录大数据挖掘环境下对个人进行绝对高精度识别具有一定的困难,尤其是作为广告投放商而不是用户所属的站点,所以到手的数据更多的是用户在一定时间点内的网... 阅读全文

posted @ 2013-12-13 18:12 AI001 阅读(176) 评论(0) 推荐(0)

基于keepalived、redis sentinel的多实例redis集群【2】---realserver配置
摘要:配置realservervim /etc/sysctl.conf,添加内容如下: net.ipv4.conf.lo.arp_ignore = 1 net.ipv4.conf.lo.arp_announce = 2 net.ipv4.conf.all.arp_ignore =... 阅读全文

posted @ 2013-11-08 12:35 AI001 阅读(254) 评论(0) 推荐(0)

基于keepalived、redis sentinel的多实例redis集群【1】---路由以及哨兵配置
摘要:硬件机器名IP作用master192.168.0.2redis的master服务器,两个主实例slave1192.168.0.3redis的slave服务器,两个从实例slave2192.168.0.4redis的slave服务器,两个从实例route1192.168.0.5【虚拟IP:192.16... 阅读全文

posted @ 2013-11-08 11:36 AI001 阅读(301) 评论(0) 推荐(0)

基于keepalived、redis sentinel的高可用redis集群
摘要:硬件机器名IP作用master192.168.0.2redis的master服务器slave1192.168.0.3redis的slave服务器slave2192.168.0.4redis的slave服务器route1192.168.0.5【虚拟IP:192.168.0.7】keepalived和r... 阅读全文

posted @ 2013-10-22 14:11 AI001 阅读(393) 评论(0) 推荐(0)

基于storm和hadoop的广告系统研究【3】
摘要:二、基于用户分析的计算广告基于用户分析的计算广告是直接寻找广告与用户的一致性,当前用户分析主要从IP、注册资料、服务器日志、Cookie、历史数据、浏览器行为等方面切入,其代表性的广告形式为电子商务个性化推荐广告。而基于用户分析的根本目的是确定用户的兴趣以及购买行为的特点。而进行这样的分析需要一些基础性的数据,如用户兴趣分类库、购买行为模型。需要先从理论上明确用户的大致轮廓,进行数据范围的界定,否则分析的标准无从谈起了。1.数据属性的特性和用户特征(1)IP数据主要用于界定用户所处的地域,不同的地域经济条件有差异,商品在不同的地域销售也存在广泛的差异。可以依据用户所在地域针对性的选择地域广告商 阅读全文

posted @ 2013-10-12 17:45 AI001 阅读(293) 评论(0) 推荐(0)

基于storm和hadoop的广告系统研究【2】
摘要:文中所有实现方案全部基于storm、hadoop以及nosql等开源技术计算广告学概念:点击此处计算广告的运作系统主要包括广告算法、广告、语境、受众(用户)四个方面,针对这四个方面当下的广告形式可归纳为三类:基于文本分析、基于用户分析和基于用户参与。一、基于文本分析这种形式最常见的就是浏览的网页内容的与广告主题的匹配,比如看关于诺基亚1020自拍神器的测评文章,同时网页的广告投放商根据文章投放的是1020的销售商的广告。1.实现的方式是如下的流程:(1).发送文章网址给广告投放系统(2).投放系统进行抓取和主题分析(3).根据分析出的主题进行广告主题匹配筛选(4).依据其他因素进一步筛选(5) 阅读全文

posted @ 2013-10-11 16:05 AI001 阅读(361) 评论(0) 推荐(0)

基于storm和hadoop的广告系统研究【1】
摘要:需要的基础概念:1.按效果付费:详细概念点击此处2.竞价排名:详细概念点击此处按照上面的两个概念的详细内容,那么系统就至少需要面对以下的问题:1.高并发,要求相应时间短2.高并发情况下广告客户金额计算正确性3.用户访问页面内容与广告的内容高匹配度解决方案简单对比:ABC属性C#.net平台(无消息队列服务)C#.net平台(有消息队列服务)基于Storm和hadoop横向扩展服务集群前置负载均衡设备,通过添加服务器扩展容量服务集群前置负载均衡设备,通过添加服务器扩展容量,单结点的负载能力胜过A服务集群不需要负载设备,通过添加服务节点扩展容量纵向扩展增加功能会降低单单结点的相应能力,影响服务过程 阅读全文

posted @ 2013-10-10 17:41 AI001 阅读(211) 评论(0) 推荐(0)

hbase与storm的冲突
摘要:在原来的hadoop集群上安装hbase,由于使用的现有的zookeeper,配置文件写错了,就修改了配置文件,停止服务。结果发现有问题了,集群上安装的还有storm的集群,而且使用的也是同一套zookeeper。在hbase服务停止的时候storm的进程虽然也在运行,但是从storm的webUI界面上监控不到几个节点了。而监控机器性能的ganglia也有两个节点也是出现同样的问题,gmond服务莫名的挂掉了。而出问题的这两个节点的hbase服务就是杀不掉运行的hbase服务进程。将storm的僵尸进程全部杀掉(发现有的storm进程是莫名的消失了),然后逐个重启了一遍,webUI的界面上又能 阅读全文

posted @ 2013-09-22 15:45 AI001 阅读(214) 评论(0) 推荐(0)

导航