大数据 - 随笔分类(第2页) - 张子良

Heritrix3.x自定义扩展Extractor

摘要：Heritrix3.x的WebUI发生了变化，不在是原来那种WebUI选择模式，而是变成了在线配置文件直接编辑模式。在这里自定义的Extractor要想加入Heritrix运行，首先需要修改配置文件，降自定义扩展的Extractor加入到Heritrix的Processor队列阅读全文

posted @ 2013-12-27 07:05 张子良阅读(1624) 评论(0) 推荐(0)

大数据挖掘算法篇之K-Means实例

摘要：K-Means算法是聚类算法中，应用最为广泛的一种。本文基于欧几里得距离公式：d = sqrt((x1-x2)^+(y1-y2)^)计算二维向量间的距离，作为聚类划分的依据，输入数据为二维数据两列数据，输出结果为聚类中心和元素划分结果阅读全文

posted @ 2013-12-19 11:20 张子良阅读(6467) 评论(0) 推荐(3)

断篇-金融大数据最佳实践总结篇

摘要：一、数据挖掘的价值体现二、大数据之困-通道三、大数据金融-行业化运作四、大数据金融实施切入五、大数据服务-来的真的有点快六、大数据应用带来的行业革命七、大数据之去IOE 阅读全文

posted @ 2013-12-17 07:29 张子良阅读(2191) 评论(3) 推荐(2)

开源中文分词框架分词效果对比smartcn与IKanalyzer

摘要：中文分词一直是自然语言处理的一个痛处，早在08年的时候，就曾经有项目涉及到相关的应用（Lunce构建全文搜索引擎），那时的痛，没想到5年后的今天依然存在，切分效果、扩展支持、业务应用等方面依然不甚理想。收费的版本不提了，原因自不必言表，开源版本中，发现之前曾经活跃的版本，大多已经没落（好几年没更新了），存活下来的寥寥无几。我是一个守旧的人，评估版本的选择有些保守，至少目前为止，只看1.0正式版本之后的版本，0.XX的不在考虑范围之内，用了一个周末的时间，对比了十多款的样子，个人感觉源于中科院ICTCLAS的smartcn和IKAnanlyzer效果还是不错的。阅读全文

posted @ 2013-12-09 15:49 张子良阅读(10301) 评论(14) 推荐(3)

互联网已死-大数据的未来在哪里？

摘要：1.互联网已死。2.大数据应用演进路线图。3.传统行业的数据优势。4.大数据的落地实施。大数据必须走一条与传统行业相结合的道路，具体涉及到实施和项目落地，最为关键的一点，就是要一个大数据技术思维+传统行业的业务思维来做实施。结合和改进传统BI的思维方式。大数据的实施，不走寻常路，只是因为脚崴了；回归现实才是天使，无论她是脸着地，还是脚着地，她都是天使。阅读全文

posted @ 2013-11-26 07:08 张子良阅读(1946) 评论(1) 推荐(3)

大数据应用之金融行业-互联网金融对传统银行业的冲击，狼真的来了

摘要：互联网金融是建立在大数据的基础之上的，姑且不去谈论互联网金融企业的自身大数据业务，我们只考虑这些大数据业务为互联网金融的奠基作用：通过大数据平台，我们拥有了业务操作平台；通过大数据业务我们拥有了海量用户；通过大数据平台我们拥有了品牌形象；通过大数据业务我们掌握了用户的行为、喜好、购买能力。这些数据在金融产品推广方面既可以起到拉近客户距离，目标客户群体定位，定向精准推荐的作用，其意义对于业务的开展具有决定性作用。可以说，大数据奠定了互联网金融的基础，同时大数据也是互联网金融业务开展的核心竞争力。阅读全文

posted @ 2013-11-12 09:03 张子良阅读(2758) 评论(5) 推荐(4)

一张图测试你的Hadoop能力-Hadoop能力测试图谱

摘要：大数据是一种信仰，我们一起努力吧。相信这两张图，能改变很多Hadoop从业者的命运。好文要顶，看贴要回，动手测一次吧，这是一次可以改变你命运的机会，张开双臂，让我来迎接大数据时代吧。--谨以此文，献给那些真正懂得大数据的人！阅读全文

posted @ 2013-10-30 11:24 张子良阅读(3466) 评论(0) 推荐(3)

大数据应用之HBase数据插入性能优化之多线程并行插入测试案例

摘要：上篇文章提起关于HBase插入性能优化设计到的五个参数，从参数配置的角度给大家提供了一个性能测试环境的实验代码。根据网友的反馈，基于单线程的模式实现的数据插入毕竟有限。通过个人实测，在我的虚拟机环境下，单线程插入数据的值约为4w/s。集群指标是：CPU双核1.83，虚拟机512M内存，集群部署单点模式。本文给出了基于多线程并发模式的，测试代码案例和实测结果，希望能给大家一些启示：阅读全文

posted @ 2013-10-10 23:01 张子良阅读(3781) 评论(1) 推荐(1)

大数据应用之HBase数据插入性能优化实测教程

摘要：大家在使用HBase的过程中，总是面临性能优化的问题，本文从HBase客户端参数设置的角度，研究HBase客户端数据批量插入性能优化的问题。事实胜于雄辩，数据比理论更有说服力，基于此，作者设计了这么一个HBase数据插入性能优化实测实验，希望大家用自己的服务器跑出的结果，给自己一个值得信服的结论。阅读全文

posted @ 2013-10-09 09:22 张子良阅读(4058) 评论(0) 推荐(0)

大数据应用之：MongoDB从入门到精通你不得不知的21个为什么？

摘要：互联网的发展和电子商务平台的崛起，催生了大数据时代的来临，作为大数据典型开发框架的MongoDB成为了No-sql数据库的典型代表。MongoDB从入门到精通你不得不知的21个为什么专为大数据时代，大数据应用系统系统分析、架构设计和平台开发人员而准备。希望能够为大家起到提纲挈领，指明大家学习目标和方向的作用。阅读全文

posted @ 2013-10-07 19:04 张子良阅读(2240) 评论(0) 推荐(0)

大数据应用日志采集之Scribe演示实例完全解析

摘要：引子： Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。它为日志的“分布式收集，统一处理”提供了一个可扩展的，高容错的方案。当中央存储系统的网络或者机器出现故障时，scribe会将日志转存到本地或者另一个位置，当中央存储系统恢复后，scribe会将转存的日志重新传输给中央存储系统。其通常与Hadoop结合使用，scribe用于向HDFS中push日志，而Hadoop通过MapReduce作业进行定期处理。 Scribe从各种数据源.. 阅读全文

posted @ 2013-07-25 10:05 张子良阅读(2053) 评论(0) 推荐(2)

大数据应用日志采集之Scribe 安装配置指南

摘要：大数据应用日志采集之Scribe 安装配置指南1.概述Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能从各种日志源收集日志，存储到一个中央存储系统上，便于进行集中统计分析处理。它为日志的”分布式收集，统一处理”提供了一个可扩展的，高容错的方案。scribe代码很简单，但是安装配置却很复杂，本文记录了作者实际的一次安装的过程，感觉真是不一般的琐碎，另外Scribe开源社区的版本已经是几年前的版本了，最新的维护信息一致没有看到，HDFS和Thrift的版本使用的都是比较旧的版本，考虑另开一个分支，升级一下Scribe，看到时候有没有时间了。2.Scr 阅读全文

posted @ 2013-07-23 08:40 张子良阅读(2918) 评论(0) 推荐(1)

大数据应用电子商务之精准推广

摘要：平面广告有没有？铺天盖地的电视广告有没有？狂轰滥炸的网络营销有没有？海量群发的电子邮件有没有？百度竞价排名有没有？传统的营销推广方式用可以用四个字来概括：简单、粗暴。而真实效果呢，评价起来也可以提炼出四个字：高价、低效。不考虑目标对象的感受的结果就是垃圾箱、回收站和永久屏蔽的网络站点。这就好比高射炮打蚊子，不仅仅是方向有问题，打出去的炮弹也是成本呢？阅读全文

posted @ 2013-07-18 08:47 张子良阅读(771) 评论(0) 推荐(2)

大数据应用之双色球算奖平台总体设计历史数据存储篇

摘要：历史期次的双色球选注数据的存储，采用什么样的格式比较好呢？这需要重点从三个方面考虑，一、文件访问方便吗？二、文件服务器空间够用吗？三、软硬件故障环境下，如何保障数据的可用性。基于这几个方面的考虑，到底是采用文件存储还是采用数据库存储呢？本文，从传统和前沿技术两个角度给出了两种相应的解决方案。阅读全文

posted @ 2013-07-16 15:35 张子良阅读(1841) 评论(0) 推荐(4)

大数据应用之Windows平台Hbase客户端Eclipse开发环境搭建

摘要：大数据的场景下，NoSql型数据库的优势不言而喻，但是涉及NoSQL数据库的实际动手开发的东西多是Linux平台，大多语焉不详，至于Windows平台介绍的东西就更少了，而且大多无法运行。本文就Windows平台基于Eclipse搭建Hbase环境客户端开发环境做一个介绍。另外基于Thrift实现的Windows版本Hbase客户端库也做了封装，有需要的可以留言索取。阅读全文

posted @ 2013-07-11 15:33 张子良阅读(2775) 评论(0) 推荐(2)

大数据应用之双色球算奖平台总体设计数据规模估算篇

摘要：自从写了上一篇《大数据应用之双色球算奖平台总体设计大纲篇一》，受到许多园友的关注和指导，在此表示感谢，尤其是园友个人知识管理给出的一个评论，让我深思，原文如下“双色球算奖这么简单的活，也称大数据。先生：不是数据多，叫大数据。双色球算奖，用Oracle数据库的索引，1分钟内就算完。关键是人家不想这么快”。话不太好听，尤其是称我为先生那句，但却发人深思，是啊：到底什么是大数据呢？选择双色球算奖作为大数据应用的切入点是否合适呢？然后就是让我诧异的1分钟理论很是吓了我一跳的。阅读全文

posted @ 2013-06-27 09:19 张子良阅读(6719) 评论(0) 推荐(3)

大数据应用之双色球算奖平台总体设计大纲篇一

摘要：本文作者试图从纯技术的角度解决双色球延迟开奖的问题，不考虑其他因素，用最新的云计算技术建立一套海量数据处理的技术解决方案。同时考虑到把这种想法付诸实践，搞一个开源海量数据处理平台，以双色球算奖问题，作为一个业务应用案例，指引我们前进的方向。本文是这一解决方案的第一篇，目的在于把整个平台当前面临的技术问题和未来发展方向做一个纲领性的界定，考虑到一个人的能力毕竟是有限的，群众的力量是无穷，本文仅定位于抛砖引玉，希望能够得到各位技术同行的支持和关注，让大家一起来共同完成整个解决方案的设计。开源社区的兄弟们，顶一个吧。阅读全文

posted @ 2013-06-15 16:40 张子良阅读(3105) 评论(0) 推荐(2)

Hadoop develop

公告

随笔分类 - 大数据