摘要: 本文内容 测试数据 字段属性 按多行解析运行时日志 把多行日志解析到字段 参考资料 在处理日志时,除了访问日志外,还要处理运行时日志,该日志大都用程序写的,比如 log4j。运行时日志跟访问日志最大的不同是,运行时日志是多行,也就是说,连续的多行才能表达一个意思。 本文主要说明,如何用 multiline 出来运行日志。 如果能按多行处理...阅读全文
posted @ 2016-06-01 13:51 船长&CAP 阅读(2158) 评论(2) 编辑
摘要: 原文地址 本文内容 软件 步骤 控制相关性 总结 参考资料 本文介绍如何用带 Apache Mahout 的 MapR Sandbox for Hadoop 和 Elasticsearch 搭建推荐引擎,只需要很少的代码。 This tutorial will give step-by-step i阅读全文
posted @ 2016-05-24 10:44 船长&CAP 阅读(1664) 评论(0) 编辑
摘要: 官网地址 本文内容 语法 测试数据 可配置选项 参考资料 date 插件是日期插件,这个插件,常用而重要。 如果不用 date 插件,那么 Logstash 将处理时间作为时间戳。时间戳字段是 Logstash 自己添加的内置字段 @timestamp,在ES中关于时间的相关查询,必须使用该字段,你阅读全文
posted @ 2016-05-18 16:38 船长&CAP 阅读(1684) 评论(1) 编辑
摘要: 官网地址 本文内容 语法 测试数据 可选配置项 mutate 插件可以在字段上执行变换,包括重命名、删除、替换和修改。这个插件相当常用。 比如: 你已经根据 Grok 表达式将 Tomcat 日志的内容放到各个字段中,想把状态码、字节大小或是响应时间,转换成整型; 你已经根据正则表达式将日志内容放到阅读全文
posted @ 2016-05-17 17:24 船长&CAP 阅读(2704) 评论(3) 编辑
摘要: 本文内容 语法 参数 描述 选项 主机标识符 输出格式 示例 参考资料 先发出来,然后慢慢翻译~ 语法 jps [ options ] [ hostid ] 参数 options命令行参数。 hostidThe host identifier of the host for which the process rep...阅读全文
posted @ 2016-05-16 14:44 船长&CAP 阅读(152) 评论(0) 编辑
摘要: 原文地址:Java 7 jstat 本文内容 语法 参数 描述 虚拟机标识符 选项 一般选项 输出选项 示例 先发出来,然后慢慢翻译~ 语法 jstat [ generalOption | outputOptions vmid [interval[s|ms...阅读全文
posted @ 2016-05-13 13:42 船长&CAP 阅读(169) 评论(0) 编辑
摘要: 本文内容 背景 ES集群中第一个master节点 ES slave节点 本文总结 Elasticsearch(以下简称ES)搭建集群的经验。以 Elasticsearch-rtf-2.2.1 版本为例。 我搭过三个集群:研究ELK时搭了一个;测试环境搭了一个;生产环境搭了一个。回想起来,搭建这三个集群时遇到的问题都不一样(我这么说,主要针对集群中节点发现,以及...阅读全文
posted @ 2016-05-03 13:44 船长&CAP 阅读(2228) 评论(0) 编辑
摘要: 本文内容 用户评分表 曼哈顿(Manhattan)距离 欧式(Euclidean)距离 余弦相似度(cos simliarity) 推荐算法以及数据挖掘算法,计算“距离”是必须的~最近想搭一个推荐系统,看了一些资料和书《写给程序员的数据挖掘指南》,此书不错,推荐大家看看,讲解得很透彻,有理论有代码,还有相关网站。看完后,你立刻就能把推荐算法应用在你的项目中~ ...阅读全文
posted @ 2016-04-21 15:14 船长&CAP 阅读(932) 评论(2) 编辑
摘要: 本文内容 最近看《写给程序员的数据挖掘指南》,研究推荐算法,书中的测试数据集是 Book-Crossing Dataset 提供的亚马逊用户对书籍评分的真实数据。推荐大家看本书,写得不错,立刻就能对推荐算法上手,甚至应用到你的项目中。 Book-Crossing Dataset 提供两种格式的数据集:CVS 格式和 SQL dump,问题是: 如果你有 UE 打开 cvs 文件...阅读全文
posted @ 2016-04-20 13:09 船长&CAP 阅读(367) 评论(0) 编辑
摘要: 本文内容 项目结构 AngularJS datepicker AngularJS+jQueryUI datetimepicker 本文介绍 AngualrJS datetimepicker 控件。说明三种控件:Angualr 官网提供的 datepicker,jQuery datetimepicker 以及 Angular+jQueryUI 的 datetime...阅读全文
posted @ 2016-04-15 16:00 船长&CAP 阅读(6531) 评论(0) 编辑
摘要: 本文内容 项目结构 运行结果 index.html mymodal.js 参考资料 本文讲解 Angular JS 实现模式对话框。基于 AngularJS v1.5.3、Bootstrap v3.3.6 和 ui-bootstrap-tpls 0.11。ui-bootstrap-tpls 是 AngularJS 利用 bootstrap 封装的...阅读全文
posted @ 2016-04-07 10:25 船长&CAP 阅读(8012) 评论(0) 编辑
摘要: 原文地址 本文介绍如何安装和配置 AngularJS Eclipse。AngularJS Eclipse 插件是基于强大的 JavaScript 推断引擎(javascript inference engine)Tern.js, 它由 JavaScript 编写。若在 java 环境下使用该引擎,需要使用 tern.java。它用 node.js 执行 tern.js。这就是为什么你在下面将看到...阅读全文
posted @ 2016-03-28 22:32 船长&CAP 阅读(15513) 评论(0) 编辑
摘要: 内容 安装 RVM 安装 Ruby 和 Gems 安装 Rails 安装 jls-grok Ruby grok 解析 调试 grok 注意:不要用 root 执行以下操作。 用 logstash 收集 IIS、tomcat 日志,或是其他时,你需要调试 grok 表达式,每次都需要重新加载文件,然后阅读全文
posted @ 2016-03-23 12:08 船长&CAP 阅读(2153) 评论(0) 编辑
摘要: 上一篇文章《安装 logstash 2.2.0、elasticsearch 2.2.0 和 Kibana 3.0》,介绍了如何安装 Logstash、Elasticsearch 以及用 Python 的 SimpleHTTPServer 模块部署 Kibana。 本文介绍如何在 Linux 上把 K阅读全文
posted @ 2016-03-14 17:26 船长&CAP 阅读(446) 评论(0) 编辑
摘要: 本文内容 Elasticsearch logstash Kibana 参考资料 本文介绍安装 logstash 2.2.0 和 elasticsearch 2.2.0,操作系统环境版本是 CentOS/Linux 2.6.32-504.23.4.el6.x86_64。 安装 JDK 是必须的,一般操阅读全文
posted @ 2016-03-01 16:31 船长&CAP 阅读(4619) 评论(2) 编辑
摘要: 原文地址 这篇文章,采用 Markdown 方式,写的还是比较实在的,要是有架构图就好了。 Pinterest 是图片版的 Twitter,用户把自己感兴趣的东西用图钉(Pins)钉在钉板(PinBoard)上,采用 Pinterest 瀑布流的形式展现图片内容,用户无需翻页,新图片不断地自动加载到阅读全文
posted @ 2016-02-13 21:18 船长&CAP 阅读(184) 评论(0) 编辑
摘要: 原文地址 本文内容 并行数组(Parallel Array) 并行向量(Parallel Vector) 并行范围(Parallel Range) 并行哈希表(Parallel Hash Tables) 并行散列 Tries(Parallel Hash Tries) 并行并发 Tries(Paral阅读全文
posted @ 2016-02-12 17:42 船长&CAP 阅读(359) 评论(0) 编辑
摘要: 原文地址 本文只是带你进入 Scala 的世界,包括安装、不可变量 val、可变量 var、定义类、集合(包括列表(list)、集(set)、映射(map))以及集合遍历和集合库(能达到并行/并发效果)。 题外话,如果 Java 争气的话,还就真不会出现像 Scala 这些语言。对于函数式编程风格的支持,尤其是对于 Lambda 表达式的支持,能减少必须要编写的逻辑无关的样板代码,让...阅读全文
posted @ 2016-02-12 12:04 船长&CAP 阅读(167) 评论(0) 编辑
摘要: 说到开发一个运行在现代网络中的网站:Web开发人员需要选择虚拟主机平台和底层数据存储,准备编写HTML、CSS和JavaScript用的工具,要有设计执行方式,以及一些可用的JavaScript库/框架。在将任务分解为这几步之后,接下来要做的就简单多了,可以去网上找文章,浏览论坛,看看那些能提供更好阅读全文
posted @ 2016-02-12 09:20 船长&CAP 阅读(119) 评论(0) 编辑
摘要: 官网地址 本文内容 简介 Futures 阻塞 异常 Promises 工具 最近看了《七周七语言:理解多种编程泛型》,介绍了七种语言(四种编程范型)的主要特性:基本语法,集合,并行/并发,其中就有 Scala。你不能指望这种书全面介绍,因为其中任何一门语言都够写一本书了~ 我比较关注并行/并发,但是书中关于 Scala 的并发部分——Actor,可代码编译不通过,官网标注“De...阅读全文
posted @ 2016-02-11 20:52 船长&CAP 阅读(1183) 评论(0) 编辑
摘要: 本文内容 创建 MySQL 用户和组 解压 MySQL 源代码包 生成配置安装文件 编译和安装 MySQL 配置文件 创建 MySQL 授权表 MySQL 目录授权 启动 MySQL 验证 MySQL 安装 设置 MySQL 访问权限 MySQL 开机自动启动 设置环境变量 参考资料 最...阅读全文
posted @ 2016-02-03 12:12 船长&CAP 阅读(415) 评论(0) 编辑
摘要: Github 地址 项目背景 最近做个项目,需要进行试驾分析,所谓“试驾”,是指顾客在 4S 店指定人员的陪同下,沿着指定的路线驾驶车辆,从而了解这款汽车的行驶性能和操控性能。通常,无论是车厂(制造商),还是4S店(经销商),对车辆的试驾都比较感兴趣。从车厂的角度,不仅仅可以知道某辆车是否受欢迎,还可以监控4S店对车辆的使用的情况(车厂肯定不愿意原本是用来卖钱的车被私用)。 所...阅读全文
posted @ 2016-01-29 12:21 船长&CAP 阅读(239) 评论(0) 编辑
摘要: 本文内容 问题 存储结构 算法1:简单SQL查询 算法2:均匀分区设计 算法3:树形分区设计 算法4:积分排名数组 该文具体出自哪里,不是很确定,而我是在某个微信公众号上看到的~文中的内容比较有启发性的~ 问题 某海量用户网站,用户拥...阅读全文
posted @ 2015-11-23 17:08 船长&CAP 阅读(233) 评论(0) 编辑
摘要: 原文地址 本文内容 前言 线程池意义 线程池技术要点 小节 参考源码 但凡是一个框架(“服务”框架),基本都会涉及线程池问题。虽然你可能没有直接使用它,但这是因为框架帮你完成了这部分工作。 说,为什么需要线程池呢?试想,现在但凡是写一个服务程序,如果不采用并发或并行的方式,都有点对不起4核、8核,甚至更多的CPU内核(物理内核,逻辑内...阅读全文
posted @ 2015-11-16 10:39 船长&CAP 阅读(379) 评论(0) 编辑
摘要: 原文地址 简单易用,Storm让大数据分析变得轻而易举。 如今,公司在日常运作中经常会产生TB(terabytes)级的数据。数据来源包括从网络传感器捕获的,到Web,社交媒体,交易型业务数据,以及其他业务环境中创建的数据。考虑到数据的生成量,实时计算(real-time computation...阅读全文
posted @ 2015-11-02 17:20 船长&CAP 阅读(1126) 评论(0) 编辑
摘要: 英文原文地址 中英文对照地址 History of Apache Storm and lessons learned ——项目创建者 Nathan Marz Apache Storm 最近成为了ASF的顶级项目,这对于该项目和我个人而言是一个重大的里程碑。很难想像4年前Storm只是我脑海中的一个想法,但现在却成为了一个有着大社区支持并被无数企业使用的繁荣项目。在此我将在本文中回首Stor...阅读全文
posted @ 2015-10-30 12:07 船长&CAP 阅读(257) 评论(0) 编辑
摘要: 原文地址 实时商务智能这一构想早已算不得什么新生事物(早在2006年维基百科中就出现了关于这一概念的页面)。然而尽管人们多年来一直在对此类方案进行探讨,我却发现很多企业实际上尚未就此规划出明确发展思路、甚至没能真正意识到其中蕴含的巨大效益。 为什么会这样?一大原因在于目前市场上的实时商务智能与分析工具仍然非常有限。传统数据仓库环境针对的主要是批量处理流程,这类方案要么延迟极高、要么成本惊人——...阅读全文
posted @ 2015-10-30 11:59 船长&CAP 阅读(697) 评论(0) 编辑
摘要: 原文地址 本文内容 ECMAScript 发生了什么变化? 新标准 版本号6 兑现承诺 迭代器和for-of循环 生成器 Generators 模板字符串 不定参数和默认参数 解构 Destructuring 箭头函数 Arrow Functions Symbols 集合 学习Babel和Br...阅读全文
posted @ 2015-10-26 14:33 船长&CAP 阅读(4127) 评论(0) 编辑
摘要: 近日,一名有超过15年软件开发经验的软件开发人员在Hacker News上提出了一个问题:如何才能成为一个好的技术领导者? 该问题一经提出,不到一天的时间获得了160多条回复。关于技术领导者应该具备的品质和管理技巧,网友们提出了各自的看法和建议,本文择要归纳如下。 如果不能从帮助团队获得满足感,那么就不要成为一名领导者 技术领导者要忙于会议、计划、团队沟通、文档等工作,永远无法达...阅读全文
posted @ 2015-10-22 17:33 船长&CAP 阅读(188) 评论(1) 编辑
摘要: 原文地址 LinkedIn started in 2003 with the goal of connecting to your network for better job opportunities. It had only 2,700 members the first week. F...阅读全文
posted @ 2015-10-19 17:21 船长&CAP 阅读(72) 评论(0) 编辑
摘要: 原文地址 这篇文章回顾的不错~ Neo,这就是让我们心烦的问题 为什么AWS有这么多的数据存储选项?我应该用哪个?这些是客户常见的问题。在这分成三部分的博客系列中,我将试图做一些澄清。在第一部分,我会论述高可用性的基础,以及为什么冗余是实现高可用性的常用方法。我也简要地提到在数据层...阅读全文
posted @ 2015-10-19 17:00 船长&CAP 阅读(200) 评论(1) 编辑
摘要: 原文地址 当我们分析一些流行网站,如GitHub和StackOverflow时,发现JavaScript、Java、PHP 和 Python 都是一些很不错的选择。 或者,也许我们还可以从与工作相关的指标来决定要学习的“最佳”技术,例如需求和薪资?职业规划公司Gooroo通过仔细查看了美国、英国和澳大利亚的超过50万份的IT职位空缺,得到了下面这份《2015年的工资和供需报告》。 需求...阅读全文
posted @ 2015-10-19 13:56 船长&CAP 阅读(396) 评论(0) 编辑
摘要: 要是有这架构,局部代码写得再烂,那都不是问题~Google 就曾经说,如果采用 MapReduce,再烂的搜索算法,也能很快得到结果~ 美团网和大众点评网在10月8日中午联合发布声明,宣布达成战略合作,两者将共同成立一家新公司。两者也在InfoQ及其组织的大会上进行过多次分享,我们将对美团和大众点评使用的技术进行回顾,来看看这两家电商巨头的技术实力。 美团和大众点评都是国内O2O领域的...阅读全文
posted @ 2015-10-16 16:07 船长&CAP 阅读(400) 评论(1) 编辑
摘要: 本文内容 进程 线程 协程 Go 中的 goroutine 参考资料 最近,看一些文章,提到“协程”的概念,心想,进程,线程,协程,前两个很容易,任何一本关于操作系统的书都有说,开发时也经常用,但是协程呢?之前也遇到这个词,但是今天,查了一下资料。...阅读全文
posted @ 2015-10-13 17:30 船长&CAP 阅读(312) 评论(0) 编辑
摘要: 原文链接: BASE: An Acid Alternative Pdf下载链接: Base 数据库 ACID,都不陌生:原子性、一致性、隔离性和持久性,这在单台服务器就能搞定的时代,很容易实现,但是到了现在,面对如此庞大的访问量和数据量,单台服务器已经不可能适应了,而 ACID 在集群环境...阅读全文
posted @ 2015-10-13 16:17 船长&CAP 阅读(1498) 评论(0) 编辑
摘要: 为什么要 SSO? 企业的信息化过程是一个循序渐进的过程,这就造成在企业的不同时期,根据业务和发展需要,构建了多个应用程序,而这些应用程序在功能、设计和技术可能都有所不同,就形成了各自独立的用户库和用户认证体系。于是,在访问不同的应用系统时,需要记录/输入的用户名和密码(不同时期建立的系统,用...阅读全文
posted @ 2015-10-13 14:24 船长&CAP 阅读(5158) 评论(0) 编辑
摘要: 随着网站的功能和用户越来越多,单机器服务部署的Web应用已经不能再支持了。这时候就需要优化或调整架构,具体怎么优化,或先优化哪部分,这取决于网站的具体情况, 并非总是一个套路。 如根据使用情况得知,数据库压力大,则就可以先设施读写分离,分库分表,是垂直划分(按业务划分), 还是水平划分(如用户...阅读全文
posted @ 2015-10-13 14:11 船长&CAP 阅读(417) 评论(0) 编辑
摘要: 原文地址 开源(Open Source)对大数据影响,有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用;另一方面,开源也给大数据技术构建了一个异常复杂的生态系统。每一天,都有一大堆“新”框架、“新”类库或“新”工具涌现,乱花渐欲“迷...阅读全文
posted @ 2015-10-13 12:52 船长&CAP 阅读(424) 评论(6) 编辑
摘要: 原文地址 去年,之前的同事,喜欢看小说,就想自己没事搞个网站,我告诉他,先用爬虫把别人网站的小说下载下来,放到自己的网站里~我同事编码能力很强,学东西相当快,给他大概讲一下,帮他下载个用 http 协议下载网站的程序集(.net)就可以,但是,时不时,Web 会拒绝,后来,我说,http 协...阅读全文
posted @ 2015-10-12 17:26 船长&CAP 阅读(973) 评论(0) 编辑
摘要: 原文地址 en cn 本文内容 表现平平的 MATLAB 貌似强大的 Julia 本身无错的 R 语言 逐渐没落的 Perl 老而弥坚的 Python 我个人很喜欢 Python~ 随着科技的发展,拥有高容量、高速度和多样性的大数据已经成为当今时代的主...阅读全文
posted @ 2015-10-09 10:39 船长&CAP 阅读(439) 评论(0) 编辑
免费流量统计软件