StanZhai - 博客园

[置顶] 我为开源做贡献，网页正文提取——Html2Article

摘要：为什么要做正文提取一般做舆情分析，都会涉及到网页正文内容提取。对于分析而言，有价值的信息是正文部分，大多数情况下，为了便于分析，需要将网页中和正文不相干的部分给剔除。可以说正文提取的好坏，直接影响了分析结果的好坏。对于特定的网站，我们可以分析其html结构，根据其结构来获取正文信息。先看一下下面这张... 阅读全文

posted @ 2014-01-07 07:11 StanZhai 阅读(45736) 评论(92) 推荐(66)

2017年11月29日

为Spark Application指定不同的JDK版本

摘要：随着企业内部业务系统越来越多，基于JVM的服务，通常情况线上环境可能会有多套JDK跑不同的服务。大家都知道基于高版本的Java规范编写的服务跑在低版本的JVM上会出现：的异常。 Spark 2.2开始移除了对Java 7的支持，大多数情况下，我们的Spark Application是和Hadoop 阅读全文

posted @ 2017-11-29 08:09 StanZhai 阅读(8200) 评论(1) 推荐(2)

2017年10月13日

合并Spark社区代码的正确姿势

摘要：原创文章，转载请保留出处最近刚刚忙完Spark 2.2.0的性能测试及Bug修复，社区又要发布2.1.2了，国庆期间刚好有空，过了一遍2.1.2的相关 "JIRA" ，发现有不少重要修复2.2.0也能用上，接下来需要将有用的PR合到我们内部维护的2.2.0分支上了。经常有朋友问我是怎么把社区的P 阅读全文

posted @ 2017-10-13 12:05 StanZhai 阅读(1455) 评论(2) 推荐(0)

2017年9月11日

Spark 1.6升级2.x防踩坑指南

摘要：原创文章，谢绝转载 Spark 2.x自2.0.0发布到目前的2.2.0已经有一年多的时间了，2.x宣称有诸多的性能改进，相信不少使用Spark的同学还停留在1.6.x或者更低的版本上，没有升级到2.x或许是由于1.6相对而言很稳定，或许是升级后处处踩坑被迫放弃。 Spark SQL是Spark中最阅读全文

posted @ 2017-09-11 08:20 StanZhai 阅读(2504) 评论(2) 推荐(2)

2017年5月15日

sbt结合IDEA对Spark进行断点调试开发

摘要：原创文章，谢绝转载笔者出于工作及学习的目的，经常与Spark源码打交道，也难免对Spark源码做修改及测试。本人一向讲究借助工具提升效率，开发Spark过程中也在摸索如何更加顺畅的对源码进行调试。 Spark基于Scala，采用IntelliJ IDEA和sbt应对日常开发，自然是最佳选择了。如何阅读全文

posted @ 2017-05-15 08:48 StanZhai 阅读(3697) 评论(0) 推荐(4)

2017年3月15日

深度剖析Spark分布式执行原理

摘要：让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。 Spark是大数据领域中相当火热的计算框架，在大数据分析领域有一统江湖的趋势，网上对于Spark源码分析的文章有很多，但是介绍Spark如何处理代码分布式执行问题的资料少之又少，这也是我撰写文本的目的。 Spark运行在JVM之上，任务的阅读全文

posted @ 2017-03-15 09:37 StanZhai 阅读(10775) 评论(1) 推荐(5)

2017年3月6日

为效率而生:开源Mac版Google Authenticator认证客户端GoldenPassport

摘要：最近运维同学为了提高安全性，用Google Authenticator对服务器加了双重认证，此后登录服务器需要先输入动态密码，在输入服务器密码。Google Authenticator相当于软token，对他不了解的同学可以看下这篇文章： "谷歌验证 (Google Authenticator) 的阅读全文

posted @ 2017-03-06 08:55 StanZhai 阅读(7440) 评论(0) 推荐(1)

2017年2月17日

使用阿里云的Maven仓库加速Spark编译过程

摘要：前言在国内编译Spark项目需要从Maven源下载很多依赖包，官方源在国内大环境下的下载速度大家都懂得，那个煎熬啊，简直是浪费生命。如果你的下载速度很快，你现在就可以无视这篇文章了。阿里云给国内开发者提供了一个非常的良心的服务：提供了一个国内Maven镜像，可以让我们拜托这种煎熬。地址信息阅读全文

posted @ 2017-02-17 08:22 StanZhai 阅读(4280) 评论(3) 推荐(4)

2017年2月15日

使用sbt编译Spark子项目

摘要：前言最近为了解决Spark2.1的Bug，对Spark的源码做了不少修改，需要对修改的代码做编译测试，如果编译整个Spark项目快的话，也得半小时左右，所以基本上是改了哪个子项目就单独对那个项目编译打包。 Spark官方已经给出了如何使用mvn单独编译子项目的方法：使用mvn单独编译子项目是节约阅读全文

posted @ 2017-02-15 18:26 StanZhai 阅读(2162) 评论(0) 推荐(1)

2017年1月16日

自己动手为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持

摘要： SparkSQL从2.0开始已经不再支持这种语法了（下文简称add columns语法）。如果你的Spark项目中用到了SparkSQL+Hive这种模式，从Spark1.x升级到2.x很有可能遇到这个问题。为了解决这个问题，我们一般有3种方案可以选择： 1. 启动一个hiveserver2服务阅读全文

posted @ 2017-01-16 09:02 StanZhai 阅读(7083) 评论(0) 推荐(3)

2016年12月16日

解决Spark读取Hive分区表出现Input path does not exist的问题

摘要：假设这里出错的表为test表。现象 Hive读取正常，不会报错，Spark读取就会出现：在hive中执行然后找到hdfs存储路径。然后会发现，报错的路径确实不存在。这也能说明为什么Spark读取会报错，确实找不到那个路径了。问题分析在hive中执行，查看test表对应的所有分区。看阅读全文

posted @ 2016-12-16 13:44 StanZhai 阅读(5260) 评论(0) 推荐(0)

Stan Zhai's Blog

——不忘初心，方得始终

公告