随笔分类 - 大数据篇
摘要:HanLP是一款面向生产环境的自然语言处理工具包。具有的功能如下:中文分词 词性标注 命名实体识别 依存句法分析 语义依存分析 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁 自然语言处理【官方地址】http://hanlp.com【GitHub地址】https://github.com
阅读全文
摘要:一、大数据技术划分 二、流式计算历史演进 目前主流的流式计算框架有Storm/Jstorm、Spark Streaming、Flink/Blink三种。 Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取
阅读全文
摘要:Flink vs Spark Apache Spark和Flink都是下一代大数据工具抢占业界关注的焦点。两者都提供与Hadoop和NoSQL数据库的本机连接,并且可以处理HDFS数据。两者都是几个大数据的好方法问题。但由于其底层架构,Flink比Spark更快。Apache Spark是Apach
阅读全文