10 2017 档案
摘要:原文出处: PeterYuan 序 Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Windows的时候。为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的package打
阅读全文
摘要:ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略,ES开放了一些接口供开发者研发自己的插件,ES结合中文分词的
阅读全文
摘要:数据处理分为三大类: 第一类是从业务的角度,细分为查询检索、数据挖掘、统计分析、深度分析,其中深度分析分为机器学习和神经网络。 第二类是从技术的角度,细分为Batch、SQL、流式处理、machine learning、Deep learning。 第三类是编程模型,细分为离线编程模型、内存编程模型
阅读全文
摘要:以前也玩过spark,但这次玩,是因为spark从1.4版本后使spark sql独立出来,想必一定不赖;另外,还支持DataFrame,底层存储支持parquet,甚至orc file。 一、parquet 和 orc 对比 我专门查了查parquet 和 orc,网上很多,我只说关键的。 1、p
阅读全文
浙公网安备 33010602011771号