随笔分类 -  大数据

分布式对象存储解决方案(oss)-用于存储图片、文档、音频、视频等二进制文件
摘要:OSS(Object Storage Service)俗称对象存储,主要提供图片、文档、音频、视频等二进制文件的海量存储功能。目前除了公有云提供对象存储服务外,一般私有云比较关心一些开源的分布式对象存储解决方案,本文列举了一些常见的技术方案供参考。 概念普识 块存储 通常SAN(Storage Ar 阅读全文

posted @ 2020-08-20 08:50 法斯特 阅读(5830) 评论(0) 推荐(1)

知微事见热点事件展示平台介绍
摘要:知微事见(https://ef.zhiweidata.com/)通过爬虫技术,将当前主要社交媒体热点事件进行爬取统计,后按照自定规则形成“影响力”指标,通过对该指标进行建模排名,形成舆论场、舆论排名等功能模块。 其中有两个关键知识点值得关注: 一、“影响力”指标如何形成 通过微博、微信、网媒三大平台 阅读全文

posted @ 2020-04-27 19:37 法斯特 阅读(2141) 评论(0) 推荐(0)

数据挖掘与数据分析主要区别以及涉及的关键知识
摘要:数据挖掘和数据分析概述数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。 2、在行业知识方面,数据分 阅读全文

posted @ 2020-04-27 19:22 法斯特 阅读(2012) 评论(0) 推荐(0)

网易大数据平台介绍
摘要:无意间看到网易的大数据中台(https://bigdata.163yun.com/),此平台以当前比较热的数据中台和业务中台作为定位,以时序数据库和分布式数据为技术特点,主推网易自主研发的大数据平台(个人猜测)。发现功能还不错,上面有一些应用场景、产品架构的介绍,虽然是一个主营销介绍的网页,但是还是 阅读全文

posted @ 2020-04-27 17:44 法斯特 阅读(1472) 评论(0) 推荐(0)

Spark多种运行模式
摘要:早就想写这章了,一直懒得动笔,不过还好,总算静下心来完成了。 刚接触Spark时,很希望能对它的运行方式有个直观的了解,而Spark同时支持多种运行模式,官网和书籍中对他们的区别所说不详,尤其是模式之间是否有关联、启动的JVM进程是否有区别、启动的JVM进程的作用是否都一样,等等这些都没有说明,也没 阅读全文

posted @ 2020-02-26 15:51 法斯特 阅读(467) 评论(0) 推荐(1)

导航