大数据和AI躺过的坑

2016年12月4日

摘要：通过该案例，给出一个比较完整的、复杂的数据处理案例，同时给出案例的详细解析。人力资源系统的管理内容组织结构图 1）人力资源系统的数据库与表的构建。 2）人力资源系统的数据的加载。 3）人力资源系统的数据的查询。职工基本信息职工姓名,职工id,职工性别,职工年龄,入职年份,职位,所在部门i 阅读全文

posted @ 2016-12-04 10:10 大数据和AI躺过的坑阅读(1140) 评论(0) 推荐(0)

2016年12月3日

DataFrame入门案例（集团公司对人事信息处理场景）

摘要：我用一个集团公司对人事信息处理场景的简单案例，来作为入门，详细分析DataFrame上的各种常用操作，包括集团子公司的职工人事信息的合并，职工的部门相关信息查询、职工信息的统计、关联职工与部门信息的统计，以及如何将各种统计得到的结果存储到外部存储系统等。在此入门案例里，涉及的DataFrame实例阅读全文

posted @ 2016-12-03 12:03 大数据和AI躺过的坑阅读(1785) 评论(0) 推荐(0)

DataFrame编程模型初谈与Spark SQL

摘要： Spark SQL在Spark内核基础上提供了对结构化数据的处理，在Spark1.3版本中，Spark SQL不仅可以作为分布式的SQL查询引擎，还引入了新的DataFrame编程模型。在Spark1.3版本中，Spark SQL不再是Alpha版本，除了提供更好的SQL标准兼容之外，还引进了新的阅读全文

posted @ 2016-12-03 11:15 大数据和AI躺过的坑阅读(1076) 评论(0) 推荐(0)

Spark RDD/Core 编程 API入门系列之简单移动互联网数据（五）

摘要：通过对移动互联网数据的分析，了解移动终端在互联网上的行为以及各个应用在互联网上的发展情况等信息。具体包括对不同的应用使用情况的统计、移动互联网上的日常活跃用户（DAU）和月活跃用户（MAU）的统计，以及不同应用中的上行下行流量统计等分析。为了简化移动互联网数据的分析，我这里是当个入门。假设，移阅读全文

posted @ 2016-12-03 10:50 大数据和AI躺过的坑阅读(764) 评论(0) 推荐(0)

简单入门构建spark1.6.1源码环境

摘要：能有源码的辅助，加上自身的修炼，能起到很好的作用！对于初学者，不建议，一上来看源码。下载 http://archive.apache.org/dist/spark/spark-1.6.1/ 阅读全文

posted @ 2016-12-03 09:26 大数据和AI躺过的坑阅读(575) 评论(0) 推荐(0)

2016年12月2日

Hadoop概念学习系列之谈hadoop/spark里分别是如何实现容错性？（四十二）

摘要： Hadoop使用数据复制来实现容错性（I/O高） Spark使用RDD数据存储模型来实现容错性。 RDD是只读的、分区记录的集合。如果一个RDD的一个分区丢失，RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求，从而减少了对磁盘的访问。通过RDD，后续步骤如果需要相同数据阅读全文

posted @ 2016-12-02 18:09 大数据和AI躺过的坑阅读(428) 评论(0) 推荐(0)

Spark 概念学习系列之Spark基本概念和模型（十八）

摘要：打好基础，别小瞧它！ spark的运行模式多种多样，在单机上既可以本地模式运行，也可以伪分布模式运行。而当以分布式的方式在集群中运行时。底层的资源调度可以使用Mesos或者Yarn，也可使用spark自带的Standalone模式。 1、Application ： Application的概念和Ha 阅读全文

posted @ 2016-12-02 14:05 大数据和AI躺过的坑阅读(1039) 评论(0) 推荐(0)

2016年12月1日

mysql远程服务器访问数据库

摘要：创建一个MySQL用户,并设置可以远程访问解决方法：1、改表法：可能是你的帐号不允许从远程登陆，只能在localhost。这个时候只要在localhost的那台电脑，登入mysql后，更改 “mysql” 数据库里的 “user” 表里的 “host” 项，从“localhost”改称“%” x 阅读全文

posted @ 2016-12-01 12:44 大数据和AI躺过的坑阅读(578) 评论(0) 推荐(0)

Hadoop Hive概念学习系列之hive与依赖环境的交互（二十一）

摘要： hive与环境的交互，算是一个小知识点，但掌握不菲！如何在hive里，也达到这样呢？不需要这样啦，因为，hive是建立在hadoop之上，启动hive，相当于，就是，hadoop jar ** hive > dfs -ls /; 可以看看这篇，hive与依赖环境的交互阅读全文

posted @ 2016-12-01 10:48 大数据和AI躺过的坑阅读(738) 评论(0) 推荐(0)

Hadoop Hive概念学习系列之hive的脚本执行（二十）

摘要：相当一部分人，容易忽略hive脚本，其实，这在生产环境里，是非常重要的！ $ hive -e "show tables" $ hive -e "show tables " >> aa $ hive -e "show tables " > aa $ hive -S -e "show tables" > 阅读全文

posted @ 2016-12-01 10:01 大数据和AI躺过的坑阅读(797) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告