随笔分类 -  MOOC-pyspark

摘要:这次lab也是最后一次lab了,前面两次lab介绍了回归和分类,特别详细地介绍了线性回归和逻辑回归,这次的作业主要是非监督学习——降维,主要是PCA。数据集是神经科学的数据,来自于Ahrens Lab,数据公布在CodeNeuro data repository。相关ipynb文件见我 "githu 阅读全文
posted @ 2017-04-24 18:20 james+zhao 阅读(564) 评论(0) 推荐(0)
摘要:这次lab主要主要是研究click through rate (CTR)。数据集来自于Kaggle的Criteo Labs dataset。相关ipynb文件见我 "github" 。 作业分成5个部分:one hot encoding处理特征;构造one hot encoding dictiona 阅读全文
posted @ 2017-04-23 23:08 james+zhao 阅读(668) 评论(0) 推荐(0)
摘要:这次作业主要是有关监督学习,数据集是来自UCI Machine Learning Repository的Million Song Dataset。我们的目的是训练一个线性回归的模型来预测一首歌的发行年份。相关ipynb文件见我 "github" 。 作业主要分成5个部分:读取和解析数据,创建模型和评 阅读全文
posted @ 2017-04-20 18:07 james+zhao 阅读(739) 评论(0) 推荐(0)
摘要:这是CS190.1x第一次作业,主要教你如何使用numpy。numpy可以说是python科学计算的基础包了,用途非常广泛。相关ipynb文件见我 "github" 。 这次作业主要分成5个部分,分别是:数学复习,numpy介绍,numpy和线性代数,lambda表达式和CTR预览(lab4的内容, 阅读全文
posted @ 2017-04-20 11:10 james+zhao 阅读(524) 评论(0) 推荐(0)
摘要:这门课是CS100.1x的后续课,看课程名字就知道这门课主要讲机器学习。难度也会比上一门课大一点。如果你对这门课感兴趣,可以看看我这篇博客,如果对PySpark感兴趣,可以看我分析作业的博客。 Course Software Setup 这门课的环境配置和上一门一模一样,参考我的这篇博客 "CS10 阅读全文
posted @ 2017-04-20 09:56 james+zhao 阅读(1396) 评论(0) 推荐(0)
摘要:这是这门课第一次接触机器学习,主题是Predicting Movie Ratings。难度比上一次作业要简单点。。上一次作业真的挺难。。。相关ipynb文件见我 "github" 。 这里我们会用到Spark MLlib的Alternating Least Squares方法去做一些比之前复杂的事情 阅读全文
posted @ 2017-04-16 08:54 james+zhao 阅读(669) 评论(0) 推荐(0)
摘要:这次作业叫Text Analysis and Entity Resolution,比前几次作业难度要大很多。相关ipynb文件见我 "github" 。 实体解析在数据清洗和数据整合中是一个很重要,且有难度的问题。这次作业将用Apache Spark和文本分析的方法应用到实体解析。实体解析是指,从不 阅读全文
posted @ 2017-04-15 16:31 james+zhao 阅读(1111) 评论(0) 推荐(0)
摘要:CS100.1x简介 这门课主要讲数据科学,也就是data science以及怎么用Apache Spark去分析大数据。 Course Software Setup 这门课主要介绍如何编写和调试PySpark。本节主要介绍环境搭配。为了让所有人环境一致,本课程的编程环境是用Virtual Mach 阅读全文
posted @ 2017-04-14 18:40 james+zhao 阅读(1045) 评论(0) 推荐(0)
摘要:这次的作业主要用PySpark来分析Web Server Log。主要分成4个部分。相关ipynb文件见我 "github" 。 Part 1 Apache Web Server Log file format 这部分主要是了解log file的格式,然后处理它。我们处理的日志格式符合Common 阅读全文
posted @ 2017-04-03 23:25 james+zhao 阅读(969) 评论(0) 推荐(0)
摘要:这是CS100.1x第一个提交的有意义的作业,自己一遍做下来对PySpark的基本应用应该是可以掌握的。相关ipynb文件见我 "github" 。 这次作业的目的如题目一样——word count,作业分成4个部分,遇到不懂的地方,时刻记得查API。 Part 1 Creating a base 阅读全文
posted @ 2017-04-03 17:06 james+zhao 阅读(1169) 评论(1) 推荐(0)
摘要:这是CS100.1x第一个提交的作业,是给我们测试用的。相关ipynb文件见我 "github" 。本来没什么好说的。我在这里简单讲一下,后面会更详细的讲解。主要分成5个部分。 Part 1: Test Spark functionality Parallelize, filter, and red 阅读全文
posted @ 2017-04-02 22:04 james+zhao 阅读(633) 评论(0) 推荐(0)
摘要:起因 大数据时代 大数据最近太热了,其主要有数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity)4个特点,合起来被称为4V。 大数据中的数据量非常巨大,传统的关系型数据库已经无法满足对大数据的处理要求。此时,分布式计算应运而生 阅读全文
posted @ 2017-04-02 20:00 james+zhao 阅读(404) 评论(0) 推荐(0)