随笔档案「2017年4月」 - james+zhao

CS190.1x-ML_lab5_pca_student

摘要：这次lab也是最后一次lab了，前面两次lab介绍了回归和分类，特别详细地介绍了线性回归和逻辑回归，这次的作业主要是非监督学习——降维，主要是PCA。数据集是神经科学的数据，来自于Ahrens Lab，数据公布在CodeNeuro data repository。相关ipynb文件见我 "githu 阅读全文

posted @ 2017-04-24 18:20 james+zhao 阅读(572) 评论(0) 推荐(0)

CS190.1x-ML_lab4_ctr_student

摘要：这次lab主要主要是研究click through rate (CTR)。数据集来自于Kaggle的Criteo Labs dataset。相关ipynb文件见我 "github" 。作业分成5个部分：one hot encoding处理特征；构造one hot encoding dictiona 阅读全文

posted @ 2017-04-23 23:08 james+zhao 阅读(677) 评论(0) 推荐(0)

CS190.1x-ML_lab3_linear_reg_student

摘要：这次作业主要是有关监督学习，数据集是来自UCI Machine Learning Repository的Million Song Dataset。我们的目的是训练一个线性回归的模型来预测一首歌的发行年份。相关ipynb文件见我 "github" 。作业主要分成5个部分：读取和解析数据，创建模型和评阅读全文

posted @ 2017-04-20 18:07 james+zhao 阅读(747) 评论(0) 推荐(0)

CS190.1x-ML_lab1_review_student

摘要：这是CS190.1x第一次作业，主要教你如何使用numpy。numpy可以说是python科学计算的基础包了，用途非常广泛。相关ipynb文件见我 "github" 。这次作业主要分成5个部分，分别是：数学复习，numpy介绍，numpy和线性代数，lambda表达式和CTR预览（lab4的内容，阅读全文

posted @ 2017-04-20 11:10 james+zhao 阅读(528) 评论(0) 推荐(0)

CS190.1x Scalable Machine Learning

摘要：这门课是CS100.1x的后续课，看课程名字就知道这门课主要讲机器学习。难度也会比上一门课大一点。如果你对这门课感兴趣，可以看看我这篇博客，如果对PySpark感兴趣，可以看我分析作业的博客。 Course Software Setup 这门课的环境配置和上一门一模一样，参考我的这篇博客 "CS10 阅读全文

posted @ 2017-04-20 09:56 james+zhao 阅读(1404) 评论(0) 推荐(0)

xgboost学习与总结

摘要：最近在研究xgboost，把一些xgboost的知识总结一下。这里只是把相关资源作总结，原创的东西不多。原理 xgboost的原理首先看xgboost的作者陈天奇的 "ppt" 英文不太好的同学可以看看这篇博客 "xgboost原理" 。假如看了陈天奇的ppt还晕乎的同学，看了这篇应该能大概知道x 阅读全文

posted @ 2017-04-17 16:33 james+zhao 阅读(3725) 评论(0) 推荐(0)

CS100.1x-lab4_machine_learning_student

摘要：这是这门课第一次接触机器学习，主题是Predicting Movie Ratings。难度比上一次作业要简单点。。上一次作业真的挺难。。。相关ipynb文件见我 "github" 。这里我们会用到Spark MLlib的Alternating Least Squares方法去做一些比之前复杂的事情阅读全文

posted @ 2017-04-16 08:54 james+zhao 阅读(674) 评论(0) 推荐(0)

CS100.1x-lab3_text_analysis_and_entity_resolution_student

摘要：这次作业叫Text Analysis and Entity Resolution，比前几次作业难度要大很多。相关ipynb文件见我 "github" 。实体解析在数据清洗和数据整合中是一个很重要，且有难度的问题。这次作业将用Apache Spark和文本分析的方法应用到实体解析。实体解析是指，从不阅读全文

posted @ 2017-04-15 16:31 james+zhao 阅读(1115) 评论(0) 推荐(0)

CS100.1x Introduction to Big Data with Apache Spark

摘要：CS100.1x简介这门课主要讲数据科学，也就是data science以及怎么用Apache Spark去分析大数据。 Course Software Setup 这门课主要介绍如何编写和调试PySpark。本节主要介绍环境搭配。为了让所有人环境一致，本课程的编程环境是用Virtual Mach 阅读全文

posted @ 2017-04-14 18:40 james+zhao 阅读(1048) 评论(0) 推荐(0)

Label Encoding vs One Hot Encoding

摘要：最近在刷kaggle的时候碰到了两种处理类别型特征的方法：label encoding和one hot encoding。我从stackexchange, quora等网上搜索了相关的问题，总结如下。 label encoding在某些情况下很有用，但是场景限制很多。比如有一列 [dog,cat,d 阅读全文

posted @ 2017-04-14 12:25 james+zhao 阅读(2441) 评论(0) 推荐(0)

机器学习模型为什么要将特征离散化

摘要：我在刷Kaggle时发现一个问题。很多人在处理数据的时候，经常把连续性特征离散化。对此我感到很好奇，所以上网搜了一些总结，主要内容来自知乎 "连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？" 这个是 "严林的回答" 在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是阅读全文

posted @ 2017-04-14 09:46 james+zhao 阅读(7889) 评论(0) 推荐(1)

Python Machine Learning: Scikit-Learn Tutorial

摘要：这是一篇翻译的博客，原文链接在 "这里" 。这是我看的为数不多的介绍scikit learn简介而全面的文章，特别适合入门。我这里把这篇文章翻译一下，英语好的同学可以直接看原文。大部分喜欢用Python来学习数据科学的人，应该听过scikit learn，这个开源的Python库帮我们实现了一系列阅读全文

posted @ 2017-04-06 12:00 james+zhao 阅读(1764) 评论(0) 推荐(0)

聚类算法深度详解

摘要：本博客主要内容来自机器之心翻译的 "机器理解大数据的秘密：聚类算法深度详解" 。这篇文章是讲解聚类里难得一见的好文章，大家有兴趣可以阅读原文，我这里主要在原文的基础上写一些自己的总结，补充在原文后的括号里。本文主要介绍了三种聚类方法：K 均值聚类，层次聚类，图团体检测 K均值聚类何时使用？当你阅读全文

posted @ 2017-04-04 21:35 james+zhao 阅读(32161) 评论(1) 推荐(3)

层次聚类的连接标准

摘要：缘由写这篇博客是因为看到一篇介绍聚类的博客，里面介绍到层次聚类时，提到了linkage criterion，博客把这翻译成了连接标准。之前很少用过层次聚类，所以对这个概念并不熟悉。于是搜索了一下，把一些知识点总结与此，大部分来源于维基百科和Quora以及scikit learn文档。 Linkag 阅读全文

posted @ 2017-04-04 21:23 james+zhao 阅读(3796) 评论(0) 推荐(0)

CS100.1x-lab2_apache_log_student

摘要：这次的作业主要用PySpark来分析Web Server Log。主要分成4个部分。相关ipynb文件见我 "github" 。 Part 1 Apache Web Server Log file format 这部分主要是了解log file的格式，然后处理它。我们处理的日志格式符合Common 阅读全文

posted @ 2017-04-03 23:25 james+zhao 阅读(977) 评论(0) 推荐(0)

CS100.1x-lab1_word_count_student

摘要：这是CS100.1x第一个提交的有意义的作业，自己一遍做下来对PySpark的基本应用应该是可以掌握的。相关ipynb文件见我 "github" 。这次作业的目的如题目一样——word count，作业分成4个部分，遇到不懂的地方，时刻记得查API。 Part 1 Creating a base 阅读全文

posted @ 2017-04-03 17:06 james+zhao 阅读(1174) 评论(1) 推荐(0)

CS100.1x-lab0_student

摘要：这是CS100.1x第一个提交的作业，是给我们测试用的。相关ipynb文件见我 "github" 。本来没什么好说的。我在这里简单讲一下，后面会更详细的讲解。主要分成5个部分。 Part 1: Test Spark functionality Parallelize, filter, and red 阅读全文

posted @ 2017-04-02 22:04 james+zhao 阅读(645) 评论(0) 推荐(0)

Introduction to Big Data with PySpark

摘要：起因大数据时代大数据最近太热了，其主要有数据量大（Volume），数据类别复杂（Variety），数据处理速度快（Velocity）和数据真实性高（Veracity）4个特点，合起来被称为4V。大数据中的数据量非常巨大，传统的关系型数据库已经无法满足对大数据的处理要求。此时，分布式计算应运而生阅读全文

posted @ 2017-04-02 20:00 james+zhao 阅读(411) 评论(0) 推荐(0)

james+zhao

04 2017 档案

公告