2017 年机器学习之数据挖据、数据分析，可视化，ML,DL,NLP等知识记录和总结

今天是2017年12月30日，2017年的年尾，2018年马上就要到了，回顾2017过的确实很快，不知不觉就到年末了，再次开篇对2016.2017年的学习数据挖掘，机器学习方面的知识做一个总结，对自己所学的知识也做一个梳理，查漏补缺关于数据挖据、数据分析，可视化，ML,DL,NLP等。

作者：csj
更新时间:2017.12.27

email:59888745@qq.com

说明：因内容较多，会不断更新 *学习总结；

2016.10 主要看的书《Python3-廖雪峰》，《Python核心编程》
　　通过这些书籍的学习，能掌握python常用的基本知识：

　　1.python数据类型、判断与循环流程，list,tuple,dict,map,filter,reduce等
　　2.文件/数据读写、面向对象、第三方库等;
3.python高级特性等等;

python学习总结-【原】

2016.11 主要看的书是关于数据获取，scrapy等方面的知识，如《用python写网路爬虫》李斌译;
　　1.requests抓取与静态网页解析,bs4的使用；
　　2.user-agent模拟登陆与分布式爬虫；
　　3.selenium与动态网站爬取
数据获取,解析，存储等知识的学习总结-【原】

2016.12 主要看的书是关于数据挖据&数据分析方面的知识.如 pandas,numpy,scipy
1.pandas数据统计与分析技能
2.用pandas完成机器学习数据预处理与特征工程

pandas的学习总结-【原】
numpy的学习总结-[原]
　　scipy的学习总结-原

2017.01 主要看的书是关于数据可视化方面的知识.如 matplotlib,d3,process等数据可视化
1.好用的python可视化利器matplotlib
2.自带各种数据拟合分析的可视化利器seaborn
matplotlib的学习总结【原】
　　d3的学习总结
　　process的学习总结

2017.02 主要看的书是关于Spark，hadoop,map-reduce大数据处理等方面的知识

《Spark快速数据处理》余璜，张磊译，《spark sql编程指南》韩保礼译

Spark与大数据处理【原】未完

2017.03-04--- 主要看的书是关于机器学习原理到实战方面的书，如
《统计学习方法-李航》--介绍统计学常用的算法和模型；
《机器学习实战-李博》--介绍机器学习常用算法及阿里巴巴PAI平台使用的机器算法解决方案模型
《推荐系统实践-项亮》--介绍推荐系统方面的知识。

机器学习周志华
　　1.机器学习基本概念,常用经典模型总结【原】
　　2..机器学习流程、预处理、特征工程实例总结
　　3.机器学习算法特点总结
　　4.人工智能,机器学习,深度学习，数据挖掘流程介绍总结

项目:

阿里天池大航杯“智造扬中”电力AI大赛的案例分析实现

Kaggle 自行车租赁预测比赛项目分析实现

京东2017 猪脸识别项目分析实现

百度PaddlePaddle AI大赛项目分析实现

2017.05-06-- 主要学习是深度学习原理到实战方面的知识，了解常用深度学习模型Tensorflow，caffe
　　1.深度神经网络、deep模型
　　2.卷积神经网络、
　　3.循环神经网络、

2017.07-08-- 主要学习的是自然语言处理方面的知识，了解常用NLP方面的知识如分词，词向量，词云，文本分类,jieba,gensim等

0.NLP自然语言处理 jieba中文分词,关键词提取,词性标注,NLP WordEmbedding的概念和实现

1.用机器学习方法完成中文文本分类
NB模型
SVM模型

(数据清洗 + 特征提取(tfidf,textrank) + 抽取有用的特征，如对文本抽取,词代模型，NB模型测试，参数调优，交叉验证（kf,分组），用不同的算法svm,tfidf模型测试；
输出结果和分析,tfidf在多文本类别的分类效果不错。

2.用Tensorflow深度学习做文本分类
CNN做文本分类
数据预处理
停用词
构建数据集
神经网络搭建
训练和预测

3.LSTM/GRU文本分类捕捉时序信息的长短时记忆神经网络
词袋模型
GRU文本分类

4.推荐系统

根据不同用户的喜好挖掘生成用户画像，为每位用户提供“千人千面”的个性化推荐内容，帮助传媒、
电商等行业有效提升点击率、转化率及用户粘性，极大地增加客户的经营效益。

推荐系统主要功能：
1.多维度挖掘用户长短期兴趣画像，精准把脉用户偏好诉求.
2.基于用户行为历史数据挖掘多样性的个性化推荐结果.
3.对用户兴趣和个性化需求进行精准预测.
4.主要解决两个问题，一个是信息过载，一个是用户需求的多样性.

实现方法：
1. 相似度,通过用户对物品的历史行为，例如评分、访问、下单、收藏等等行为，判断用户之间的相似情况输出推荐列表.
2. 组合推荐:基于用户推荐(UserCF)，物品推荐(ItemCF)和内容的推荐可能会达到比较好的效果.

推荐系统简介

2017.09-10-11-12 机器学习，深度学习，NLP等方面知识深化学习

posted @ 2018-01-07 16:27 大树2 阅读(1675) 评论(0) 收藏举报

刷新页面返回顶部

程序员猴哥

记录学习过程，总结工作经验，探究底层运行逻辑。

2017 年机器学习之数据挖据、数据分析，可视化，ML,DL,NLP等知识记录和总结

公告

程序员猴哥

记录学习过程，总结工作经验，探究底层运行逻辑。

2017 年 机器学习之数据挖据、数据分析，可视化，ML,DL,NLP等知识记录和总结

公告

2017 年机器学习之数据挖据、数据分析，可视化，ML,DL,NLP等知识记录和总结