随笔分类 -  机器学习

摘要:基本概念: 在数据处理中,经常会遇到特征维度比样本数量多得多的情况,如果拿到实际工程中去跑,效果不一定好。一是因为冗余的特征会带来一些噪音,影响计算的结果;二是因为无关的特征会加大计算量,耗费时间和资源。所以我们通常会对数据重新变换一下,再跑模型。数据变换的目的不仅仅是降维,还可以消除特征之间的相关 阅读全文
posted @ 2018-12-27 19:46 杨今朝 阅读(3767) 评论(0) 推荐(2)
摘要:#python版本3.7 import re, collections #将语料库里的单词全部转换为小写def words(text): return re.findall('[a-z]+', text.lower()) #词频统计def train(features): model = colle 阅读全文
posted @ 2018-12-20 21:41 杨今朝 阅读(407) 评论(0) 推荐(0)
摘要:基础知识储备: 导入常用python package导入文章content,导入停用词表使用jieba对content内容分词创建函数去除content中的停用词(注意格式的不同 dataframe, series, list)统计词频:使用词云画图创建词云展示使用IF-IDF提取关键字构建LDA主 阅读全文
posted @ 2018-12-20 21:24 杨今朝 阅读(2186) 评论(1) 推荐(1)
摘要:工作流程: 在数据科学竞赛的解决问题的七个步骤: 1.问题或问题的定义。(理解题目)2.获得培训和测试数据。(获取数据)3.争论,准备清理数据。(初步清洗数据)4.分析、识别模式,并探索数据。(特征工程)5.模型,预测和解决问题。(机器学习算法介入)6.可视化报告,并提出解决问题的步骤和最终的解决方 阅读全文
posted @ 2018-12-19 20:47 杨今朝 阅读(1037) 评论(0) 推荐(0)
摘要:%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pd #引入数据 from sklearn.datasets.california_housing import fetch_california_housinghou 阅读全文
posted @ 2018-12-19 12:53 杨今朝 阅读(2022) 评论(0) 推荐(0)