随笔分类 - 机器学习
pandas知识点,常用机器学习算法
摘要:分词工具 网盘链接:https://pan.baidu.com/s/1fkKK4ZImxhfShrEHMZUX3w import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print("全模式: " + "/ ".join(seg_l
阅读全文
posted @ 2021-07-06 20:45
风hua
摘要:spaCy 介绍 # 导入工具包和英文模型 #pip install spacy #python -m spacy download en_core_web_sm # 安装不成功 去直接下载 >pip install 包 地址:https://github.com/explosion/spacy-m
阅读全文
posted @ 2021-07-06 20:42
风hua
摘要:Python字符串处理 去掉空格或者特殊字符 input_str = ' 今天天气不错,今天挺风和日丽的 ' input_str.strip() '今天天气不错,今天挺风和日丽的' input_str.rstrip() ' 今天天气不错,今天挺风和日丽的' input_str.lstrip() '今
阅读全文
posted @ 2021-07-06 20:38
风hua
摘要:NLTK工具包安装 非常实用的文本处理工具,主要用于英文数据,历史悠久~ import nltk #pip install nltk nltk.download() showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pa
阅读全文
posted @ 2021-07-06 20:35
风hua
摘要:正则表达式语法 Python正则表达式 指定好匹配的模式-pattern 选择相应的方法-match,search等 得到匹配结果-group re.match #从开始位置开始匹配,如果开头没有则无 re.search #搜索整个字符串 re.findall #搜索整个字符串,返回一个list i
阅读全文
摘要:流程图 回归和聚类 1 回归和聚类 2 线性回归 3 欠拟合与过拟合 4 岭回归 5 分类算法:逻辑回归 6 模型保存与加载 7 无监督学习 K-means算法 """ 回归和聚类 线性回归 欠拟合与过拟合 岭回归 分类算法:逻辑回归 模型保存与加载 无监督学习 K-means算法 4.1 线性回归
阅读全文
摘要:流程图 分类算法 分类算法 目标值:类别 1、sklearn转换器和预估器 2、KNN算法 3、模型选择与调优 4、朴素贝叶斯算法 5、决策树 6、随机森林 分类算法 目标值:类别 1、sklearn转换器和预估器 2、KNN算法 3、模型选择与调优 4、朴素贝叶斯算法 5、决策树 6、随机森林 3
阅读全文
摘要:流程图 机器学习概述 1 服务领域: 2 定义:机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。 3 机器学习流程 流程总结 1.获取数据 2.数据基本处理 3.特征工程 4.机器学习(模型训练) 5.模型评估 结果达到要求,上线服务 没有达到要求,重新上面步骤 4 算法分类 监督
阅读全文
posted @ 2021-07-04 23:47
风hua
摘要:机器学习目录 文档: pandas数据结构 机器学习算法 网盘链接(huaw) 一 Pandas常用知识点 1 pandas(一) 2 pandas(二) 3 数据提取:iloc与loc 4 数据合并 5 数据聚合与数据透视 二 机器学习常用算法 0 概述-数据集-特征工程 1 分类算法 1、skl
阅读全文
posted @ 2021-06-25 20:57
风hua
摘要:5 数据聚合与数据透视 ① 数据聚合 一.定义 通过不同变量对大型数据帧进行分组,以及对每个组应用汇总函数的任务。这时需在pandas中使用DataFrame对象的groupby函数和 agg函数完成。 二.导入实验数据集 三.数据集字段释义 phone.csv数据集包含830个记录共7个字段,以下
阅读全文
摘要:4 数据合并 ①concat 一.定义 concat函数可以在两个维度上对数据进行拼接,默认纵向拼接(axis=0),即按行拼接。拼接方式默认为外连接(outer),即取所有的表头字段或索引字段。 二.语法 pd.concat(objs,axis=0, join='outer', ignore_in
阅读全文
摘要:3 数据提取:iloc与loc 一、iloc 1.定义 iloc索引器用于按位置进行基于整数位置的索引或者选择 2.语法 df.iloc [row selection, column selection] 3.代码示例 (1)导入数据 (2)选择单行或单列 (2)选择多行或多列 (3)注意 iloc
阅读全文
摘要:Pandas(二) 1.定义 DataFrame为具有行和列的二维数据,具有大小可变的数据结构 2.手动创建DataFrame 3.将外部文件读取到DataFrame 4.查看DataFrame大小 5.预览DataFrame 6.查看所有列的数据类型 7.查看指定列的数据类型 8.更改列的数据类型
阅读全文
摘要:DataFrame 1.读入数据 2.获取前5行 3.获取第3-4行 4.获取特定的列 5.使用整数选择行和列 6.使用整数和标签的混合来选择行和列 7.获取这三列 8.重置索引为province 9.更改列名 10.对数据进行计算 11 根据increase字段降序 12.matplotlib作图
阅读全文
浙公网安备 33010602011771号