随笔分类 - 机器学习
课程
摘要:一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 答:选择Kaggle分析数据项目 项目:房价预测(House Prices) 理由与意义:由于第一题Hadoop环境搭建困难重重,加上硬件设备需要500G+8G以上,故选择第二题。选择房价预测的目的是房价这
阅读全文
摘要:1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() #加载数据 from sklearn.datasets import load_digits import numpy as np import pan
阅读全文
摘要:1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能:计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等。 机器学习:一种实现人工智能的方法。机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世
阅读全文
摘要:1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target,
阅读全文
摘要:1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl
阅读全文
摘要:1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类与聚类:分类是已经知道类别,具体的类别是哪一些,通过对已知的的数据进行训练,找到不同类的特征。 聚类是不知道会分成多少类,通过聚类分析将数据或者说用户聚合成几个群体,他不需要对数据进行训练
阅读全文
摘要:一、用自己的话描述出其本身的含义: 1、特征选择 特征选择也叫特征子集选择。分为有监督学习和无监督学习。从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的。 是从原始特征中选择出一些最有效特征以降低数据集维
阅读全文
摘要:用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的
阅读全文
摘要:1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 逻辑回归可以通过正则化、加大数据样本,较少特征量。因为要拟合训练数据需要足够大的空间模型,正则化控制模型空间来减少误差。 2.用logiftic回归来进行实践操作,数据不限。
阅读全文
摘要:1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归:是处理分类问题。就是结果是连续值,无法确定范围,就把这个范围映射到能够判断的值里面,然后进行分类。 逻辑回归适用于二分类问题,逻辑回归也可以用于确定某个事件的可能性,输出值为0或1。 线性回归求解的是连续问题,而逻辑回归
阅读全文
摘要:1.本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性 (1)有监督:训练数据集必须是有标记,然后通过给定的训练数据和特定的算法去构造一个模型。 无监督:训练数据集没有标记,去寻找训练数据中隐藏的模式或者是对数据进行分组。 (2)线性回归的定义:通过一个或多个自变量或因变量进建
阅读全文
摘要:1. 应用K means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 2. 观察学习与生活中可以
阅读全文
摘要:1)贴上视频学习笔记,要求真实,不要抄袭,可以手写拍照。 1.本福斯特律 2.商品推荐 3.贝叶斯公式 4.两点分布 5.二项分布 6.泊松分布 7.指数分布 8.Beta分布 9.方差 10.协方差 11.协方差矩阵 12.中心极限定理 2)用自己的话总结“梯度”,“梯度下降”和“贝叶斯定理”,可
阅读全文
摘要:1). 扑克牌手动演练k均值聚类过程: 30张牌,3类 第一轮:2 7 11 第二轮:3 7 11 第三轮与第二轮一致,所有排序结束。 2). 自主编写K means算法 ,以鸢尾花花瓣长度数据做聚类,并用散点图显示。(加分题) 3). 用sklearn.cluster.KMeans,鸢尾花花瓣长度
阅读全文
摘要:机器学习 编程环境 Anaconda3 导入库 定义 机器学习是人工智能的分支,设计一个系统,使其通过训练数据进行学习,并且不断优化性能,能够预测相关结果。 内涵 应用 1. 数据清洗、特征选择 2. 算法模型、特征选择 3. 结果预测 不能解决 1. 大数据储存/并行计算 2. 机器人 机器学习的
阅读全文

浙公网安备 33010602011771号