随笔分类 -  机器学习算法基础

摘要:1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() #1.手写数字数据集 from sklearn.datasets import load_digits import numpy as np impor 阅读全文
posted @ 2020-06-08 19:59 琴时 阅读(502) 评论(0) 推荐(0)
摘要:1.简述人工智能、机器学习和深度学习三者的联系与区别。 解析:人工智能是目的,是结果;机器学习、深度学习是方法,是工具。机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习的技术。 2. 全连接神经网络与卷积神经网络的联系与区别。 解析:卷积神经网络也是通过一层一层的节点组织起来的。和全连接 阅读全文
posted @ 2020-06-01 09:01 琴时 阅读(293) 评论(0) 推荐(0)
摘要:1.读取 # 读取数据 def read_dataset(): # 打开csv文件 sms = open('../data/SMSSpamCollection', 'r', encoding='utf-8') sms_label = [] # 标题 sms_data = [] # 数据 # 读取cs 阅读全文
posted @ 2020-05-24 16:08 琴时 阅读(383) 评论(0) 推荐(0)
摘要:1. 读邮件数据集文件,提取邮件本身与标签。 测试数据: 链接:https://pan.baidu.com/s/1BiftJ1BBggybitfqeZbSDQ 提取码:en47 列表 numpy数组 代码如下: import csv sms = open('../data/SMSSpamCollec 阅读全文
posted @ 2020-05-19 18:25 琴时 阅读(321) 评论(0) 推荐(0)
摘要:1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 答:分类的意思大概就是根据数据集中已知的类别进行的分类;而聚类意思就是数据集中把未知的数据根据它们的相似性而进行聚类。 简述什么是监督学习与无监督学习。 答:监督学习:就是分类,通过已有的训练样本去训练得到一个最优模型,再利用 阅读全文
posted @ 2020-05-07 19:30 琴时 阅读(296) 评论(0) 推荐(0)
摘要:一、用自己的话描述出其本身的含义: 1、特征选择:从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。 2、PCA:即主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标 阅读全文
posted @ 2020-05-01 11:15 琴时 阅读(155) 评论(0) 推荐(0)
摘要:用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 实现代码如下: from sklearn.feature_selection import VarianceThre 阅读全文
posted @ 2020-04-27 14:25 琴时 阅读(212) 评论(0) 推荐(0)
摘要:1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合? ①逻辑回归是怎么防止过拟合的? 1.增加样本量,适用任何模型。 2.如果数据稀疏,使用L1正则,其他情况,用L2正则要好点。 3.通过特征选择,剔除一些不重要的特征,从而降低模型复杂度。 4.如果还过拟合,那就看看是否使用了过度复杂的特征 阅读全文
posted @ 2020-04-27 13:22 琴时 阅读(359) 评论(0) 推荐(0)
摘要:1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? ①逻辑回归:是一种广义的线性回归分析模型。逻辑回归就是一个分类的算法,常见用在二分类当中,就是把我们的输入值在线性回归中转化为预测值,然后映射到Sigmoid 函数中,讲值作为x轴的变量,y轴作为一个概率,预测值对应的Y值越接近于 阅读全文
posted @ 2020-04-23 14:51 琴时 阅读(156) 评论(0) 推荐(0)
摘要:1.本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性 在本节课主要学习了线性回归算法,理解了算法的定义:线性回归是基于已有数据对未知的数据进行预测的。比如:①房价预测,如图1-1、数据可视化如图1-2; 图1-1 通过房面积来预测价格 图1-2 画出面积与房价的线性关系图 ② 阅读全文
posted @ 2020-04-20 18:05 琴时 阅读(522) 评论(0) 推荐(0)
摘要:1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 实现代码部分: from 阅读全文
posted @ 2020-04-19 21:19 琴时 阅读(245) 评论(0) 推荐(0)
摘要:1). 扑克牌手动演练k均值聚类过程:>30张牌,3类 ①随机在扑克牌中抽取30张牌,当中取3张聚类中心10,4,2 进行分类 ②计算三堆牌的平均值分别为11,5,2。 ③以11,5,2为新的聚类中心来分类 ④计算平均值,均值不变,分类结束。 2). *自主编写K-means算法 ,以鸢尾花花瓣长度 阅读全文
posted @ 2020-04-15 17:56 琴时 阅读(297) 评论(0) 推荐(0)
摘要:☆本周视频学习内容:https://www.bilibili.com/video/BV1Tb411H7uC?p=2 ☆本周作业要求: 1)贴上视频学习笔记,要求真实,不要抄袭,可以手写拍照。 解析: 1)P2 概率论与贝叶斯先验 主要学习内容:第3页 本福特定律:第7页 概率公式:第14页 贝叶斯公 阅读全文
posted @ 2020-04-11 22:56 琴时 阅读(264) 评论(0) 推荐(0)
摘要:本周任务: 1.python基础的准备 本课程拟采用Python做为机器算法应用的实现语言,所以请确保: 1)安装好Python开发环境, PyCharm 或 Anaconda等都可以,按个人习惯喜好。 2)基本库的安装,如numpy、pandas、scipy、matplotlib 3)具备一定的P 阅读全文
posted @ 2020-04-03 13:14 琴时 阅读(235) 评论(0) 推荐(0)