广宇小陈

2020年6月10日

摘要： 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x：归一化MinMaxScaler() y：独热编码OneHotEncoder()或to_categorical 训练集测试集划分阅读全文

posted @ 2020-06-10 21:59 广宇小陈阅读(126) 评论(0) 推荐(0)

13垃圾邮件分类2

摘要： 1.读取 2.数据预处理 import csv import nltk import re from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import pandas as pd #返回类别 def 阅读全文

posted @ 2020-06-10 10:11 广宇小陈阅读(79) 评论(0) 推荐(0)

2020年6月9日

12朴素贝叶斯-垃圾邮件分类+

摘要： 1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句句子分词大小写，标点符号，去掉过短的单词词性还原：复数、时态、比较级连接成字符串 2.1 nltk库分词 nltk.sent_tokenize(text) #对文本按照句子进行分割 nltk.word 阅读全文

posted @ 2020-06-09 17:18 广宇小陈阅读(125) 评论(0) 推荐(0)

11 11分类与监督学习，朴素贝叶斯分类算法

摘要： 1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。分类就是按照数据的属性给对象贴上标签，再根据标签来分类，属于无监督学习，聚类就是指事先定义好类别，然后通过某种度量（比如距离）将他们分类。简述什么是监督学习与无监督学习。有监督学习：通过已有的训练样本去训练得到一个最优模型阅读全文

posted @ 2020-06-09 15:09 广宇小陈阅读(135) 评论(0) 推荐(0)

8 特征选择

摘要：用过滤法对以下数据进行特征选择： [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求： 1、Variance Threshold（threshold =1.0） 2、将结果截图放上来（没有条件的备注说明原因）注意：每个人的电脑ID是不一样的阅读全文

posted @ 2020-06-09 11:27 广宇小陈阅读(76) 评论(0) 推荐(0)

7 逻辑回归实践

摘要： 1.逻辑回归是怎么防止过拟合的？为什么正则化可以防止过拟合？（大家用自己的话介绍下）（1）逻辑回归是怎么防止过拟合的？利用正则化来防止过拟合。正则化可以有更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好（2）为什么正则化可以防止过拟合？过拟合的时候，拟合函数的系数往往非阅读全文

posted @ 2020-06-09 10:48 广宇小陈阅读(72) 评论(0) 推荐(0)

6 逻辑回归

摘要： 1.用自己的话描述一下，什么是逻辑回归，与线性回归对比，有什么不同？逻辑回归是一种用于解决二分类问题的机器学习方法；简单来说，就是用于估计某种事物发生的可能性，例如：今天是晴天的可能性，用户购买某商品的可能性。逻辑回归和线性回归都是一种广义的线性回归模型，逻辑回归与线性回归有很多相同之处，去除S 阅读全文

posted @ 2020-06-09 09:31 广宇小陈阅读(64) 评论(0) 推荐(0)

2020年6月2日

14深度学习-卷积

摘要： 1.简述人工智能、机器学习和深度学习三者的联系与区别。联系：深度学习使得机器学习能够实现众多应用，并拓展了人工智能的领域范畴。区别：人工智能是目的，是结果；深度学习、机器学习是方法，是工具；深度学习则是一种实现机器学习的技术；它适合处理大数据。 2. 全连接神经网络与卷积神经网络的联系与区别。阅读全文

posted @ 2020-06-02 08:37 广宇小陈阅读(177) 评论(0) 推荐(0)

2020年5月24日

13垃圾邮件分类

摘要： 1.读取 file_path = r'D:\DingDing\main\current\download\SMSSpamCollection'sms = open(file_path, 'r', encoding='utf-8')sms_data = []sms_label = [] csv_rea 阅读全文

posted @ 2020-05-24 23:09 广宇小陈阅读(157) 评论(0) 推荐(0)

2020年5月2日

作业九

摘要：一、用自己的话描述出其本身的含义： 1、特征选择通过特征选取删选掉冗余和不相关的特征来进一步降维的特征。 2、PCA：是一种分析、简化数据集的技术。可以尽可能降低原数据的维度（复杂度），损失少量信息。二、并用自己的话阐述出两者的主要区别特征选择主要用于特征较少时使用，而主成份分析的特征可达上阅读全文

posted @ 2020-05-02 11:58 广宇小陈阅读(135) 评论(0) 推荐(0)

公告