机器学习day1

sklearn数据集

load_* 小数据集
fetch_* 大数据集,默认下载到家目录下的scikit_learn_data

对数据的索引

  1. []
  2. .
    img

特征工程

字典类型特征处理

img

文本特征处理

  1. 文本特征处理分为两类:英文文本、中文文本,其中中文文本需要进行空格分词
    img
    img
  2. 按分类方法分类可分为CountVectorizer,TfidfVectorizer两类,前者统计词语出现次数,而后者统计词语的重要程度,更适合文本特征处理。
    img
posted @ 2023-01-14 12:07  lmyyyy  阅读(18)  评论(0)    收藏  举报