随笔分类 - 机器学习
摘要:https://paddleclas.readthedocs.io/zh-cn/latest/tutorials/install.html
阅读全文
摘要:原理:让算法“读”懂二手商品 —— 闲鱼二手属性抽取算法 - 知乎 (zhihu.com) 现成的模型:RaNER命名实体识别-中文-电商领域-细粒度-base · 模型库 (modelscope.cn) 运行的时候,云端可以正常运行,但是本地报错:ModuleNotFoundError: No m
阅读全文
摘要:基本思想 需求是对垃圾邮件进行分类。 思路1:使用LSTM、GRU等自带的时序模型进行分类。 思路2:使用spacy这个NLP库,里面的textcat可直接用来文本分类 实际上,思路2比思路1更优。由于是入门题,就只使用思路1了。 思路2代码参考:https://blog.csdn.net/qq_2
阅读全文
摘要:数据处理 列数有这些: 看看不同特征与结果的相关性 1.性别(Sex):0.74的女性活下来了 2.舱位(PClass):一等舱0.62,二等舱0.47,三等舱0.24 3.一起登船的家人数量(SibSp):0人0.35,1人0.53,2人0.46,3人0.25,4人0.16,5人0 4.老人孩子数
阅读全文
摘要:基本思路 我们第一次实现是选取了十个基本变量作为特征,训练集里NaN的值全都填了0。 仔细想想,可以多选取几个变量,这样或许能提高预测的正确率。 具体实现 首先,我输出了15个关系度比较大的变量,其中,"YearRemodAdd","Fireplaces","BsmtFinSF1"是三个有价值的变量
阅读全文
摘要:第一步,将数据集仅保留十个关键变量,其他变量删掉。 # 选择要保留的列 selected_columns = ["SalePrice","OverallQual", "GrLivArea", "GarageCars", "TotalBsmtSF", "1stFlrSF", "FullBath", "
阅读全文
摘要:环境搭建 1.打开Kaggle相关比赛的地址,找到Data一栏,下载数据,需要train.csv和test.csv 2.用cmd在创建的目录下打开notebook,指令:jupyter notebook 3.测试读取数据 import numpy as np import pandas as pd
阅读全文

浙公网安备 33010602011771号