会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
土豆面包
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
16
下一页
2021年2月4日
机器学习-回归改进
摘要: 过拟合和欠拟合 欠拟合 过拟合 第一种情况:因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。 第二种情况:机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。 1|
阅读全文
posted @ 2021-02-04 23:06 土豆面包
阅读(133)
评论(0)
推荐(0)
2021年2月3日
使用jieba分词进行中文词语的分割
摘要: 实现代码: from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction import DictVectorizer import jieba def cut_word(text
阅读全文
posted @ 2021-02-03 20:01 土豆面包
阅读(254)
评论(0)
推荐(0)
2021年2月1日
机器学习-位置预测实战
摘要: 一、问题描述 给定用户签到数据集,预测用户下次签到位置 二、数据准备 row_id:签到事件id x,y:签到坐标 accuracy:准确度,定位精度 time:时间戳 place_id:签到的位置,预测目标值 三、实现代码 import pandas as pd from sklearn.mode
阅读全文
posted @ 2021-02-01 15:10 土豆面包
阅读(540)
评论(0)
推荐(0)
2021年1月31日
机器学习之线性回归
摘要: 线性回归 定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。 特点:只有一个自变量的情况称为单变量回归,大于一个自变量情况的叫做多元回归 线性回归的特征与目标的关系分析 线性回归当中的关系有两
阅读全文
posted @ 2021-01-31 23:58 土豆面包
阅读(250)
评论(0)
推荐(0)
2021年1月30日
机器学习-K近邻算法模型预测实战
摘要: 一、数据准备 二、任务目的 根据前三列数据预测最后一列的target数据 三、实现代码 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.p
阅读全文
posted @ 2021-01-30 16:42 土豆面包
阅读(122)
评论(0)
推荐(0)
2021年1月29日
机器学习-特征抽取
摘要: 特征工程 特征抽取 文本特征提取-CountVectorizer 作用:对文本数据进行特征值化 sklearn.feature_extraction.text.CountVectorizer(stop_words=[]) 返回词频矩阵 CountVectorizer.fit_transform(X)
阅读全文
posted @ 2021-01-29 20:40 土豆面包
阅读(331)
评论(0)
推荐(0)
2021年1月28日
机器学习sklearn和字典特征抽取
摘要: sklean数据集 sklearn.datasets 加载获取流行数据集 datasets.load_*() 获取小规模数据集,数据包含在datasets里 datasets.fetch_*(data_home=None) 获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表
阅读全文
posted @ 2021-01-28 19:21 土豆面包
阅读(153)
评论(0)
推荐(0)
2021年1月27日
机器学习第一讲
摘要: 有监督学习 含义:数据集中的样本带有标签,有明确目标 回归和分类 回归模型:线性回归、岭回归、LASSO和回归样条等 分类模型:逻辑回归、K近邻、决策树、支持向量机等 应用场景 垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。 无监督学习( unsupervised learni
阅读全文
posted @ 2021-01-27 19:39 土豆面包
阅读(74)
评论(0)
推荐(0)
2021年1月23日
spark统计每个省份广告点击量top3
摘要: 一、原始数据 agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔。 数据量:5000条 119kb 二、任务目标 统计出每一个省份每个广告被点击数量排行的 Top3 三、思路整理 1.获取原始数据:时间戳、省份、城市、用户、广告编号 2.将原始数据转换为((省份,广告),1)的
阅读全文
posted @ 2021-01-23 23:25 土豆面包
阅读(1406)
评论(0)
推荐(0)
2021年1月22日
spark统计单位时间内访问量
摘要: 一、文件截图 处理数据量:804kb 二、流程分析 根据分割符获取时间,再利用分组统计单位时间内的访问量,控制台输出(时间,访问量)形式 三、代码 package rdd.operator.transform import java.text.SimpleDateFormat import java
阅读全文
posted @ 2021-01-22 19:45 土豆面包
阅读(385)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
16
下一页
公告