摘要: 需求:对18只亚洲球队进行聚类 数据集:包含四个字段(国家,2019国际排名,2018世界杯排名,2015亚洲杯排名) 完整代码: # coding: utf-8 import pandas as pd # 数据预处理 from sklearn import preprocessing # 引入KM 阅读全文
posted @ 2020-10-30 10:32 mingke07 阅读(249) 评论(0) 推荐(0)
摘要: 如果你是某新闻单位工作人员(这里假设source=新华社),为了防止其他媒体抄袭你的文章,你打算做一个抄袭自动检测分析的工具1.定义可能抄袭的文章来源2.与原文对比定位抄袭的地方原始数据:sqlResult.csv,共计89611篇从数据库导出的文章,字段包括:id, author, source, 阅读全文
posted @ 2020-10-29 16:32 mingke07 阅读(270) 评论(0) 推荐(0)
摘要: 背景知识:聚类是一种无监督学习 需求:对商场顾客进行聚类(打标签) 用到的核心算法:KMeans 完整代码: # coding: utf-8 from sklearn.cluster import KMeans from sklearn import preprocessing import pan 阅读全文
posted @ 2020-10-28 20:05 mingke07 阅读(605) 评论(0) 推荐(0)
摘要: 需求:对糖尿病数据集进行回归分析,以便对未知数据进行预测。 数据集Diabetes:1.包含442个患者的10个生理特征 2.10个特征变量数据均已进行规范化 数据集描述: # 加载数据集 diabetes = datasets.load_diabetes() # 显示其描述 print("【DES 阅读全文
posted @ 2020-10-14 11:55 mingke07 阅读(6873) 评论(1) 推荐(0)
摘要: 需求分析:对徐峥有关的电影进行分析,得到演员的频繁项集和关联关系。 数据源:前一篇爬虫在豆瓣爬取的数据。 完整代码: import pandas as pd from mlxtend.frequent_patterns import apriori from mlxtend.frequent_pat 阅读全文
posted @ 2020-10-13 11:39 mingke07 阅读(384) 评论(0) 推荐(0)
摘要: 背景描述:在豆瓣网爬取导演的电影作品,为后续演员之间的关联关系分析提供数据。 目标导演:徐峥 完整代码: from lxml import etree import time from selenium import webdriver import pandas as pd """ 这里我们需要使 阅读全文
posted @ 2020-10-13 10:14 mingke07 阅读(906) 评论(0) 推荐(0)
摘要: 场景:当用户给自己喜欢的电影打标签时,我们可以通过关联规则进行标签推荐,从而提升用户体验。 数据集:MovieLens 下载地址:https://www.kaggle.com/jneupane12/movielens/download 主要使用的文件:movies.csv 格式:movieId ti 阅读全文
posted @ 2020-10-12 19:39 mingke07 阅读(1194) 评论(1) 推荐(0)
摘要: 需求:对超市购物小票信息进行分析,得到商品的关联关系,从而向用户进行推荐,提升营业额。 数据:BreadBasket_DMS.csv 所用算法:apriori 完整代码: import pandas as pd import time data = pd.read_csv('./BreadBaske 阅读全文
posted @ 2020-10-12 19:11 mingke07 阅读(304) 评论(0) 推荐(0)
摘要: 数据采集之数据源: (1)开放数据源 (2)爬虫爬取 (3)传感器 (4)日志采集 开放数据源: 单位 数据源 网址 美国人口调查局 提供人口信息,地区分布和教育情况等美国公民相关的数据 http://www.census.gov/data.html 欧盟 欧盟开放数据平台,提供欧盟各机构的大量数据 阅读全文
posted @ 2020-09-23 16:15 mingke07 阅读(380) 评论(0) 推荐(0)
摘要: 机器学习的7个步骤: (1)收集数据 (2)准备数据:数据预处理 (3)选择模型 (4)训练 (5)评估 (6)超参数调整 (7)预测 机器学习10大经典模型: 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART 聚类算法:K-Means,EM 关联 阅读全文
posted @ 2020-09-23 15:00 mingke07 阅读(125) 评论(0) 推荐(0)