mingke07 - 博客园

2020年10月30日

摘要：需求：对18只亚洲球队进行聚类数据集：包含四个字段(国家,2019国际排名,2018世界杯排名,2015亚洲杯排名) 完整代码： # coding: utf-8 import pandas as pd # 数据预处理 from sklearn import preprocessing # 引入KM 阅读全文

posted @ 2020-10-30 10:32 mingke07 阅读(255) 评论(0) 推荐(0)

2020年10月29日

基于jieba分词的文本抄袭自动检测分析

摘要：如果你是某新闻单位工作人员（这里假设source=新华社），为了防止其他媒体抄袭你的文章，你打算做一个抄袭自动检测分析的工具1.定义可能抄袭的文章来源2.与原文对比定位抄袭的地方原始数据：sqlResult.csv，共计89611篇从数据库导出的文章，字段包括：id, author, source, 阅读全文

posted @ 2020-10-29 16:32 mingke07 阅读(276) 评论(0) 推荐(0)

2020年10月28日

基于KMeans对商场顾客进行聚类

摘要：背景知识：聚类是一种无监督学习需求：对商场顾客进行聚类(打标签) 用到的核心算法：KMeans 完整代码： # coding: utf-8 from sklearn.cluster import KMeans from sklearn import preprocessing import pan 阅读全文

posted @ 2020-10-28 20:05 mingke07 阅读(616) 评论(0) 推荐(0)

2020年10月14日

使用sklearn自带的糖尿病数据集，进行回归分析

摘要：需求：对糖尿病数据集进行回归分析，以便对未知数据进行预测。数据集Diabetes：1.包含442个患者的10个生理特征 2.10个特征变量数据均已进行规范化数据集描述： # 加载数据集 diabetes = datasets.load_diabetes() # 显示其描述 print("【DES 阅读全文

posted @ 2020-10-14 11:55 mingke07 阅读(6912) 评论(1) 推荐(0)

2020年10月13日

电影演员中的关联关系

摘要：需求分析：对徐峥有关的电影进行分析，得到演员的频繁项集和关联关系。数据源：前一篇爬虫在豆瓣爬取的数据。完整代码： import pandas as pd from mlxtend.frequent_patterns import apriori from mlxtend.frequent_pat 阅读全文

posted @ 2020-10-13 11:39 mingke07 阅读(388) 评论(0) 推荐(0)

基于python爬取豆瓣导演的电影数据

摘要：背景描述：在豆瓣网爬取导演的电影作品，为后续演员之间的关联关系分析提供数据。目标导演：徐峥完整代码： from lxml import etree import time from selenium import webdriver import pandas as pd """ 这里我们需要使阅读全文

posted @ 2020-10-13 10:14 mingke07 阅读(913) 评论(0) 推荐(0)

2020年10月12日

MovieLens 电影分类中的频繁项集和关联规则

摘要：场景：当用户给自己喜欢的电影打标签时，我们可以通过关联规则进行标签推荐，从而提升用户体验。数据集：MovieLens 下载地址：https://www.kaggle.com/jneupane12/movielens/download 主要使用的文件：movies.csv 格式：movieId ti 阅读全文

posted @ 2020-10-12 19:39 mingke07 阅读(1200) 评论(1) 推荐(0)

超市购物小票关联关系

摘要：需求：对超市购物小票信息进行分析，得到商品的关联关系，从而向用户进行推荐，提升营业额。数据：BreadBasket_DMS.csv 所用算法：apriori 完整代码： import pandas as pd import time data = pd.read_csv('./BreadBaske 阅读全文

posted @ 2020-10-12 19:11 mingke07 阅读(307) 评论(0) 推荐(0)

2020年9月23日

数据采集&数据源&Notebook平台

摘要：数据采集之数据源：（1）开放数据源（2）爬虫爬取（3）传感器（4）日志采集开放数据源：单位数据源网址美国人口调查局提供人口信息，地区分布和教育情况等美国公民相关的数据 http://www.census.gov/data.html 欧盟欧盟开放数据平台，提供欧盟各机构的大量数据阅读全文

posted @ 2020-09-23 16:15 mingke07 阅读(388) 评论(0) 推荐(0)

商业智能与推荐系统

摘要：机器学习的7个步骤：（1）收集数据（2）准备数据：数据预处理（3）选择模型（4）训练（5）评估（6）超参数调整（7）预测机器学习10大经典模型：分类算法：C4.5，朴素贝叶斯(Naive Bayes)，SVM，KNN，Adaboost，CART 聚类算法：K-Means，EM 关联阅读全文

posted @ 2020-09-23 15:00 mingke07 阅读(130) 评论(0) 推荐(0)

mingke486

酒要一口一口喝，路要一步一步走，步子迈得太大，容易扯着蛋。---让子弹飞

公告