随笔分类 -  项目实战

摘要:## Memory Reducer # :df pandas dataframe to reduce size # type: pd.DataFrame() # :verbose # type: bool def reduce_mem_usage(df, verbose=True): numeric 阅读全文
posted @ 2020-06-08 10:39 USTC丶ZCC 阅读(383) 评论(0) 推荐(0)
摘要:无论是平时的工作还是比赛,进行测试的时候一定要把随机性控制住,使用seed_everything的函数基本可以控制住常见的数据挖掘过程中的随机性了,如果涉及到tensorflow、keras或pytorch,还需要针对器进行额外的随机性控制。 import os import random def 阅读全文
posted @ 2020-05-25 10:06 USTC丶ZCC 阅读(661) 评论(0) 推荐(0)
摘要:1.数据竞赛流程 数据分析主要目的是分析数据原有的分布和内容; 特征工程目的是从数据中抽取出有效的特征; 模型训练与验证部分包括数据划分的方法以及数据训练的方法; 模型融合参考我的另一篇介绍模型融合的博客。 1.1.数据分析 在拿到数据之后,首先要做的就是要数据分析(Exploratory Data 阅读全文
posted @ 2020-05-13 22:56 USTC丶ZCC 阅读(471) 评论(0) 推荐(0)
摘要:赛题目标:通过用户历史订单数据,预测用户下一次购买的商品。 赛题数据:数据保存为四个文件中,训练数据(Antai_AE_round1_train_20190626.csv)、测试数据(Antai_AE_round1_test_20190626.csv)、商品信息(Antai_AE_round1_it 阅读全文
posted @ 2019-08-04 10:08 USTC丶ZCC 阅读(524) 评论(0) 推荐(1)
摘要:IRIS数据集介绍 IRIS数据集(鸢尾花数据集),是一个经典的机器学习数据集,适合作为多分类问题的测试数据,它的下载地址为:http://archive.ics.uci.edu/ml/machine-learning-databases/iris/。 IRIS数据集是用来给鸢尾花做分类的数据集,一 阅读全文
posted @ 2019-05-29 21:04 USTC丶ZCC 阅读(7644) 评论(0) 推荐(0)
摘要:比赛简介: 任务1:推荐最佳交通方式 任务描述:给定用户的一些信息,预测用户使用何种最佳交通方式由O(起点)到D(终点) 数据描述: profiles.csv: 属性pid:用户的ID; 属性p0~p65:用户的个人信息(如身高,年龄,职业等) 训练集(2018.10.1~2018.11.30两个月 阅读全文
posted @ 2019-05-10 14:55 USTC丶ZCC 阅读(504) 评论(1) 推荐(0)
摘要:import pandas as pd df_train,df_test = pd.read_csv("F:/Python CODE/Kaggle_Titanic/train.csv"),pd.read_csv("F:/Python CODE/Kaggle_Titanic/test.csv") im 阅读全文
posted @ 2018-11-26 10:05 USTC丶ZCC 阅读(530) 评论(0) 推荐(0)
摘要:#Iris花数据集分析 print(__doc__) #输出文件开头注释的内容 import matplotlib.pyplot as plt # 导入matplotlib画图 from mpl_toolkits.mplot3d import Axes3D # 导入mpl_toolkits画3D图像 阅读全文
posted @ 2018-11-19 11:30 USTC丶ZCC 阅读(530) 评论(0) 推荐(0)