随笔分类 - 项目实战
摘要:## Memory Reducer # :df pandas dataframe to reduce size # type: pd.DataFrame() # :verbose # type: bool def reduce_mem_usage(df, verbose=True): numeric
阅读全文
摘要:无论是平时的工作还是比赛,进行测试的时候一定要把随机性控制住,使用seed_everything的函数基本可以控制住常见的数据挖掘过程中的随机性了,如果涉及到tensorflow、keras或pytorch,还需要针对器进行额外的随机性控制。 import os import random def
阅读全文
摘要:1.数据竞赛流程 数据分析主要目的是分析数据原有的分布和内容; 特征工程目的是从数据中抽取出有效的特征; 模型训练与验证部分包括数据划分的方法以及数据训练的方法; 模型融合参考我的另一篇介绍模型融合的博客。 1.1.数据分析 在拿到数据之后,首先要做的就是要数据分析(Exploratory Data
阅读全文
摘要:赛题目标:通过用户历史订单数据,预测用户下一次购买的商品。 赛题数据:数据保存为四个文件中,训练数据(Antai_AE_round1_train_20190626.csv)、测试数据(Antai_AE_round1_test_20190626.csv)、商品信息(Antai_AE_round1_it
阅读全文
摘要:IRIS数据集介绍 IRIS数据集(鸢尾花数据集),是一个经典的机器学习数据集,适合作为多分类问题的测试数据,它的下载地址为:http://archive.ics.uci.edu/ml/machine-learning-databases/iris/。 IRIS数据集是用来给鸢尾花做分类的数据集,一
阅读全文
摘要:比赛简介: 任务1:推荐最佳交通方式 任务描述:给定用户的一些信息,预测用户使用何种最佳交通方式由O(起点)到D(终点) 数据描述: profiles.csv: 属性pid:用户的ID; 属性p0~p65:用户的个人信息(如身高,年龄,职业等) 训练集(2018.10.1~2018.11.30两个月
阅读全文
摘要:import pandas as pd df_train,df_test = pd.read_csv("F:/Python CODE/Kaggle_Titanic/train.csv"),pd.read_csv("F:/Python CODE/Kaggle_Titanic/test.csv") im
阅读全文
摘要:#Iris花数据集分析 print(__doc__) #输出文件开头注释的内容 import matplotlib.pyplot as plt # 导入matplotlib画图 from mpl_toolkits.mplot3d import Axes3D # 导入mpl_toolkits画3D图像
阅读全文

浙公网安备 33010602011771号