项目实战 - 随笔分类 - USTC丶ZCC

pandas内存优化函数

摘要：## Memory Reducer # :df pandas dataframe to reduce size # type: pd.DataFrame() # :verbose # type: bool def reduce_mem_usage(df, verbose=True): numeric 阅读全文

posted @ 2020-06-08 10:39 USTC丶ZCC 阅读(383) 评论(0) 推荐(0)

随机性的控制

摘要：无论是平时的工作还是比赛，进行测试的时候一定要把随机性控制住，使用seed_everything的函数基本可以控制住常见的数据挖掘过程中的随机性了，如果涉及到tensorflow、keras或pytorch，还需要针对器进行额外的随机性控制。 import os import random def 阅读全文

posted @ 2020-05-25 10:06 USTC丶ZCC 阅读(661) 评论(0) 推荐(0)

数据竞赛总结

摘要：1.数据竞赛流程数据分析主要目的是分析数据原有的分布和内容；特征工程目的是从数据中抽取出有效的特征；模型训练与验证部分包括数据划分的方法以及数据训练的方法；模型融合参考我的另一篇介绍模型融合的博客。 1.1.数据分析在拿到数据之后，首先要做的就是要数据分析(Exploratory Data 阅读全文

posted @ 2020-05-13 22:56 USTC丶ZCC 阅读(471) 评论(0) 推荐(0)

天池——安泰杯

摘要：赛题目标：通过用户历史订单数据，预测用户下一次购买的商品。赛题数据：数据保存为四个文件中，训练数据(Antai_AE_round1_train_20190626.csv)、测试数据(Antai_AE_round1_test_20190626.csv)、商品信息(Antai_AE_round1_it 阅读全文

posted @ 2019-08-04 10:08 USTC丶ZCC 阅读(524) 评论(0) 推荐(1)

神经网络(NN)实现多分类-----Keras实现

摘要：IRIS数据集介绍 IRIS数据集（鸢尾花数据集），是一个经典的机器学习数据集，适合作为多分类问题的测试数据，它的下载地址为：http://archive.ics.uci.edu/ml/machine-learning-databases/iris/。 IRIS数据集是用来给鸢尾花做分类的数据集，一阅读全文

posted @ 2019-05-29 21:04 USTC丶ZCC 阅读(7644) 评论(0) 推荐(0)

kdd cup 2019

摘要：比赛简介：任务1：推荐最佳交通方式任务描述：给定用户的一些信息，预测用户使用何种最佳交通方式由O(起点)到D(终点）数据描述： profiles.csv：属性pid:用户的ID；属性p0~p65:用户的个人信息（如身高，年龄，职业等）训练集(2018.10.1~2018.11.30两个月阅读全文

posted @ 2019-05-10 14:55 USTC丶ZCC 阅读(504) 评论(1) 推荐(0)

泰坦尼克号项目

摘要：import pandas as pd df_train,df_test = pd.read_csv("F:/Python CODE/Kaggle_Titanic/train.csv"),pd.read_csv("F:/Python CODE/Kaggle_Titanic/test.csv") im 阅读全文

posted @ 2018-11-26 10:05 USTC丶ZCC 阅读(530) 评论(0) 推荐(0)

机器学习几个基础实战例子

摘要：#Iris花数据集分析 print(__doc__) #输出文件开头注释的内容 import matplotlib.pyplot as plt # 导入matplotlib画图 from mpl_toolkits.mplot3d import Axes3D # 导入mpl_toolkits画3D图像阅读全文

posted @ 2018-11-19 11:30 USTC丶ZCC 阅读(530) 评论(0) 推荐(0)

朱超超

随笔分类 - 项目实战

公告