2017年10月23日

摘要: index_col : int or sequence or False, default None 用作行索引的列编号或者列名,如果给定一个序列则有多个行索引。 如果文件不规则,行尾有分隔符,则可以设定index_col=False 来使得pandas不使用第一列作为行索引。 如: train_d 阅读全文
posted @ 2017-10-23 17:02 TMatrix52 阅读(3219) 评论(0) 推荐(0)

2017年10月18日

摘要: #coding=utf8 import numpy as np import pandas as pd import re from gensim import corpora, models, similarities import gensim from nltk.corpus import stopwords df = pd.read_csv("./input/HillaryEmails... 阅读全文
posted @ 2017-10-18 20:18 TMatrix52 阅读(393) 评论(0) 推荐(0)
摘要: #coding=utf8 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction import DictVectorizer from xgboost import XGBClassifier titanic = pd.read_csv('.... 阅读全文
posted @ 2017-10-18 14:33 TMatrix52 阅读(445) 评论(0) 推荐(0)

2017年10月17日

摘要: level1_list = [os.path.join(base_path, f) for f in listdir(base_path) if os.path.isdir(os.path.join(base_path, f))] 结合路径: 原来的目录层级:c:/a/b/c/test.py pri 阅读全文
posted @ 2017-10-17 19:53 TMatrix52 阅读(7284) 评论(0) 推荐(1)
摘要: Bag-of-words Model Previous state-of-the-art document representations were based on the bag-of-words model, which represent input documents as a fixed 阅读全文
posted @ 2017-10-17 18:43 TMatrix52 阅读(254) 评论(0) 推荐(0)
摘要: 链接:http://blog.csdn.net/Cincinnati_De/article/details/77859805 阅读全文
posted @ 2017-10-17 15:14 TMatrix52 阅读(101) 评论(0) 推荐(0)

2017年10月16日

摘要: 购物者依靠家得宝的产品权限来查找和购买最新的产品,并及时解决家庭装修需求。从安装新的吊扇到改造整个厨房,只要点击鼠标或点击屏幕,客户就可以快速地找到正确的结果。速度,准确性和交付无摩擦客户体验至关重要 在本次大赛中,Home Depot正在要求Kagglers通过开发可以准确预测搜索结果相关性的模型 阅读全文
posted @ 2017-10-16 21:33 TMatrix52 阅读(337) 评论(0) 推荐(0)

2017年10月12日

摘要: 结果: 分析:虽然损失了%3的预测准确性,但是相比于原来的64维特征,使用PCA压缩并降低了68.75%的维度,能改节省大量的训练时间,在保持数据多样性的基础上,规避掉了大量特征冗余和噪声。 阅读全文
posted @ 2017-10-12 13:02 TMatrix52 阅读(507) 评论(0) 推荐(0)
摘要: 类似: 阅读全文
posted @ 2017-10-12 11:10 TMatrix52 阅读(403) 评论(0) 推荐(1)

2017年10月11日

摘要: 单一决策树结果: 随机森林,GDBT结果: 预测性能: GDBT最佳,随机森林次之 一般,工业界为了追求更加强劲的预测性能,使用随机森林作为基线系统(Baseline System)。 阅读全文
posted @ 2017-10-11 21:23 TMatrix52 阅读(570) 评论(0) 推荐(0)

导航