TMatrix52 - 博客园

pandas.read_csv 参数 index_col=0

摘要： index_col : int or sequence or False, default None 用作行索引的列编号或者列名，如果给定一个序列则有多个行索引。如果文件不规则，行尾有分隔符，则可以设定index_col=False 来使得pandas不使用第一列作为行索引。如： train_d 阅读全文

posted @ 2017-10-23 17:02 TMatrix52 阅读(3221) 评论(0) 推荐(0)

LDA模型应用实践-希拉里邮件主题分类

摘要： #coding=utf8 import numpy as np import pandas as pd import re from gensim import corpora, models, similarities import gensim from nltk.corpus import stopwords df = pd.read_csv("./input/HillaryEmails... 阅读全文

posted @ 2017-10-18 20:18 TMatrix52 阅读(393) 评论(0) 推荐(0)

xgboost 简单测试

摘要： #coding=utf8 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction import DictVectorizer from xgboost import XGBClassifier titanic = pd.read_csv('.... 阅读全文

posted @ 2017-10-18 14:33 TMatrix52 阅读(446) 评论(0) 推荐(0)

os.path.join 用法

摘要： level1_list = [os.path.join(base_path, f) for f in listdir(base_path) if os.path.isdir(os.path.join(base_path, f))] 结合路径：原来的目录层级：c:/a/b/c/test.py pri 阅读全文

posted @ 2017-10-17 19:53 TMatrix52 阅读(7284) 评论(0) 推荐(1)

word2vec 小测试

摘要： Bag-of-words Model Previous state-of-the-art document representations were based on the bag-of-words model, which represent input documents as a fixed 阅读全文

posted @ 2017-10-17 18:43 TMatrix52 阅读(257) 评论(0) 推荐(0)

jieba分词

摘要：链接：http://blog.csdn.net/Cincinnati_De/article/details/77859805 阅读全文

posted @ 2017-10-17 15:14 TMatrix52 阅读(102) 评论(0) 推荐(0)

关键词搜索

摘要：购物者依靠家得宝的产品权限来查找和购买最新的产品，并及时解决家庭装修需求。从安装新的吊扇到改造整个厨房，只要点击鼠标或点击屏幕，客户就可以快速地找到正确的结果。速度，准确性和交付无摩擦客户体验至关重要在本次大赛中，Home Depot正在要求Kagglers通过开发可以准确预测搜索结果相关性的模型阅读全文

posted @ 2017-10-16 21:33 TMatrix52 阅读(338) 评论(0) 推荐(0)

chapter02 PCA主成分分析在手写数字识别分类的应用

摘要：结果：分析：虽然损失了%3的预测准确性，但是相比于原来的64维特征，使用PCA压缩并降低了68.75%的维度，能改节省大量的训练时间，在保持数据多样性的基础上，规避掉了大量特征冗余和噪声。阅读全文

posted @ 2017-10-12 13:02 TMatrix52 阅读(507) 评论(0) 推荐(0)

chapter02 回归模型在''美国波士顿房价预测''问题中实践

摘要：类似：阅读全文

posted @ 2017-10-12 11:10 TMatrix52 阅读(404) 评论(0) 推荐(1)

chapter02 三种决策树模型：单一决策树、随机森林、GBDT（梯度提升决策树）预测泰坦尼克号乘客生还情况

摘要：单一决策树结果：随机森林，GDBT结果：预测性能：　GDBT最佳，随机森林次之一般，工业界为了追求更加强劲的预测性能，使用随机森林作为基线系统（Baseline System）。阅读全文

posted @ 2017-10-11 21:23 TMatrix52 阅读(573) 评论(0) 推荐(0)

Matrix

公告

导航