随笔分类 - 机器学习
摘要:特征决定了最优效果的上限,算法与模型只是让效果更逼近这个上限,所以特征工程与选择什么样的特征很重要! 以下是一些特征筛选与降维技巧 # -*- coding:utf-8 -*- import scipy as sc import libsvm_file_process as data_process
阅读全文
摘要:根据语料计算词向量,两种模式 CBOW 和 skip-gram # -*- coding:utf-8 -*- import os from gensim.models import word2vec class MySentences(object): def __init__(self, dirn
阅读全文
摘要:1、线性回归、逻辑回归 特征归一化(标准化)、正则化防止过拟合、激活函数的选择、迭代次数 2、KNN K值的选择、距离的定义、决策的权重(不同距离的点赋予不同的权重) 3、神经网络 特征归一化(标准化)、层数、每层的神经元个数、学习速率、批量 batch_size、激活函数、初始化参数,优化器的选择
阅读全文
摘要:learnrate 太大容易跑飞,设置激活函数 可以一定程度上增加learnrate,不跑飞 self.saver = tf.train.Saver() 和 self.init_variable = tf.global_variables_initializer() self.sess.run(se
阅读全文
摘要:1、包的导入 不建议采用如下写法,这样做会破坏命名空间: 应该这样写: 2、numpy 关于赋值 普通的赋值,如b=a,这时,a和b是一个对象,改变了a也就改变了b,并不是将a的值复制一份,赋值给b; 这样做的好处是优化代码效率;numpy尽量避免复制 3、numpy修剪函数 clip 4、绘制散点
阅读全文
摘要:使用jieba库进行分词 安装jieba就不说了,自行百度! 将标题分词,并转为list 所有标题使用空格连接,方便后面做自然语言处理 将分词后的标题(使用空格分割的标题)放到一个list里面 统计词频 转化为词袋,这一步的输入是一系列的句子(词与词之间使用空格分开),构成的列表。得到的结果是句子中
阅读全文