happygril3

结巴-关键词提取

摘要：无监督学习算法:先抽取出候选词，然后对各个候选词进行打分，然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同，有不同的算法，例如TF-IDF，TextRank等算法from jieba import analyse'''sentence：待提取关键词的文本topK：返回关键词的数量阅读全文

posted @ 2018-11-02 18:31 happygril3 阅读(453) 评论(0) 推荐(0)

停用词+自定义词

摘要： import jieba.posseg#方式一：#加载停用词表stop = [line.strip() for line in open('stop.txt','r',encoding='utf-8').readlines() ]#导入自定义词典:词语、词频（可省略）、词性（可省略）jieba.lo 阅读全文

posted @ 2018-11-02 18:28 happygril3 阅读(385) 评论(0) 推荐(0)

结巴分词

摘要：精确模式：试图将句子最精确地切开，适合文本分析；cut_all=False全模式：把句子中所有可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；cut_all=True搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。jieba.cut_for_search 阅读全文

posted @ 2018-11-02 18:18 happygril3 阅读(209) 评论(0) 推荐(0)

分类评价指标

摘要：预测 1 0 实际 1 TP FN 0 FP TN 真正类率(True Positive Rate , TPR)【灵敏度(sensitivity)】：正样本预测结果数/正样本实际数，TPR = TP /(TP + FN) 假负类率(False Negative Rate , FNR) ：即被预测为负阅读全文

posted @ 2018-10-29 17:27 happygril3 阅读(190) 评论(0) 推荐(0)

逻辑回归_1

摘要： sklearn.linear_model.LogisticRegression penalty=l2, # 惩罚项，L1作用是产生少量的特征，而其他特征都是0，常用于特征选择；L2作用是选择较多的特征，使他们都趋近于0。 dual=False, # 对偶方法（原始问题和对偶问题），用于求解线性多核（阅读全文

posted @ 2018-10-29 15:49 happygril3 阅读(154) 评论(0) 推荐(0)

正则化

摘要：监督学习可以看做最小化下面的目标函数： L1正则化和L2正则化可以看做是损失函数的惩罚项，对损失函数中的某些参数做一些限制第1项为经验风险，即模型f(x)关于训练数据集的平均损失；第2项为正则化项，去约束我们的模型更加简单（L1范数让W等于0，L2范数让W都接近于0，越小的参数说明模型越简单，阅读全文

posted @ 2018-10-29 15:02 happygril3 阅读(107) 评论(0) 推荐(0)

决策树

摘要：（1）建树 1. 选择属性 ID3算法用的是信息增益，C4.5算法用信息增益率；CART算法使用基尼系数 2. 选择属性的最优分割点 ID3算法：使用信息增益作为分裂的规则，信息增益越大，则选取该分裂规则。多分叉树缺点：归纳偏置问题： ID3算法会偏向于选择类别较多的属性另外输入变量必须是分类变阅读全文

posted @ 2018-10-26 11:42 happygril3 阅读(108) 评论(0) 推荐(0)

神经网络_2

摘要： 1. 左边蓝色的圆圈叫“输入层”，中间橙色的不管有多少层都叫“隐藏层”，右边绿色的是“输出层”。 2. 每个圆圈，都代表一个神经元，也叫节点(Node)。 3. 输出层可以有多个节点，多节点输出常常用于分类问题。 4. 理论证明，任何多层网络可以用三层网络近似地表示。 (2) 激活函数 1. Sig 阅读全文

posted @ 2018-10-26 10:36 happygril3 阅读(199) 评论(0) 推荐(0)

神经网络_1

摘要：梯度下降法(Gradient Descent)： 1.假设有一堆按一定规律分布的样本点，用直线拟合， 2.先随意画一条直线，分别计算每个样本点和直线上对应点的距离(误差)，求出所有点的误差之和，然后不断旋转和平移，直到误差最小时为止 3.在旋转平移过程中，当误差越来越小时，旋转或移动的量也跟着逐渐变阅读全文

posted @ 2018-10-26 10:15 happygril3 阅读(165) 评论(0) 推荐(0)

特征工程

摘要： sklearn.preprocessing 1. 数据预处理无量纲化将特征值转化至标准正态分布 from sklearn.preprocessing import StandardScaler 无量纲化将特征值转化为【0,1】 from sklearn.preprocessing import 阅读全文

posted @ 2018-10-25 17:36 happygril3 阅读(149) 评论(0) 推荐(0)

导航

公告