2018年11月2日

摘要: 无监督学习算法:先抽取出候选词,然后对各个候选词进行打分,然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同,有不同的算法,例如TF-IDF,TextRank等算法from jieba import analyse'''sentence: 待提取关键词的文本topK: 返回关键词的数量 阅读全文
posted @ 2018-11-02 18:31 happygril3 阅读(453) 评论(0) 推荐(0)
摘要: import jieba.posseg#方式一:#加载停用词表stop = [line.strip() for line in open('stop.txt','r',encoding='utf-8').readlines() ]#导入自定义词典:词语、词频(可省略)、词性(可省略)jieba.lo 阅读全文
posted @ 2018-11-02 18:28 happygril3 阅读(385) 评论(0) 推荐(0)
摘要: 精确模式:试图将句子最精确地切开,适合文本分析;cut_all=False全模式:把句子中所有可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;cut_all=True搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。jieba.cut_for_search 阅读全文
posted @ 2018-11-02 18:18 happygril3 阅读(209) 评论(0) 推荐(0)

2018年10月29日

摘要: 预测 1 0 实际 1 TP FN 0 FP TN 真正类率(True Positive Rate , TPR)【灵敏度(sensitivity)】:正样本预测结果数/正样本实际数,TPR = TP /(TP + FN) 假负类率(False Negative Rate , FNR) :即被预测为负 阅读全文
posted @ 2018-10-29 17:27 happygril3 阅读(190) 评论(0) 推荐(0)
摘要: sklearn.linear_model.LogisticRegression penalty=l2, # 惩罚项,L1作用是产生少量的特征,而其他特征都是0,常用于特征选择;L2作用是选择较多的特征,使他们都趋近于0。 dual=False, # 对偶方法(原始问题和对偶问题),用于求解线性多核( 阅读全文
posted @ 2018-10-29 15:49 happygril3 阅读(154) 评论(0) 推荐(0)
摘要: 监督学习可以看做最小化下面的目标函数: L1正则化和L2正则化可以看做是损失函数的惩罚项,对损失函数中的某些参数做一些限制 第1项为经验风险,即模型f(x)关于训练数据集的平均损失; 第2项为正则化项,去约束我们的模型更加简单 (L1范数让W等于0,L2范数让W都接近于0,越小的参数说明模型越简单, 阅读全文
posted @ 2018-10-29 15:02 happygril3 阅读(107) 评论(0) 推荐(0)

2018年10月26日

摘要: (1)建树 1. 选择属性 ID3算法用的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数 2. 选择属性的最优分割点 ID3算法:使用信息增益作为分裂的规则,信息增益越大,则选取该分裂规则。多分叉树 缺点:归纳偏置问题: ID3算法会偏向于选择类别较多的属性 另外输入变量必须是分类变 阅读全文
posted @ 2018-10-26 11:42 happygril3 阅读(108) 评论(0) 推荐(0)
摘要: 1. 左边蓝色的圆圈叫“输入层”,中间橙色的不管有多少层都叫“隐藏层”,右边绿色的是“输出层”。 2. 每个圆圈,都代表一个神经元,也叫节点(Node)。 3. 输出层可以有多个节点,多节点输出常常用于分类问题。 4. 理论证明,任何多层网络可以用三层网络近似地表示。 (2) 激活函数 1. Sig 阅读全文
posted @ 2018-10-26 10:36 happygril3 阅读(199) 评论(0) 推荐(0)
摘要: 梯度下降法(Gradient Descent): 1.假设有一堆按一定规律分布的样本点,用直线拟合, 2.先随意画一条直线,分别计算每个样本点和直线上对应点的距离(误差),求出所有点的误差之和,然后不断旋转和平移,直到误差最小时为止 3.在旋转平移过程中,当误差越来越小时,旋转或移动的量也跟着逐渐变 阅读全文
posted @ 2018-10-26 10:15 happygril3 阅读(165) 评论(0) 推荐(0)

2018年10月25日

摘要: sklearn.preprocessing 1. 数据预处理 无量纲化 将特征值转化至标准正态分布 from sklearn.preprocessing import StandardScaler 无量纲化 将特征值转化为【0,1】 from sklearn.preprocessing import 阅读全文
posted @ 2018-10-25 17:36 happygril3 阅读(149) 评论(0) 推荐(0)

导航