2019 年 10月随笔档案 - 熊猫blue

latent dirichlet allocation

摘要：一、Dirichlet-Multinomial共轭二、LDA=PLSA(Probabilistic Latent Semantic Analysis)+bayes 三、训练方法有gibbs sampling（吉布斯采样）和variation inference-EM算法（变分推断-EM算法）四、阅读全文

posted @ 2019-10-26 21:20 熊猫blue 阅读(402) 评论(0) 推荐(0)

TF-IDF、CountVectorizer

只有注册用户登录后才能阅读该文。

posted @ 2019-10-26 17:48 熊猫blue 阅读(0) 评论(0) 推荐(0)

re

摘要：python中的re库用于正则化，相当于一个过滤器，可以过滤掉不需要的字符，得到自己想要的。运行结果是：其中，\u4e00-\u9fa5表示匹配中文字符，\u4e00是在编码中中文字符开始的值，\u9fa5是中文字符结束的值。 jieba.posseg.cut(text) 可以对段落进行词的划分阅读全文

posted @ 2019-10-26 11:17 熊猫blue 阅读(404) 评论(0) 推荐(0)

常用的中文停用词

摘要：中文停用词，可以参考这个下载来创建适合自己的停用词阅读全文

posted @ 2019-10-24 14:31 熊猫blue 阅读(2621) 评论(0) 推荐(1)

jieba库对中文文本进行切割 python

摘要：jieba是中文文本用于分词的库，有3种模式：精确模式、全模式（所有可能的分割）、搜索引擎模式（在精确模式基础上再进行分割）具体参考PYPI 注：1.txt 得到的分词结果，统计次数的前5个答案如下，可以看出，这个中文文本分割只是简单分割，有一定的缺点：不能根据语义进行分割，文本的意思是大枣不好吃阅读全文

posted @ 2019-10-24 14:08 熊猫blue 阅读(2169) 评论(0) 推荐(0)

判断素数（质数）

摘要：import math def isPrime(num): if num==5 or num==7: return True elif num%5==0 and num%7==0: return False else: for n in range(3,int(math.sqrt(num))+1): ... 阅读全文

posted @ 2019-10-21 20:54 熊猫blue 阅读(155) 评论(0) 推荐(0)

sklearn

摘要：sklearn #划分训练集和测试集 #from sklearn import train_test_split #py2 from sklearn import sklearn.model_selection #py3 train_X,test_X,train_y,test_y = train_t 阅读全文

posted @ 2019-10-20 18:36 熊猫blue 阅读(157) 评论(0) 推荐(0)

利用sklearn对数据预处理：标准化，归一化，正则化

摘要：一、标准化Standardization（z-score方法）：利用公式：( x-mean(x) ) / std(x) 对具有S相同属性的数据（即一列）做标准化处理，使数据服从零均值标准差的高斯分布。这种方法一般要求原数据的分布近似高斯分布。涉及距离度量、协方差计算时可以应用这种方法。将有量纲数阅读全文

posted @ 2019-10-14 21:11 熊猫blue 阅读(2770) 评论(0) 推荐(1)

7-3 Pop Sequence (25 分)

摘要：Given a stack which can keep M numbers at most. Push N numbers in the order of 1, 2, 3, ..., N and pop randomly. You are supposed to tell if a given s 阅读全文

posted @ 2019-10-13 15:39 熊猫blue 阅读(399) 评论(0) 推荐(0)

利用python获取股票数据

只有注册用户登录后才能阅读该文。

posted @ 2019-10-08 13:15 熊猫blue 阅读(187) 评论(0) 推荐(0)

使用FP-growth算法来高效发现频繁项集（python2）

摘要：搜索引擎推荐问题：通过查看互联网上的用词来找出经常在一块出现的词对。 FP-growth是一种高效发现频繁集的方法。它只需要对数据库进行两次扫描，第一遍扫描是对所有元素项的出现次数进行计数，统计出现的频率，第二遍扫描只考虑那些频繁元素。适用数据类型：标称型数据优点：一般快于Apriori 算法介阅读全文

posted @ 2019-10-07 17:26 熊猫blue 阅读(758) 评论(0) 推荐(0)

使用Apriori算法进行关联分析（python2）

摘要：summary: 关联分析是用于发现大数据集中元素间有趣关系的一个工具集，可以采用两种方式来量化这些有趣的关系。第一种方式是频繁项集，它会给出经常出现在一起的元素项；第二种方式是关联规则，每条关联规则意味着元素项之间“如果……那么”的关系。发现元素项间不同的组合是个十分耗时的任务，不可避免需要大量阅读全文

posted @ 2019-10-07 07:41 熊猫blue 阅读(1147) 评论(0) 推荐(0)

python的集合运算和set相关操作

摘要：python的集合运算交: x&y 并: x|y 差: x-y 对称差集：x^y 判断两个集合是否相交：x.isdisjoint(y) 若相交则返回False 判断包含和被包含的关系： y0.issubset(y) ; y.issuperset(y0) 集合的操作： x.add(obj) #往集合阅读全文

posted @ 2019-10-07 06:10 熊猫blue 阅读(2557) 评论(0) 推荐(0)

熊猫blue

10 2019 档案

公告