10 2019 档案
摘要:一、Dirichlet-Multinomial共轭 二、LDA=PLSA(Probabilistic Latent Semantic Analysis)+bayes 三、训练方法有gibbs sampling(吉布斯采样)和variation inference-EM算法(变分推断-EM算法) 四、
阅读全文
摘要:python中的re库用于正则化,相当于一个过滤器,可以过滤掉不需要的字符,得到自己想要的。 运行结果是: 其中,\u4e00-\u9fa5表示匹配中文字符,\u4e00是在编码中中文字符开始的值,\u9fa5是中文字符结束的值。 jieba.posseg.cut(text) 可以对段落进行词的划分
阅读全文
摘要:jieba是中文文本用于分词的库,有3种模式:精确模式、全模式(所有可能的分割)、搜索引擎模式(在精确模式基础上再进行分割) 具体参考PYPI 注:1.txt 得到的分词结果,统计次数的前5个答案如下,可以看出,这个中文文本分割只是简单分割,有一定的缺点:不能根据语义进行分割,文本的意思是大枣不好吃
阅读全文
摘要:import math def isPrime(num): if num==5 or num==7: return True elif num%5==0 and num%7==0: return False else: for n in range(3,int(math.sqrt(num))+1): ...
阅读全文
摘要:sklearn #划分训练集和测试集 #from sklearn import train_test_split #py2 from sklearn import sklearn.model_selection #py3 train_X,test_X,train_y,test_y = train_t
阅读全文
摘要:一、标准化Standardization(z-score方法): 利用公式:( x-mean(x) ) / std(x) 对具有S相同属性的数据(即一列)做标准化处理,使数据服从零均值标准差的高斯分布。这种方法一般要求原数据的分布近似高斯分布。 涉及距离度量、协方差计算时可以应用这种方法。将有量纲数
阅读全文
摘要:Given a stack which can keep M numbers at most. Push N numbers in the order of 1, 2, 3, ..., N and pop randomly. You are supposed to tell if a given s
阅读全文
摘要:搜索引擎推荐问题:通过查看互联网上的用词来找出经常在一块出现的词对。 FP-growth是一种高效发现频繁集的方法。它只需要对数据库进行两次扫描,第一遍扫描是对所有元素项的出现次数进行计数,统计出现的频率,第二遍扫描只考虑那些频繁元素。 适用数据类型:标称型数据 优点:一般快于Apriori 算法介
阅读全文
摘要:summary: 关联分析是用于发现大数据集中元素间有趣关系的一个工具集,可以采用两种方式来量化这些有趣的关系。第一种方式是频繁项集,它会给出经常出现在一起的元素项;第二种方式是关联规则,每条关联规则意味着元素项之间“如果……那么”的关系。 发现元素项间不同的组合是个十分耗时的任务,不可避免需要大量
阅读全文
摘要:python的集合运算 交: x&y 并: x|y 差: x-y 对称差集:x^y 判断两个集合是否相交:x.isdisjoint(y) 若相交则返回False 判断包含和被包含的关系: y0.issubset(y) ; y.issuperset(y0) 集合的操作: x.add(obj) #往集合
阅读全文

浙公网安备 33010602011771号