10 2019 档案

摘要:一、Dirichlet-Multinomial共轭 二、LDA=PLSA(Probabilistic Latent Semantic Analysis)+bayes 三、训练方法有gibbs sampling(吉布斯采样)和variation inference-EM算法(变分推断-EM算法) 四、 阅读全文
posted @ 2019-10-26 21:20 熊猫blue 阅读(402) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2019-10-26 17:48 熊猫blue 阅读(0) 评论(0) 推荐(0)
摘要:python中的re库用于正则化,相当于一个过滤器,可以过滤掉不需要的字符,得到自己想要的。 运行结果是: 其中,\u4e00-\u9fa5表示匹配中文字符,\u4e00是在编码中中文字符开始的值,\u9fa5是中文字符结束的值。 jieba.posseg.cut(text) 可以对段落进行词的划分 阅读全文
posted @ 2019-10-26 11:17 熊猫blue 阅读(404) 评论(0) 推荐(0)
摘要:中文停用词,可以参考这个下载来创建适合自己的停用词 阅读全文
posted @ 2019-10-24 14:31 熊猫blue 阅读(2621) 评论(0) 推荐(1)
摘要:jieba是中文文本用于分词的库,有3种模式:精确模式、全模式(所有可能的分割)、搜索引擎模式(在精确模式基础上再进行分割) 具体参考PYPI 注:1.txt 得到的分词结果,统计次数的前5个答案如下,可以看出,这个中文文本分割只是简单分割,有一定的缺点:不能根据语义进行分割,文本的意思是大枣不好吃 阅读全文
posted @ 2019-10-24 14:08 熊猫blue 阅读(2169) 评论(0) 推荐(0)
摘要:import math def isPrime(num): if num==5 or num==7: return True elif num%5==0 and num%7==0: return False else: for n in range(3,int(math.sqrt(num))+1): ... 阅读全文
posted @ 2019-10-21 20:54 熊猫blue 阅读(155) 评论(0) 推荐(0)
摘要:sklearn #划分训练集和测试集 #from sklearn import train_test_split #py2 from sklearn import sklearn.model_selection #py3 train_X,test_X,train_y,test_y = train_t 阅读全文
posted @ 2019-10-20 18:36 熊猫blue 阅读(157) 评论(0) 推荐(0)
摘要:一、标准化Standardization(z-score方法): 利用公式:( x-mean(x) ) / std(x) 对具有S相同属性的数据(即一列)做标准化处理,使数据服从零均值标准差的高斯分布。这种方法一般要求原数据的分布近似高斯分布。 涉及距离度量、协方差计算时可以应用这种方法。将有量纲数 阅读全文
posted @ 2019-10-14 21:11 熊猫blue 阅读(2770) 评论(0) 推荐(1)
摘要:Given a stack which can keep M numbers at most. Push N numbers in the order of 1, 2, 3, ..., N and pop randomly. You are supposed to tell if a given s 阅读全文
posted @ 2019-10-13 15:39 熊猫blue 阅读(399) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2019-10-08 13:15 熊猫blue 阅读(187) 评论(0) 推荐(0)
摘要:搜索引擎推荐问题:通过查看互联网上的用词来找出经常在一块出现的词对。 FP-growth是一种高效发现频繁集的方法。它只需要对数据库进行两次扫描,第一遍扫描是对所有元素项的出现次数进行计数,统计出现的频率,第二遍扫描只考虑那些频繁元素。 适用数据类型:标称型数据 优点:一般快于Apriori 算法介 阅读全文
posted @ 2019-10-07 17:26 熊猫blue 阅读(758) 评论(0) 推荐(0)
摘要:summary: 关联分析是用于发现大数据集中元素间有趣关系的一个工具集,可以采用两种方式来量化这些有趣的关系。第一种方式是频繁项集,它会给出经常出现在一起的元素项;第二种方式是关联规则,每条关联规则意味着元素项之间“如果……那么”的关系。 发现元素项间不同的组合是个十分耗时的任务,不可避免需要大量 阅读全文
posted @ 2019-10-07 07:41 熊猫blue 阅读(1147) 评论(0) 推荐(0)
摘要:python的集合运算 交: x&y 并: x|y 差: x-y 对称差集:x^y 判断两个集合是否相交:x.isdisjoint(y) 若相交则返回False 判断包含和被包含的关系: y0.issubset(y) ; y.issuperset(y0) 集合的操作: x.add(obj) #往集合 阅读全文
posted @ 2019-10-07 06:10 熊猫blue 阅读(2557) 评论(0) 推荐(0)