1.训练词向量代码如下:#训练词语为向量表示def w2v_train(self): ques = self.cu.execute('select question from activity')#将所有问题内容作为预料训练一个w2v模型 da_all = [] for d in ques: da_ Read More
最近在分析知乎的‘问题’文本所属的话题,用python提取,实现了LSTM和LDA模型在这个方面的应用,但是效果不是很理想,一个是这些文本属于短文本,另外用来分析的文本本身包含多个领域的问题,并且数量较少,很有可能只有几条。所以最后得到的话题模型即使分了很多主题仍然在同一个主题会出现多种词汇。 尝试 Read More
由Alex Rodriguez和Alessandro Laio发表的《Clustering by fast search and find of density peaks》提出基于密度峰值聚类的算法,作者还给出了实验代码及案例数据,链接在这http://people.sissa.it/~laio/ Read More
#处理有问题的文件名file_name=os.listdir('./2018.5.3')#得到该路径下的所有文件字符串对象for temp in file_name: try: #if '.0_followers' in temp: if '.0.xls' in temp: new_name=tem Read More
'''一、最笨的办法了################################################################为了处理由于账号被封而没跑到的问题id进行以下两步:################################################# Read More