上一页 1 2 3 4 5 6 7 8 ··· 10 下一页
摘要: Numpy数组创建 np.array(list/tuple) # 接收一切序列型对象,如list列表、tuple元组等 数组 (array) 是相同类型的元素 (element) 的集合所组成数据结构 (data structure)。 numpy 数组中的元素用的最多是「数值型」元素 数组常见属性 阅读全文
posted @ 2020-12-14 23:55 亚洲哈登 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 非格式化数据分析:语义结构分析-Gensim Gensim 是一个通过衡量词组(或更高级结构,如整句或文档)模式来挖掘文档语义结构的工具 通过检查词出现的频率。gensim读取一段语料,输出一个向量,表示文档中的一个词。 该向量表示可被用于训练一个“模型”。模型是从数据生成不同特征的算法集 下面主要 阅读全文
posted @ 2020-10-05 14:55 亚洲哈登 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 中文情感分析 - SnowNLP 情感分析(Sentiment analysis,SA),又称倾向性分析、意见抽取(Opinion extraction)、意见挖掘(Opinion mining)、情感挖掘(Sentiment mining)、主观分析(Subjectivity analysis) 阅读全文
posted @ 2020-10-05 14:09 亚洲哈登 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 词云-WordCloud 词云:对文本中出现的关键词按照出现频率通过改变字体字号颜色样式等方式集中显示 频率较高的“关键词”予以视觉上的突出,从而给关键字设定直观的级别,过滤掉大量的低效文本信息,使浏览者只要一眼扫过词云就可以领略文本的主旨 安装 WordCloud库 如系统未安装C++编译库,Wo 阅读全文
posted @ 2020-10-03 12:11 亚洲哈登 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 抽取文档关键词 抽取文档关键词用于在一篇文章中获取其核心内容(描述了什么?),又叫 生成摘要、打标签、关键词提取等 1:词频统计 词在文本中出现的次数(频次),某种程度上能当做文本的标签,表示文本内容 不是很精准 统计前最好先去完成自定义词典和去停用词的前期操作 略过自定义词典、去停用词 a = ' 阅读全文
posted @ 2020-10-03 12:06 亚洲哈登 阅读(983) 评论(0) 推荐(0) 编辑
摘要: 中文分词 分词,就是将0维的非格式化文本转为格式化、向量化数据 中文分词(Chinese Word Segmentation) 是将一个汉字序列切分成一个个单独的词。 英文文档中,单词之间是以空格作为自然分界符的,而中文词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一上,中文 阅读全文
posted @ 2020-10-03 11:31 亚洲哈登 阅读(702) 评论(0) 推荐(0) 编辑
摘要: pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy matplotlib pandas scikit-learn notebook tensorflow PyQt5 xlrd xlwt tables openpyxl jieba 阅读全文
posted @ 2020-09-20 18:10 亚洲哈登 阅读(130) 评论(0) 推荐(0) 编辑
摘要: Pandas分组聚合 - 高级 自定义聚合方式 在分组聚合的split-apply-combine过程中,apply是核心。Python 本身有高阶函数 apply() 来实现它 自定义聚合方式:aggregate(),或agg() 之前的聚合方式,所有列只能应用一个相同的聚合函数 agg()自定义 阅读全文
posted @ 2020-09-18 22:39 亚洲哈登 阅读(3139) 评论(0) 推荐(0) 编辑
摘要: 表格的长宽转换 表格长宽转换也是一种透视表操作 df.pivot() 将 一张长表 转为 多张宽表 pd.melt() 将 多张宽表 转为 一张长表 二者互为逆操作 pivot和pivot_table的区别 pivot转换后,如果表索引有重复值会直接出错 pivot_table转换后,如果表索引有重 阅读全文
posted @ 2020-08-19 11:09 亚洲哈登 阅读(1326) 评论(0) 推荐(0) 编辑
摘要: 数据合并 Pandas提供了大量方法,能轻松的对Series,DataFrame执行合并操作 按行合并 追加:append() 连接:concat() # 行列均可 按列合并 复杂合并:merge() 按行索引合并:join() 合并重叠数据(一个表为主,先填充再合并):combine_first( 阅读全文
posted @ 2020-08-19 10:54 亚洲哈登 阅读(323) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 10 下一页