亚洲哈登

2020年12月14日

摘要： Numpy数组创建 np.array(list/tuple) # 接收一切序列型对象，如list列表、tuple元组等数组 (array) 是相同类型的元素 (element) 的集合所组成数据结构 (data structure)。 numpy 数组中的元素用的最多是「数值型」元素数组常见属性阅读全文

posted @ 2020-12-14 23:55 亚洲哈登阅读(100) 评论(0) 推荐(0)

2020年10月5日

pandas之中文分词，词云，情感分析，语义分析5

摘要：非格式化数据分析：语义结构分析-Gensim Gensim 是一个通过衡量词组（或更高级结构，如整句或文档）模式来挖掘文档语义结构的工具通过检查词出现的频率。gensim读取一段语料，输出一个向量，表示文档中的一个词。该向量表示可被用于训练一个“模型”。模型是从数据生成不同特征的算法集下面主要阅读全文

posted @ 2020-10-05 14:55 亚洲哈登阅读(538) 评论(0) 推荐(0)

pandas之中文分词，词云，情感分析，语义分析4

摘要：中文情感分析 - SnowNLP 情感分析（Sentiment analysis，SA），又称倾向性分析、意见抽取（Opinion extraction）、意见挖掘（Opinion mining）、情感挖掘（Sentiment mining）、主观分析（Subjectivity analysis）阅读全文

posted @ 2020-10-05 14:09 亚洲哈登阅读(896) 评论(0) 推荐(0)

2020年10月3日

pandas之中文分词，词云，情感分析，语义分析3

摘要：词云-WordCloud 词云：对文本中出现的关键词按照出现频率通过改变字体字号颜色样式等方式集中显示频率较高的“关键词”予以视觉上的突出，从而给关键字设定直观的级别，过滤掉大量的低效文本信息，使浏览者只要一眼扫过词云就可以领略文本的主旨安装 WordCloud库如系统未安装C++编译库，Wo 阅读全文

posted @ 2020-10-03 12:11 亚洲哈登阅读(428) 评论(0) 推荐(0)

pandas之中文分词，词云，情感分析，语义分析2

摘要：抽取文档关键词抽取文档关键词用于在一篇文章中获取其核心内容（描述了什么？），又叫生成摘要、打标签、关键词提取等 1：词频统计词在文本中出现的次数（频次），某种程度上能当做文本的标签，表示文本内容不是很精准统计前最好先去完成自定义词典和去停用词的前期操作略过自定义词典、去停用词 a = ' 阅读全文

posted @ 2020-10-03 12:06 亚洲哈登阅读(1114) 评论(0) 推荐(0)

pandas之中文分词，词云，情感分析，语义分析1

摘要：中文分词分词，就是将0维的非格式化文本转为格式化、向量化数据中文分词(Chinese Word Segmentation) 是将一个汉字序列切分成一个个单独的词。英文文档中，单词之间是以空格作为自然分界符的，而中文词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一上，中文阅读全文

posted @ 2020-10-03 11:31 亚洲哈登阅读(994) 评论(0) 推荐(0)

2020年9月20日

大数据学习之-the king of bigdata

摘要： pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy matplotlib pandas scikit-learn notebook tensorflow PyQt5 xlrd xlwt tables openpyxl jieba 阅读全文

posted @ 2020-09-20 18:10 亚洲哈登阅读(148) 评论(0) 推荐(0)

2020年9月18日

pandas之分组聚合(agg,apply)

摘要： Pandas分组聚合 - 高级自定义聚合方式在分组聚合的split-apply-combine过程中，apply是核心。Python 本身有高阶函数 apply() 来实现它自定义聚合方式：aggregate()，或agg() 之前的聚合方式，所有列只能应用一个相同的聚合函数 agg()自定义阅读全文

posted @ 2020-09-18 22:39 亚洲哈登阅读(3613) 评论(0) 推荐(0)

2020年8月19日

pandas之表的长宽转换

摘要：表格的长宽转换表格长宽转换也是一种透视表操作 df.pivot() 将一张长表转为多张宽表 pd.melt() 将多张宽表转为一张长表二者互为逆操作 pivot和pivot_table的区别 pivot转换后，如果表索引有重复值会直接出错 pivot_table转换后，如果表索引有重阅读全文

posted @ 2020-08-19 11:09 亚洲哈登阅读(1451) 评论(0) 推荐(0)

Pandas数据规整之合并

摘要：数据合并 Pandas提供了大量方法，能轻松的对Series，DataFrame执行合并操作按行合并追加：append() 连接：concat() # 行列均可按列合并复杂合并：merge() 按行索引合并：join() 合并重叠数据(一个表为主，先填充再合并)：combine_first( 阅读全文

posted @ 2020-08-19 10:54 亚洲哈登阅读(405) 评论(0) 推荐(0)

公告