会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
开拓者亮仔
博客园
首页
新随笔
联系
订阅
管理
2025年7月22日
Hive 开启事务
摘要: 在大数据领域中,Hive 是一个非常流行的数据仓库工具。它提供了一种类似于 SQL 的查询语言,使得分析师和数据科学家可以方便地对大规模数据进行查询和分析。然而,Hive 默认情况下是不支持事务的。这意味着在执行一系列的修改操作时,如果其中一个操作失败,其他操作就无法回滚,数据的一致性会受到破坏。为
阅读全文
posted @ 2025-07-22 17:18 开拓者亮仔
阅读(35)
评论(0)
推荐(0)
2019年1月30日
Pandas 中 SettingwithCopyWarning 的原理和解决方案
摘要: 原文链接:https://www.dataquest.io/blog/settingwithcopywarning/ 原文标题:Understanding SettingwithCopyWarning in pandas 原文发布时间:5 JULY 2017(需要注意时效性,文中有一些方法已经弃用,
阅读全文
posted @ 2019-01-30 19:51 开拓者亮仔
阅读(1976)
评论(0)
推荐(0)
pandas的DataFrame的行列选择
摘要: Pandas可根据列名称选取,还可以根据列所在的position(数字,在第几行第几列,注意pandas行列的position是从0开始)选取。相关函数如下: 1)loc,基于列label,可选取特定行(根据行index); 2)iloc,基于行/列的position; 3)at,根据指定行inde
阅读全文
posted @ 2019-01-30 11:16 开拓者亮仔
阅读(8339)
评论(0)
推荐(0)
2019年1月29日
DataFrame[]中括号,通过列名取数据
摘要: 基本格式:dataframe[列名] 1.取多列 列名要用中括号括起来,所以下述命令 dataframe[['P4_profit_rate','P3PS','P3NS']] 没问题,返回pandas.core.frame.DataFrame类型的值 dataframe['P4_profit_rate
阅读全文
posted @ 2019-01-29 10:53 开拓者亮仔
阅读(3361)
评论(0)
推荐(1)
2019年1月28日
Windows环境下安装PyMySQL(已安装Anaconda)
摘要: 我的Anaconda安装目录为D:\Anaconda3\ 在cmd中执行 会出现 随后输入pip 会出现等 随后输入 安装完成
阅读全文
posted @ 2019-01-28 14:35 开拓者亮仔
阅读(3296)
评论(0)
推荐(1)
2018年12月21日
windows安装gensim
摘要: 一、什么是gensimgensim是一个python的科学库,gensim包含了TF-IDF、随机投影、word2vec和document2vec算法的实现,分层Dirchlet过程(HDP),潜在语义分析(LSA)和潜在Dirichlet分配(LDA),包括分布式并行版本。主要是用来主题建模、文档
阅读全文
posted @ 2018-12-21 10:39 开拓者亮仔
阅读(3625)
评论(0)
推荐(0)
2018年12月18日
通俗理解LDA主题模型
摘要: 0 前言 印象中,最開始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是由于这篇文档的前序铺垫太长(如今才意识到这些“铺垫”都是深刻理解LDA 的基础,但假设没有人帮助刚開始学习的人提纲挈领、把握主次
阅读全文
posted @ 2018-12-18 15:30 开拓者亮仔
阅读(1592)
评论(0)
推荐(0)
2018年12月17日
文本分类的研究学习
摘要: 这个案例是一个新闻标题分类的案例,NLPCC 2017 Shared Task也有一个类似的案例。因此我们先拿这个下手了。整个过程概括起来分为以下几步: 接下来我们对这4个部分的代码进行详细的讲解。 2.1 数据采集 从上面的代码中,我们可以看到获取数据很简单: 这里最重要的就是这个fetch_20
阅读全文
posted @ 2018-12-17 19:24 开拓者亮仔
阅读(443)
评论(0)
推荐(0)
Python中的TfidfVectorizer参数解析
摘要: vectorizer = CountVectorizer() #构建一个计算词频(TF)的玩意儿,当然这里面不足是可以做这些transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿tfidf = transformer.fit_transform(vect
阅读全文
posted @ 2018-12-17 18:34 开拓者亮仔
阅读(7040)
评论(0)
推荐(1)
Newsgroups数据集介绍
摘要: 源自如http://qwone.com/~jason/20Newsgroups/。 20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。一些新闻组的主题特别相似(e.g. comp
阅读全文
posted @ 2018-12-17 14:29 开拓者亮仔
阅读(1208)
评论(0)
推荐(0)
下一页
公告