2022年5月8日
摘要: WordCount类代码: import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apach 阅读全文
posted @ 2022-05-08 21:57 搁浅的小鲸鱼 阅读(115) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2022-05-08 21:45 搁浅的小鲸鱼 阅读(39) 评论(0) 推荐(0)
摘要: Matplotlib 教程 Matplotlib 是 Python 的绘图库,它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。 Matplotlib 可以用来绘制各种静态,动态,交互式的图表。 Matplotlib 是一个非常强大的 Python 画图工具,我们可以使用该工具将很多数据通 阅读全文
posted @ 2022-05-08 13:43 搁浅的小鲸鱼 阅读(749) 评论(0) 推荐(0)
  2022年5月1日
摘要: Pandas 是 Python 语言的一个扩展程序库,用于数据分析。 Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。 Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据 阅读全文
posted @ 2022-05-01 17:06 搁浅的小鲸鱼 阅读(245) 评论(0) 推荐(0)
  2022年4月24日
摘要: 一:创建maven项目 导入maven <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.7.6</version> </d 阅读全文
posted @ 2022-04-24 19:56 搁浅的小鲸鱼 阅读(415) 评论(0) 推荐(0)
摘要: 一、什么是numpy? NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩 阅读全文
posted @ 2022-04-24 17:19 搁浅的小鲸鱼 阅读(242) 评论(0) 推荐(0)
摘要: 1.count优化 #a语句: SELECT COUNT(*) FROM users WHERE id>5; #b语句: SELECT (SELECT COUNT(*)FROM users ) - COUNT(*) FROM users WHERE id<=5; a语句当行数超过11行的时候需要扫描 阅读全文
posted @ 2022-04-24 17:07 搁浅的小鲸鱼 阅读(837) 评论(0) 推荐(0)
  2022年4月10日
摘要: 1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip 1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 1.3修改主机名和IP的映射关系 vim /etc/hosts 1 阅读全文
posted @ 2022-04-10 21:07 搁浅的小鲸鱼 阅读(365) 评论(0) 推荐(0)
摘要: XPath: XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。 一、节点关系 1.父(Parent) 每个元素以及属性都有一个父。 在下面的例子中,book 元素是 t 阅读全文
posted @ 2022-04-10 20:48 搁浅的小鲸鱼 阅读(767) 评论(0) 推荐(0)
摘要: mysql范式: mysql建表的规范格式 第一范式:保证每列的原子性(字段不能再分解) 第一范式是最基本的范式。如果数据库表中的所有字段值都是不可分解的原子值,就说明该数据库满足了第一范式。 第二范式:属性必须完全依赖于主键 在第一范式的基础上,属性必须完全依赖于主键。 如图:在下图中,分数依赖于 阅读全文
posted @ 2022-04-10 20:31 搁浅的小鲸鱼 阅读(197) 评论(0) 推荐(0)