09 2019 档案
摘要:【github构建个人主页】之写作 参 hexo官方文档 - https://hexo.io/zh-cn/docs/setup 1 创建文章目录结构 eg:首页,分类,关于..... 参:https://blog.csdn.net/u010820857/article/details/8202753
阅读全文
摘要:【github构建个人主页】之建站 参 hexo官方文档 - https://hexo.io/zh-cn/docs/setup hexo项目文件目录结构 _config.yml :网站的配置信息 + 各种配置信息? package.json:应用程序的信息 scaffolds:模版 文件夹 sour
阅读全文
摘要:建表create table gulivideo_ori( videoId string, uploader string, age int, category array, length int, views int, rate float, ratings int, comments int, r...
阅读全文
摘要:【python scrapy 爬虫】 1 环境配置 win10; python3.7; 2 爬虫project【第三方包scrapy,re】 【 scrapy 相关】 【 pip安装 】 pip install Scrapy; 【scrapy 一些相关依赖】 pywin32 python 的wind
阅读全文
摘要:day7 hadoop 离线数据分析 批量; spark 【spark】 * 环境配置: 安装spark - Local本地模式 ok * spark学习 @Scala环境: 1 shell交互环境 启动:spark-shell;(默认进入且自带): 命令学习: 实验案例: 1 wordcount: textFile("input"):读取本地文件input文件夹数据; flatMap(_.spl
阅读全文
摘要:常见编码:ASCII码,Unicode码,UTF-8,GBK 编码: 【解决的问题】 将我们所编写的程序(字符:文字和数字等信息)转换成对应的0-1代码即计算机中底层的机器指令 【如何实现】 构建一张编码表,将所有字符都对应一个0-1的编码; 编程过程中乱码问题: 【根本原因】 编码的不同:对同一个
阅读全文
摘要:分区(partition by) 目的:加快数据查询: 实现:依据某几个数据属性,设置分区; eg:依据时间和国家,9.1&CN;9.1&US;9.2 ...; 形式:层级目录; 实践: 分桶 (clustered by) 目的:更细粒度的划分数据,加快数据查询; 实现:根据某一列属性(表本身属性)
阅读全文
摘要:【配置hadoop环境】1 安装linux; 环境: 虚拟机:VB ; 镜像:IOS ;2 安装hadoop; 执行: 1 安装SSH、配置SSH无密码登陆 * 用于管理集群;集群建传输数据; * 在shell下使用ssh远程登录一台Linux主机; 2 (Java环境) - 安装JDK; * wi
阅读全文
摘要:【hive配置】 hive mysql 【hive操作实践】HQL: 数据定义; 创建修改和删除 - 数据库、表(内部表,外部表,分区表)、视图、函数和索引 ;参:http://dblab.xmu.edu.cn/blog/1080-2/ 用户自定义函数 数据操作; 数据导入(导入hive) 数据导出
阅读全文
摘要:My Github 暂无 林子雨 https://pan.baidu.com/share/init?surl=ZuY142dtMERuh4vfliAgJg 提取码:gx0b教程: http://dblab.xmu.edu.cn/blog/install-hadoop/
阅读全文
摘要:package test.hdfs; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; /* * * ...
阅读全文
摘要:package test.hdfs; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; /* * @a...
阅读全文
摘要:项目文件:Github 需求一: 需求二:
阅读全文
摘要:项目文件:Github Mapreduce流程:package test.wordcount; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apach...
阅读全文
摘要:参:https://www.cnblogs.com/annsshadow/p/5006317.html
阅读全文
摘要:【 kettle 】:*官网:http://www.kettle.net.cn/ *工具:kettle: 开源的ETL工具; 管理来自不同数据库的数据; 有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制spoon
阅读全文
摘要:& 思路:在本地编辑博客 - “调试” ;在发布到Github - “发布,公开” ; github提供免费的服务,如果自己搭建博客要:服务器+域名;*前提: Node.js - 了解:https://www.cnblogs.com/suhaihong/p/6598308.html Markdown
阅读全文
摘要:【SSM 环境搭建】1 maven配置必要的SSM jar包 坑:maven下载jar包速度慢! 解决: 1 eclispe配置单独的maven; 2 maven修改为阿里镜像 2 配置SSM的config配置文件 Spring核心配置文件:applicationContext.xml; 数据库配置
阅读全文

浙公网安备 33010602011771号