随笔分类 - 每日学习
记录每天的学习进度
摘要:今天学习直播回放,安装了flume和kafka,并学习到了数据分仓的概念,完成了数据生成模块,并完成部分数据采集模块的部署。
阅读全文
摘要:今天学习mapreduce: 切片与 MapTask 并行度决定机制 1)问题引出 MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。 思考:1G 的数据,启动 8 个 MapTask,可以提高集群的并发处理能力。那么 1K 的数 据,也启动 8 个 M
阅读全文
摘要:今天继续做MapReduce实验: 现有某电商的用户好友数据文件,名为 buyer1,buyer1中包含(buyer_id,friends_id)两个字段,内容是以"\t"分隔,编写MapReduce进行单表连接,查询出用户的间接好友关系。例如:10001的好友是10002,而10002的好友是10
阅读全文
摘要:今天做MapReduce实验: 现有一个某电商网站的数据文件,名为buyer_favorite1,记录了用户收藏的商品以及收藏的日期,文件buyer_favorite1中包含(用户id,商品id,收藏日期)三个字段,数据内容以“\t”分割,由于数据很大,所以为了方便统计我们只截取它的一部分数据,内容
阅读全文
摘要:今天复习了使用jieba分词: import jieba import pandas as pd import re from collections import Counter if __name__ == '__main__': filehandle = open("Hotword.txt",
阅读全文
摘要:今天使用jfinal 任务一:导入JFinal工程 任务二:阅读JFinal的源码并对每一部分的功能进行介绍 任务三:基于JFinal完成一个简单的学生信息管理系统 效果: 代码会上传到GitHub
阅读全文
摘要:今天做软件构造实验 任务一:配置百度文字识别Java SDK 任务二:了解百度文字识别相关功能并进行总结 任务三:完成身份证识别,自行拍摄身份证图片进行上传并查看结果 任务四:完成车牌识别,自行拍车牌图片进行上传并查看结果 package opreation; import com.baidu.ai
阅读全文
摘要:业务需求代表了需求链中最高层的抽象:他们为软件系统定义了项目视图和范围。软件功能需求必须根据用户的需求来考虑,且要与业务需求所设定的目标相一致。对不利于实现项目业务目标的需求应该排除在外。一个项目可能包括一些与软件没有直接关系的需求,例如:硬件的购买、产品的安装、维护或广告。但在此,我们只关心与软件
阅读全文
摘要:需求来源、需求收集方法 软件需求可以来自方方面面,这取决于所开发产品的性质和开发环境。需从不同用户代表和来源收集需求,这说明了需求工程是以相互交流为核心的性质。下面是几个软件需求的典型来源。 1). 访问并与有潜力的用户探讨为找出新软件产品的用户需求,最直截了当的方法是询问他们。 2). 把对目前的
阅读全文
摘要:许多软件问题都源于收集、记录、协商和修改产品需求过程中的方式不当,包括信息收集方式不正规,没有明确提出想要的功能,假设是未经过沟通的错误假设,需求的定义不够充分,以及未经仔细考虑进行需求变更等。在软件开发中遇到的问题时,人们常常轻率地将其忽略。软件项目中40%~60%的缺陷都是由需求分析阶段的过失所
阅读全文
摘要:今天完成nosql实验: mongdb package opreation; import java.util.ArrayList; import java.util.List; import com.mongodb.DB; import org.bson.Document; import com.
阅读全文
摘要:今天了解了hadoop序列化 序列化概述 1)什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁 盘(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换 成内存中的对象。 2)为什么要序列化 一般来说,“活的”对
阅读全文
摘要:今天复习一下uml建模语言类关系 1. 泛化(Generalization) 【泛化关系】:是一种继承关系,表示一般与特殊的关系,它指定了子类如何特化父类的所有特征和行为。例如:老虎是动物的一种,即有老虎的特性也有动物的共性。 【箭头指向】:带三角箭头的实线,箭头指向父类 2. 实现(Realiza
阅读全文
摘要:今天加强hive的导入和导出学习: Insert 导出 1)将查询的结果导出到本地 hive (default)> insert overwrite local directory '/opt/module/hive/data/export/student' select * from studen
阅读全文
摘要:今天将hdfs的api相关操作学习了,注意使用时需要导包,并且需要打开Hadoop集群。使用maven空项目开始构建即可,注意一点maven最好用自己下载的,maven的下载配置 在之前的博客中可以找到。对于本人来说,之前使用自带的maven运行失败了,所以自己下载maven配置,之后使用就可以运行
阅读全文
摘要:最近遇到一个虚拟机的问题,这里记录一下 运行的三台虚拟机在电脑关闭时未挂起, 有两个虚拟机重启就可以解决问题,还有一台虚拟机数据出现损坏,无法正常启动,需要进行修复 虚拟机版本:centos7 此类问题解决方法 1. ls查看当前目录, 使用ls -l dev/mapper查看那个是XXX-root
阅读全文
摘要:今天学习了HDFS的一些基本理论知识: HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目 录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务 器有各自的角色。 HDFS 的使用场景:适合一次写入,多次读出的
阅读全文
摘要:linux进入终端方法: (1)ctrl+alt+F1~F6 都可以进入,每个需要login一次——多用户,之间通过alt+F1~F7自由切换;ctrl+alt+F7返回图形界面(2)桌面:右键“打开终端”(3)桌面:应用程序——附件——终端第一种方法: 第二种方法: 之前学习linux大多数是使用
阅读全文
摘要:今天完成个人作业2,但是之后会继续进行完善,对于图表联动进行优化。 对于之前的个人作业的后台处理: package servlet; import java.io.IOException; import java.util.List; import javax.servlet.ServletExce
阅读全文
摘要:今天学习js,通过不断的做作业发现,js的使用是非常重要的,因为没有系统的学习过,所以有些地方难免不熟悉。 所以今天看一些js的常用操作,对ajax的使用进行更深的掌握。 学习的内容: showCustomer() 函数执行以下任务: 检查是否已选择某个客户 创建 XMLHttpRequest 对象
阅读全文