02 2020 档案

摘要:一、六大质量属性 1、可用性分析 可用性是指系统正常运行时间的比例,是通过两次故障之间的时间长度或在系统崩溃情况下能够恢复正常运行的速度来衡量的。 可用性分析所关注的方面包括:如何检测系统故障,系统故障发生的频度,出现故障时会发生什么情况,允许系统有多长时间非正常运行,什么时候可以安全地出现故障,如 阅读全文
posted @ 2020-02-26 18:46 枫黎 阅读(980) 评论(0) 推荐(0)
摘要:软件工程师是实现这个模拟过程的关键人物,他必须先理解人是怎么在日常生活中完成工作的,才能够很好的把这些工作在计算机中模拟出来。可是软件工程师需要学习大量的计算机语言和计算机知识,还需要学习各行各业的专业知识。软件工程师本身的培养就比较难,同时行业知识也要靠时间的积累,这样就远远超出了软件工程师的能力 阅读全文
posted @ 2020-02-26 08:49 枫黎 阅读(119) 评论(0) 推荐(0)
摘要:1.主要学习了spring mvc 环境搭建,对spring mvc进行简单了解。 2.对echarts的中国地图的运用有所了解和运用。 3.对python的正则表达式有所学习,以及python Wordcloud的学习。 阅读全文
posted @ 2020-02-23 15:51 枫黎 阅读(88) 评论(0) 推荐(0)
摘要:质量属性的六个常见属性 1.可用性 场景: 场景 可能的值 刺激源 买家购物 刺激 人数过多,网站响应时间过迟 制品 系统 环境 正常操作 响应 继续运行 响应度量 一定时间 2.可修改性 场景: 场景 可能的值 刺激源 买家 刺激 添加购物车、删除商品 制品 系统 环境 正常操作 响应 对数据进行 阅读全文
posted @ 2020-02-23 15:42 枫黎 阅读(142) 评论(0) 推荐(0)
摘要:SpringMVC架构 1.1Spring web mvc介绍 Spring web mvc和Struts2都属于表现层的框架,它是Spring框架的一部分,我们可以从Spring的整体结构中看得出来: 1.2Web MVC mvc设计模式在b/s系统下应用: 1、 用户发起request请求至控制 阅读全文
posted @ 2020-02-19 17:29 枫黎 阅读(385) 评论(0) 推荐(0)
摘要:软件架构师,乍一听给人很高大上的感觉,技术型工程师,站在金字塔顶端的角色,看完九篇博客之前,在网上搜了搜软件架构师的词条。 什么是软件架构师 软件架构师是软件行业中一种新兴职业,是软件项目的总体设计师,是软件组织新产品的开发与集成、新技术体系的构建者。对一些大型软件产品或项目的开发,这一角色显得很关 阅读全文
posted @ 2020-02-18 23:25 枫黎 阅读(121) 评论(0) 推荐(0)
摘要:参考:https://blog.csdn.net/u013201439/article/details/78116575 CREATE TABLE count_year SELECT YEAR(reqtime),COUNT(YEAR(reqtime)) FROM bjxj GROUP BY YEAR 阅读全文
posted @ 2020-02-16 20:04 枫黎 阅读(251) 评论(0) 推荐(0)
摘要:安装Flume,参考厦门大学林子雨教程:http://dblab.xmu.edu.cn/blog/1102/ 并完成案例1 1.案例1:Avro source Avro可以发送一个给定的文件给Flume,Avro 源使用AVRO RPC机制。a) 创建agent配置文件 cd /usr/local/ 阅读全文
posted @ 2020-02-16 18:41 枫黎 阅读(693) 评论(0) 推荐(0)
摘要:用xml代替lxml,Python3.7中已经没有etree这个模块了 import xml.etree.ElementTree as etree from lxml import etree 这种方法已经不行了 版本不匹配 阅读全文
posted @ 2020-02-13 11:58 枫黎 阅读(2436) 评论(0) 推荐(0)
摘要:在爬取详细信息页面中,又遇到了问题,就是标签内的信息爬取,用re的正则表达式没有找到解决办法,只能又去网上搜索解决办法 用bs4来解决,用 soup = BeautifulSoup(text,"html.parser")#解析text中的HTML 来进行分析,虽说这样会有标签信息附着,从网上找到解决 阅读全文
posted @ 2020-02-12 20:59 枫黎 阅读(452) 评论(0) 推荐(0)
摘要:python爬取,找到目标地址,开始研究网页代码格式,于是就开始根据之前学的知识进行爬取,出师不利啊,一开始爬取就出现了个问题,这是之前是没有遇到过的,明明地址没问题,就是显示网页不存在,于是就在百度上找解决办法,发现问题是该网页为了防止恶意访问,进行了一些处理,加上了header以及属性 head 阅读全文
posted @ 2020-02-11 20:15 枫黎 阅读(699) 评论(2) 推荐(0)
摘要:什么是 PyMySQL? PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。 PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。 PyMySQL 安装 阅读全文
posted @ 2020-02-10 20:33 枫黎 阅读(254) 评论(0) 推荐(0)
摘要:Spark SQL基本操作 (1) 查询所有数据; (2) 查询所有数据,并去除重复的数据; (3) 查询所有数据,打印时去除id字段; (4) 筛选出age>30的记录; (5) 将数据按age分组; (6) 将数据按name升序排列; (7) 取出前3行数据; (8) 查询所有记录的name列, 阅读全文
posted @ 2020-02-09 19:36 枫黎 阅读(712) 评论(0) 推荐(0)
摘要:更新错误: 正在读取软件包列表... 完成 W: GPG 错误:http://mirrors.aliyun.com xenial/mongodb-org/3.2 Release: 由于没有公钥,无法验证下列签名: NO_PUBKEY D68FA50FEA312927 W: GPG 错误:http:/ 阅读全文
posted @ 2020-02-08 20:23 枫黎 阅读(4367) 评论(0) 推荐(2)
摘要:DataFrame的创建从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能Sp 阅读全文
posted @ 2020-02-08 19:51 枫黎 阅读(2187) 评论(0) 推荐(0)
摘要:1.spark-shell交互式编程 (1) 该系总共有多少学生 scala> val lines = sc.textFile("file:///usr/local/spark/sparklab/Data01.txt") lines: org.apache.spark.rdd.RDD[String] 阅读全文
posted @ 2020-02-07 21:33 枫黎 阅读(2642) 评论(0) 推荐(0)
摘要:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后 阅读全文
posted @ 2020-02-06 16:49 枫黎 阅读(879) 评论(0) 推荐(0)
摘要:根据Spark2.1.0入门:Spark的安装和使用在虚拟机安装Spark,并进行测试 实验3 Spark读取文件系统的数据 将文件上传hdfs (1)在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; (2)在spark-sh 阅读全文
posted @ 2020-02-05 21:18 枫黎 阅读(763) 评论(0) 推荐(0)
摘要:实验 2 Scala 编程初级实践 一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构; 2.掌握面向对象编程的基础知识,能够编写自定义类和特质; 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本 层次结构,熟练使用常用的容器类进行数据; 4 阅读全文
posted @ 2020-02-04 16:33 枫黎 阅读(2322) 评论(0) 推荐(0)
摘要:1.Scala有两种类型的变量:val:是不可变的,在声明时就必须被初始化,而且初始化以后就不能再赋值;var:是可变的,声明的时候需要进行初始化,初始化以后还可以再次对其赋值。基本语法:val 变量名:数据类型 = 初始值var 变量名:数据类型 = 初始值类型推断机制(type inferenc 阅读全文
posted @ 2020-02-03 16:18 枫黎 阅读(514) 评论(0) 推荐(0)
摘要:什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 爬虫访问网站的过程会消耗目标系统资 阅读全文
posted @ 2020-02-02 15:00 枫黎 阅读(2812) 评论(0) 推荐(1)
摘要:实验 1 Linux 系统的安装和常用命令 (题目) 一、实验目的 (1)掌握 Linux 虚拟机的安装方法。Spark 和 Hadoop 等大数据软件在 Linux 操作系统 上运行可以发挥最佳性能,因此,本教程中,Spark 都是在 Linux 系统中进行相关操作,同 时,下一章的 Scala 阅读全文
posted @ 2020-02-01 18:39 枫黎 阅读(3698) 评论(0) 推荐(1)