Fork me on GitHub
摘要:临近毕业,需要做一个毕业设计了。这不,这周就要交选题审题表了。我打算做一个个人博客网站,因而需要自己购买域名、租用服务器,然后进行环境搭建,进而开始做我的毕设了。 很多人想拥有自己的网站,但是如何实现从无到有呢? 我记录了我从无到有的网站,在此与大家分享一下,互相学习。 目录: 域名注册 服务器配置 阅读全文
posted @ 2017-09-25 16:10 sunwengang 阅读(476) 评论(0) 推荐(0) 编辑
摘要:本篇的思想:对HDFS获取的数据进行两种不同的可视化图表处理方式。第一种JFreeChar可视化处理生成图片文件查看。第二种AJAX+JSON+ECharts实现可视化图表,并呈现于浏览器上。 对此,给出代码示例,通过网络爬虫技术,将上传到HDFS的新浪网新闻信息实现热词统计功能,通过图表的柱状图来 阅读全文
posted @ 2017-08-19 00:00 sunwengang 阅读(1139) 评论(0) 推荐(0) 编辑
摘要:本篇博客是在上一篇《Lucene搜索引擎+HDFS+MR完成垂直搜索》的基础上,在数据收集之后的JSP/Servlet方面,换为SpringMVC框架来实现。 借助SpringMVC技术完成数据库、HDFS、页面的交互,以达到实现垂直搜索引擎。 本篇博客的思想:一是深入数据收集、分析、关键词搜索呈现 阅读全文
posted @ 2017-08-17 22:42 sunwengang 阅读(1005) 评论(0) 推荐(0) 编辑
摘要:介于上一篇的java实现网络爬虫基础之上,这一篇的思想是将网络收集的数据保存到HDFS和数据库(Mysql)中;然后用MR对HDFS的数据进行索引处理,处理成倒排索引;搜索时先用HDFS建立好的索引来搜索对应的数据ID,根据ID从数据库中提取数据,呈现到网页上。 这是一个完整的集合网络爬虫、数据库、 阅读全文
posted @ 2017-08-16 22:28 sunwengang 阅读(1709) 评论(1) 推荐(2) 编辑
摘要:上次用的java相关知识实现了一个简单的网络爬虫,现在存在许多开源免费的爬虫工具,相对来说,可以很简单的获取网页数据,并写入到本地。 下面我就阐述一下我用Heritrix爬虫工具实现网页数据爬取。 > 目录 1、Heritrix文件配置 2、Heritrix服务器job配置 3、如何创建job并执行 阅读全文
posted @ 2017-08-15 16:38 sunwengang 阅读(5297) 评论(0) 推荐(1) 编辑
摘要:接着上面一篇对爬虫需要的java知识,这一篇目的就是在于网络爬虫的实现,对数据的获取,以便分析。 > 目录: 1、爬虫原理 2、本地文件数据提取及分析 3、单网页数据的读取 4、运用正则表达式完成超连接的连接匹配和提取 5、广度优先遍历,多网页的数据爬取 6、多线程的网页爬取 7、总结 爬虫实现原理 阅读全文
posted @ 2017-08-14 00:24 sunwengang 阅读(55482) 评论(20) 推荐(19) 编辑
摘要:本篇对一些常用的java知识做一个整合,三大特性、IO操作、线程处理、类集处理,目的在于能用这些只是实现一个网页爬虫的功能。 Ⅰ 首先对于一个java开发的项目有一个整体性的了解认知,项目开发流程: 项目阶段: 1) 项目准备: a) 根据开会得到会议纪要,了解客户的需求情况 b) 需求分析(需求分 阅读全文
posted @ 2017-08-13 20:32 sunwengang 阅读(1854) 评论(1) 推荐(3) 编辑
摘要:如果说大数据中分布式收集日志用的是什么,你完全可以回答Flume!(面试小心问到哦) 首先说一个复制本服务器文件到目标服务器上,需要目标服务器的ip和密码: 命令: scp filename ip:目标路径 一 概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚 阅读全文
posted @ 2017-08-07 09:07 sunwengang 阅读(298) 评论(0) 推荐(0) 编辑
摘要:接着前面的Zookeeper部署之后,现在可以学习HBase了。 HBase是基于Hadoop的开源分布式数据库,它以Google的BigTable为原型,设计并实现了具有高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,它是基于列而不是基于行的模式,适合存储非结构化数据。 体系结构:H 阅读全文
posted @ 2017-08-06 13:48 sunwengang 阅读(199) 评论(0) 推荐(0) 编辑
摘要:这是一个分布式服务框架,阿帕奇的一个子项目。关于ZooKeeper我只简单的部署一下,以便后面的HBase。 一 概述 ZooKeeper 分布式服务框架是 Apache Hadoop 的一个子项目,主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布 阅读全文
posted @ 2017-08-06 08:59 sunwengang 阅读(312) 评论(0) 推荐(0) 编辑
摘要:一 原理阐述 1' DFS 分布式文件系统(即DFS,Distributed File System),指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。 2' HDF 阅读全文
posted @ 2017-08-05 18:54 sunwengang 阅读(1308) 评论(0) 推荐(1) 编辑
摘要:一 概述 就像我们所了解的sql一样,Hive也是一种数据仓库,不同的是hive是在hadoop大数据生态圈中所用。这篇博客我主要介绍Hive的简单表运用。 Hive是Hadoop 大数据生态圈中的数据仓库,其提供以表格的方式来组织与管理HDFS上的数据、以类SQL的方式来操作表格里的数据。 Hiv 阅读全文
posted @ 2017-08-05 17:59 sunwengang 阅读(300) 评论(0) 推荐(0) 编辑
摘要:前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了。本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分布式缓存)。 一 概述 定义 MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(M 阅读全文
posted @ 2017-08-04 20:07 sunwengang 阅读(1542) 评论(0) 推荐(0) 编辑
摘要:一 概述 YARN是一个资源管理、任务调度的框架,采用master/slave架构,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。 >ResourceManager负责所有资源的监控、分配和管理,运行在主节点; 阅读全文
posted @ 2017-08-04 18:06 sunwengang 阅读(841) 评论(0) 推荐(0) 编辑
摘要:八月迷情,这个月会对大数据进行一个快速的了解学习。 一、所需工具简介 首先我是在大数据实验一体机上进行集群管理学习,管理五台实验机,分别为master,slave1,slave2,slave3,client。 此外,学习还涉及到以下工具的使用: 先来介绍下每个工具的作用之处: 1‘ google浏览 阅读全文
posted @ 2017-08-02 16:59 sunwengang 阅读(767) 评论(0) 推荐(0) 编辑
摘要:Ⅰ 配置好android sdk环境变量之后,将android手机连接到电脑上,进行一些adb的简单命令的操作。 adb,安卓调试桥,android sdk的一个工具。直接操作管理安卓模拟器或者真实的安卓设备。 借助adb工具,管理设备或手机模拟器的状态,进行很多手机操作,如安装软件、系统升级、运行 阅读全文
posted @ 2017-07-26 18:33 sunwengang 阅读(1565) 评论(0) 推荐(0) 编辑
摘要:为什么要配置ADT呢?这就相当于在eclipse里插入插件,可以编译android的相关程序。 为什么要离线呢?一个字,快!我在线装了一个下午的ADT,不是报错就是慢的跟头老牛似的。 所以我在网上下了一个ADT离线安装包(无须解压)。 当然,前提你的eclipse要配置好jdk环境变量和androi 阅读全文
posted @ 2017-07-26 18:32 sunwengang 阅读(838) 评论(0) 推荐(0) 编辑
摘要:1、 一个java文件里可以存在多个class,但是只能有一个public class。 创建一个String对象数组是,将其传递给另一个main()方法,以提供参数,用来替换传递给main()方法的命令行参数。 示例代码如下: 输出如下: 2、 java使用标签的唯一理由是因为循环嵌套的存在,而且 阅读全文
posted @ 2017-07-25 22:59 sunwengang 阅读(89) 评论(0) 推荐(0) 编辑
摘要:移动应用自动化测试的配置,先于官网下载Android SDK,然后配置环境变量。 配置android sdk环境变量 1、 新建ANDROID_HOME环境变量,变量值为SDK解压的路径 2、 追加SDK如下目录的PATH变量 tools目录: e:\tyh\android-sdk-windows\ 阅读全文
posted @ 2017-07-25 14:11 sunwengang 阅读(3324) 评论(0) 推荐(0) 编辑
摘要:接着前面自动化测试的测试用例生成和收集,下面我们就需要做的是对测试用例进行排序,简单来说就是达到语句的全部覆盖。说到排序就涉及到三个算法,下面就是我对三个算法的阐述及代码实现。咱们由易入难。 1’自动用例生成(使用Randoop)> 2‘评价(对用例筛选冗余)>功能覆盖、语句覆盖(一般用后者) >插 阅读全文
posted @ 2017-07-19 15:51 sunwengang 阅读(1635) 评论(0) 推荐(0) 编辑
摘要:java编程思想中讲到了IO流的思想,以前对于java基础总是不够深入,浅尝辄止,如今碰到语句插桩的时候就感到书到用时方恨少啊! 文件的复制涉及到源文件和新文件(无需手动创建),给出源文件的路径和文件名,然后给出新文件放置的位置,并新任命一个名字。(java文件尽量目录不要放一块,以保证名字的相同, 阅读全文
posted @ 2017-07-14 23:31 sunwengang 阅读(8597) 评论(0) 推荐(0) 编辑
摘要:基于上一篇的方法插桩,这一篇则是进一步的对每行的语句进行插桩。 对于存在分支的方法(例如if(){}else{}),对方法插桩的方法是不能够全部涉及到的。所以要对程序的每条语句进行插桩。 插入什么语句呢?可以插入包括以下的内容: 1‘ classname 2’ linenumber 此时需要用到ja 阅读全文
posted @ 2017-07-14 23:10 sunwengang 阅读(746) 评论(0) 推荐(0) 编辑
摘要:javassist官网 http://jboss-javassist.github.io/javassist/ javassist API网 http://jboss-javassist.github.io/javassist/html/index.html javassist参考博客 https: 阅读全文
posted @ 2017-07-13 12:14 sunwengang 阅读(3133) 评论(0) 推荐(0) 编辑
摘要:手动设计测试 在已有的web project本地目录lib文件夹里导入两个jar文件(版本可不一样):junit-4.12.jar和hamcrest.jar 打开eclipse,导入项目,右击项目选择bulid path的最下面一个configure build path,然后如图点击ADD Ext 阅读全文
posted @ 2017-07-11 17:57 sunwengang 阅读(333) 评论(0) 推荐(0) 编辑
摘要:详细使用方法见randoop官网: https://randoop.github.io/randoop/manual/index.html 测试程序之前,先检测下你的Randoop是否配置好: 打开cmd,输入命令 java -ea -classpath %RANDOOP_JAR% randoop. 阅读全文
posted @ 2017-07-11 17:43 sunwengang 阅读(1312) 评论(0) 推荐(0) 编辑
摘要:大体来说,开发人员开发源程序,测试人员找bug,中间人产品经理。 黑盒测试:(不看代码) 白盒测试: 1、基于覆盖:语句、分支(if、for、真假)、方法 结构:顺序、分支(T or F,做出选择)、循环(T or F) 如:if(a>b || c<d){ } //判断真假,测试三种a>b c<d 阅读全文
posted @ 2017-07-10 22:33 sunwengang 阅读(2260) 评论(0) 推荐(0) 编辑
摘要:一、专有名词 1‘ 容器 创建一种对象类型,持有对其他对象的引用,被称为容器的新对象。在任何时候都可以扩充自己以容纳置于其中的所有东西。 java在其标准类库中包含了大量的容器。在某些类库中,一两个通用容器足以满足所有的需要;但是在其他类库中,具有不同的需要的各种类型的容器,如List,Map,Se 阅读全文
posted @ 2017-07-09 15:36 sunwengang 阅读(219) 评论(0) 推荐(0) 编辑
摘要:内置对象也称为内建对象,隐含对象,即无需声明,直接可以在JSP中使用的java对象。JSP的内置对象就是把最常用、重要的几个对象直接创建了。 JSP有9大内置对象:Request,Response, Page, Application , PageContext, Out, Session , Co 阅读全文
posted @ 2017-07-09 00:03 sunwengang 阅读(139) 评论(0) 推荐(0) 编辑
摘要:一、创建并设置javaweb工程 1.创建javaweb工程File --> New --> Project... 设置工程名字:创建完成后工程结构如下: 2. Web工程设置2.1 在WEB-INF 目录下点击右键,New --> Directory,创建 classes 和 lib 两个目录cl 阅读全文
posted @ 2017-07-08 23:09 sunwengang 阅读(436) 评论(0) 推荐(0) 编辑
摘要:此为JDK API1.6.0对ArrayList的解释。 ArrayList 使用java泛型创建类很复杂,但是应用预定义的泛型很简单。例如,要想定义用来保存Apple对象的ArrayList,可以声明ArrayList<Apple>,尖括号内为类型参数,(可以为多个)。它指定了容器可以保存的类型。 阅读全文
posted @ 2017-07-05 22:56 sunwengang 阅读(118) 评论(0) 推荐(0) 编辑