07 2017 档案

摘要:当我们登陆linux后,显示的提示字符究竟是什么意思呢?又可不可以设置呢。 首先来看看默认的显示: 可以看到,普通用户和root用户的显示是有差别的。那每个符号又是什么意思呢 ? fuwh/root:当前登陆的用户。 @localhost:连接的主机名,我是连接的本地的,所以就是localhost了 阅读全文
posted @ 2017-07-30 14:09 Ouka傅 阅读(1333) 评论(0) 推荐(0)
摘要:由于在在WebClient中,默认支持对CSS,JavaScript的解析,因此会总是会出现很多错误信息,并且执行速度也很慢。 因此,我们可以选择关闭掉WebClient对CSS,JavaScript的解析。 使用WebClient#getOption()方法,返回一个WebClientOption 阅读全文
posted @ 2017-07-29 20:24 Ouka傅 阅读(1220) 评论(1) 推荐(0)
摘要:htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。 项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器。 采用的是Rhinojs引擎。模拟js运行。 使用htmlunit抓取网页大概可以分为以下几个步骤: 1 阅读全文
posted @ 2017-07-29 15:01 Ouka傅 阅读(7933) 评论(0) 推荐(0)
摘要:jsoup是一款Java的HTML解析器,主要用来对HTML解析。官网 中文文档 在爬虫的时候,当我们用HttpClient之类的框架,获取到网页源码之后,需要从网页源码中取出我们想要的内容, 就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。 虽然jsoup也支持从某个地址直接去爬取网 阅读全文
posted @ 2017-07-27 21:22 Ouka傅 阅读(7681) 评论(0) 推荐(0)
摘要:我们知道,正则表达式可以大大的提高我们的工作效率。 在了解正则表达式之前,我们需要了解,通配符的概念。 在linux中,我们在使用ls这个命令的时候经常会使用下面这种用法 可以注意到,我们这里使用了*来代替各种字符的意思。 但是这并不是正则表达式。 在linux中,有很多的命令,如果这些命令支持正则 阅读全文
posted @ 2017-07-27 14:24 Ouka傅 阅读(2244) 评论(0) 推荐(0)
摘要:我们在爬取网页的时候,由于需要不断的访问目标服务器,因此给目标服务器带来了很多的压力。 因此,很多访问量大的服务器都会有保护措施,如果检测到我们的行为,可以会禁止我们的ip访问。 这个时候,我们就需要使用到代理ip来进行访问了。 在HttpCLient中,提供了一个org.apache.http.c 阅读全文
posted @ 2017-07-26 13:19 Ouka傅 阅读(281) 评论(0) 推荐(0)
摘要:在Linux中,压缩文件的扩展名主要是:[*.tar,*.tar.gz,*.tgz,*.gz,*.Z,*.bz2],虽然,我们知道,在LInux中,文件的扩展名没有什么作用,但是由于在Linux中支持的压缩命令非常的多,为了在解压缩的时候知道用那种方式来解压缩,就需要带上特定的扩展名。 扩展名对应的 阅读全文
posted @ 2017-07-26 11:05 Ouka傅 阅读(2514) 评论(0) 推荐(1)
摘要:在linux中,所有的文件都是以目录树的形式存在的。而每个发行版的文件存放之间又会有些差别。 这时候,如果我们想看某个命令或者文档的时候就必须先通过某种方式找到改文档的所在位置。 在linux中提供了以下几种方式来查找 ◇which:查找命令 ◇whereis:寻找特定文件 ◇locate:寻找特定 阅读全文
posted @ 2017-07-25 10:40 Ouka傅 阅读(560) 评论(0) 推荐(0)
摘要:在linux中[ln]这个命令用来创建连接文件。 共有两种连接文件:一种是类似与Windows的快捷方式(软链接),另一种就是通过文件系统的inode来产生的新的文件名(硬链接)。 这里解释下什么叫inode。 我们在讲解[ls]命令的时候,说过[-i]这个选项可以查看到该文档的inode。 其中最 阅读全文
posted @ 2017-07-25 09:33 Ouka傅 阅读(17980) 评论(0) 推荐(1)
摘要:在Linux中,对文件内容的编辑莫过去vi命令了,它是每个发布版本中的标配。并且功能强大。 在vi中一共有三种模式,一般模式(命令参照),编辑模式(命令参照)与命令模式(命令参照)。 ◇一般模式:当我们用vi打开一个文档的时候,就是一般模式了,这个时候,我们可以删除字符,删除行,也可以用上下左右来操 阅读全文
posted @ 2017-07-24 21:06 Ouka傅 阅读(9922) 评论(0) 推荐(0)
摘要:通过上一节我们已经可以实现对一个网站源码的抓取。 但是,有一些网站,在爬取的时候会出现如下的错误: 503错误表示服务器拒绝的意思。 这种网站通过检测到我们不是浏览器的访问,来拒绝我们的请求。这个时候为了能够实现抓取,我们就需要模拟浏览器来实现抓取行为。 就需要在头信息中加入一些东西来模拟浏览器 我 阅读全文
posted @ 2017-07-24 09:53 Ouka傅 阅读(480) 评论(1) 推荐(0)
摘要:HttpClient是一个实现了Http协议的功能强大的编程工具包。 要使用HttpClient,通常需要以下几部: 1、常见一个HttpClient实例 2、创建一个get或者post方法 3、告诉HttpClient去执行获取的方法 4、读取服务器的响应 5、释放连接 6、处理响应的内容 下面这 阅读全文
posted @ 2017-07-23 21:18 Ouka傅 阅读(379) 评论(0) 推荐(0)
摘要:当我们需要从网络上获取资源的时候,我们一般的做法就是通过浏览器打开某个网站,然后将我们需要的东西下载或者保存下来。 但是,当我们需要大量下载的时候,这个时候通过人工一个个的去点击下载,就显得太没有效率了。这个时候我们就可以通过程序来实现批量的获取资源的方式,我们称之为爬虫。也就是从网络上的站点爬取资 阅读全文
posted @ 2017-07-23 17:19 Ouka傅 阅读(691) 评论(0) 推荐(0)
摘要:在centos中,常用的文件操作命令有: ◇touch:建置新文件或者修改文件时间◇cat:从第一行开始显示文件内容◇tac:从最后一行开始显示文件内容,和cat相反◇nl:显示的时候,顺道输出行号◇more:一页一页的显示文件内容◇less:与more类似,但是可以向前翻页◇head:只看头几行◇ 阅读全文
posted @ 2017-07-23 17:04 Ouka傅 阅读(705) 评论(0) 推荐(0)
摘要:在centos中常用的文件与目录操作命令有: ◇chmod:修改文件或目录的权限 ◇mkdir:新建目录◇rmdir:删除目录◇rm:删除目录或文件◇cp:复制目录或文件◇mv:移动目录或文件 下面就一个个的来详细解释。 ◇chmod,chown,chgrp chmod:用来修改文件或目录的权限。 阅读全文
posted @ 2017-07-23 17:00 Ouka傅 阅读(664) 评论(0) 推荐(0)
摘要:在使用centos这个linux系统的时候,我们总是免不了需要查看当前目录中的内容,需要切换到别的目录,新建删除等等一系列在window中非常普通的操作。 那在linux中这些操作是什么样的呢。 在linux中,所有的目录都是以'/'为根目录的树形结构。 我们在使用路径的时候分为绝对路径和相对路径。 阅读全文
posted @ 2017-07-23 15:46 Ouka傅 阅读(11929) 评论(1) 推荐(2)
摘要:由于vm下面的centos6.9这种操作环境非常的不友好,用起来非常的不方便, 所以我们需要用一个远程连接工具来连接,我们的虚拟机。我们使用的是teraterm。 下载地址:https://osdn.net/projects/ttssh2/releases/ 同时,为了往虚拟机里上传文件方便,我们还 阅读全文
posted @ 2017-07-23 15:06 Ouka傅 阅读(2050) 评论(0) 推荐(0)
摘要:我安装在VM的虚拟机中。具体安装方式网上很多,由于本机只能安装32位的linux系统,所以悬在了Centsos6.9版本。点此下载。 其中有一种是叫做LIVEDVD的版本,这种的值虚拟机中配置后,打开直接可以使用的一种版本,很方便拿来玩玩,也可以打开后继续安装, VM基本设置: 首次安装的时候,选择 阅读全文
posted @ 2017-07-23 14:30 Ouka傅 阅读(243) 评论(0) 推荐(0)
摘要:如题,最新的都是只有免安装版的,可以官网下载zip的压缩包。 下载后解压,如下 下面就开始配置 1、在path中添加环境变量 ;D:\coding\mysql-5.7.18-winx64\bin; ← 根据自己的实际解压后文件夹的路径(注意跟前面的配置用;隔开) 2、配置ini文件 可以看到最新版的 阅读全文
posted @ 2017-07-15 21:04 Ouka傅 阅读(215) 评论(0) 推荐(0)