摘要: 所谓爬虫,首先要通过各种手段爬取到想要站点的数据。 web2.0之后,各种网络站点类型越来越多,早期的站点多为静态页面【html 、htm】,后来逐步加入 jsp。asp,等交互性强的页面。再后来随着js的兴起,也处于站点的美观和易于维护,越来越多的ajax异步请求方式数据站点。[不扯犊子了 ,马上上示例]参与工作时间不是很长,但工作期间一直做不同的爬虫项目。对常见的页面数据获取,有一些简单的认识。 接触到的页面分为三类。A 静态页面(数据在源码中直接可以获取到)B数据在基源码中没有,携带请求数据请求,在浏览器解析过程中,封装出含数据的源码C数据在浏览器解析后的源码中 没有,是通过页面的js函 阅读全文
posted @ 2013-09-04 23:40 cphmvp 阅读(1273) 评论(0) 推荐(0) 编辑
摘要: 俗话说工欲善其事必先利其器,做java网络爬虫开发分析网页的分析工具,抓包工具比不可少,一下是个人常用的几个工具。1、firefox低版本是为了支持httpwather , ie各个版本都支持httpwather插件,2、httpwatcher 是一个浏览器插件,用以观察每次通过浏览器建立http请求时,的后台请求【含请求头,request信息和respone】 主要用以分析后台json请求,ajax请求的页面,个人也比较倾向于中个插件工具,安装方法,直接next。3、JGsoft.RegexBuddy.v3.5.0.Retail-ZWT 俗称猫头鹰,用以正则匹配,调试。4、ue,是一个很.. 阅读全文
posted @ 2013-09-04 23:38 cphmvp 阅读(582) 评论(0) 推荐(0) 编辑
摘要: PLSQL 快捷键使用技巧 2012-01-17 09:32:50标签:PLSQL PLSQL 编程工具快捷设置 PLSQL使用技巧 PLSQL 快捷键 oracle PLSQL 最近在开发过程中,遇到一些麻烦,就是开发效率问题,有时候其他同事使用PLSQL 编程效率明显高于自己,观察了好久,才发现他使用PLSQL 已经很长时间了而且,他自己也在其中添加了好多快捷方式, 1、登录后默认自动选中My Objects 默认情况下,PLSQL Developer登录后,Brower里会选择All objects,如果你登录的用户是dba,要展开tables目录,正常情况都需要Wait几秒钟,... 阅读全文
posted @ 2013-09-04 23:18 cphmvp 阅读(1102) 评论(0) 推荐(0) 编辑
摘要: 例如ORACLE安装路径为:C:\ORACLE实现方法: 1、 开始->设置->控制面板->管理工具->服务 停止所有Oracle服务。2、 开始->程序->Oracle - OraHome81->Oracle Installation Products-> Universal Installer 卸装所有Oracle产品,但Universal Installer本身不能被删除5、 运行regedit,选择HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE,按del键删除这个入口。6、 运行regedit,选择HKEY_LOCAL_MACHINE\SYSTEM\Current 阅读全文
posted @ 2013-09-04 23:17 cphmvp 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 程序员修炼之道1 我的源码让猫给吃了... 32 软件的熵... 53 石头汤与煮青蛙... 74 足够好的软件... 95 你的知识资产... 116 交流!... 167 重复的危害... 218 正交性... 299 可撤消性... 3710 曳光弹... 4011 原型与便笺... 4412 领域语言... 4813 估算... 5414 纯文本的威力... 5915 shell游戏... 6416 强力编辑... 6817 源码控制... 7118 调试... 7419 文本操纵... 8120 代码生成器... 8421 按合约设计(1) 8721 按合约设计(2) 9222 死程 阅读全文
posted @ 2013-09-04 23:15 cphmvp 阅读(733) 评论(0) 推荐(0) 编辑
摘要: 总结一下常用的和不常用的linux命令,有些命令不常用的,是要反复去看才能记住的。1.最基础的ls命令,相当于win下的dir命令,常用参数有 -a,-l2.cd命令,cd到一个目录,跟win下的一个样;3.mkdir命令,创建一个文件夹,后跟要创建的文件夹名称;4.touch命令,创建文档文件,后面直接给出参数列表为要创建的文件名;5.rm命令,直接用rm可以删除文件,要删除目录的话用rm -rf,不管里面有没东西都删;6.pwd命令,查看当前目录;7.ifconfig命令,查看网络信息,包括ip,掩码,网关,mac;8.打包方法:tar -cvf filename.tar filename 阅读全文
posted @ 2013-09-04 23:10 cphmvp 阅读(460) 评论(0) 推荐(1) 编辑
摘要: 1、oracle 的体系结构图 重要!!!2、oracle的逻辑结构图 阅读全文
posted @ 2013-09-04 23:02 cphmvp 阅读(337) 评论(0) 推荐(0) 编辑
摘要: SELECT * FROM USER_TAB_PARTITIONS WHERE TABLE_NAME='TBL_PAGE';SELECT * FROM DBA_PART_TABLESSELECT * FROM ALL_PART_TABLESSELECT * FROM USER_PART_TABLESSELECT * FROM DBA_TAB_PARTITIONSSELECT * FROM ALL_TAB_PARTITIONSSELECT * FROM USER_TAB_PARTITIONSSELECT * FROM DBA_TAB_SUBPARTITIONSSELECT * F 阅读全文
posted @ 2013-09-04 22:56 cphmvp 阅读(276) 评论(0) 推荐(0) 编辑
摘要: delete from tbl_over_picture_alarm a where rowid not in (select min(b.rowid) from tbl_over_picture_alarm b where a.picture_url = b.picture_url ) 阅读全文
posted @ 2013-09-04 22:49 cphmvp 阅读(478) 评论(0) 推荐(0) 编辑
摘要: 1、解锁用户以dba身份登录 sqlplus / as sysdbaalter user scott account unlock;2、解锁表alter system kill sessionSELECT l.session_id sid, s.serial#, l.locked_mode,l.oracle_username, l.os_user_name,s.machine, s.terminal, o.object_name, s.logon_time FROM v$locked_object l, all_objects o, v$session s WHERE l.object_id 阅读全文
posted @ 2013-09-04 22:46 cphmvp 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 1、--删除已有的旧数据(表空间和临时表空间下)--DROP TABLESPACE USER_DATA INCLUDING CONTENTS AND DATAFILES;--DROP TABLESPACE USER_TEMP INCLUDING CONTENTS AND DATAFILES;2、--创建表空间CREATE TABLESPACE user_data LOGGING DATAFILE 'D:\app\cphmvp\oradata\orcl\user_data201304013.DBF ' SIZE 100M AUTOEXTEND ON NEXT 100M MAXSI 阅读全文
posted @ 2013-09-04 22:40 cphmvp 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 1、匹配文本中的汉字 \p{InCJK Unified Ideographs}2 、常见a连接匹配 ]*?href\s*=[^\\]\s*['""]?([^'""\s>]*)[^>]*>[\s\S]*?(.*?)[].+? window\.location\.href=['"](.*?)['"];*3 、常见图片连接匹配 url\((.+?)\) 注释常见匹配 (?4 、匹配javacript ].*[].* 阅读全文
posted @ 2013-09-04 22:30 cphmvp 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 053:数据库高级管理:目录第一部分:数据库备份与恢复... 4第一章:备份恢复概述... 41.1 备份的意义: 41.2 数据库故障的类型:... 41.3 制定你的备份和恢复的计划... 41.4 备份恢复分类... 51.5 备份恢复方式... 51.6 完全恢复与不完全恢复... 51.7 归档与非归档... 6第二章:手工备份与恢复... 62.1 手工备份:... 62.2 手工备份和恢复的命令... 62.3 备份前应对数据库进行检查: 72.4 手工非一致性备份(热备份)的执行方式及热备份的监控(v$backup)... 72.5 dbv (db verify)检查数据文件是 阅读全文
posted @ 2013-09-04 22:18 cphmvp 阅读(1266) 评论(0) 推荐(0) 编辑
摘要: OCP 052 课堂笔记目录第一部分: Oracle体系架构... 4第一章:实例与数据库... 41、Oracle 网络架构及应用环境... 42、Oracle 体系结构... 43、 SGA. 54 Oracle的进程: 95 PGA. 126、用户与Oracle服务器的连接方式... 12第二章:实例管理及数据库的启动/关闭... 142.1 实例和参数文件... 142.2 数据库启动与关闭:... 162.3 告警日志:alert_SID.log. 182.4 口令文件... 192.5 添加scott 案例... 21第三章:控制文件... 223.1 控制文件的功能和特点:... 阅读全文
posted @ 2013-09-04 22:15 cphmvp 阅读(2059) 评论(0) 推荐(0) 编辑
摘要: OCP 051课堂笔记目录OCP 051课堂笔记... 1第一章、Oracle命令类别:... 4第二章、SQL的基本函数... 42.1 单行函数与多行函数... 42.2 单行函数的几种类型... 4第三章、SQL的数据类型... 103.1 四种基本的常用数据类型... 103.2 数据类型的转换... 12第四章、WHERE子句中数据的比较和运算... 154.1 隐式比较与显式比较:... 154.2 运算符优先级:... 154.3 用BETWEEN AND操作符来查询出在某一范围内的行. 154.4 模糊查询及其通配符:... 164.5 用IN操作符来检验一个值是否在一个列表中 阅读全文
posted @ 2013-09-04 22:14 cphmvp 阅读(1825) 评论(0) 推荐(0) 编辑
摘要: 1 package cph; 2 3 import java.util.HashMap; 4 import java.util.Iterator; 5 import java.util.Map; 6 7 public class SimilarDegreeByCos 8 { 9 /*10 * 计算两个字符串(英文字符)的相似度,简单的余弦计算,未添权重11 */ 12 public static double getSimilarDegree(String str1, String str2) 13 { 14 /... 阅读全文
posted @ 2013-09-04 11:44 cphmvp 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 引言 HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议的主要特点可概括如下: 1.支持客户/服务器模式。 2.简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规 阅读全文
posted @ 2013-09-04 00:32 cphmvp 阅读(331) 评论(0) 推荐(0) 编辑
爬虫在线测试小工具: http://tool.haoshuju.cn/