09 2018 档案
摘要:## Python扩展包 ### 1、NumPy NumPy提供了多种python本身不支持的多种集合,有list、ndarray和ufunc。 - list 更加灵活的数组,支持多维,数据可不同型,存储数量远大于array。array只支持同型数据,空间有限。 - ndarray 多维数组类,方便操纵多维数组,数据必须同型,操纵高效。 - ufunc 对数组进行高效处...
阅读全文
摘要:## Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上。
阅读全文
摘要:## IDEA中git的配置与使用 ### 1、介绍 git是目前非常流行的版本管理管理软件,因其具有分布式特点,越来越受到企业的欢迎。IDEA作为一款优秀的开发软件,其内部也提供了对git的支持。 ### 2、下载并安装git软件包 请参考“Git代码管理”一文,这里不做赘述。 ### 3、配置idea中的git目录 在settings中搜索git,指定git.exe文件即可,如图...
阅读全文
摘要:## Typora使用 ### 1、介绍 typora是一款不错的软件。 #### 1.1 基本使用 1. html
2. js
3. css
4. python
5. java
6. vb #### 1.2 无序列表 - a - b - c - d - e - f #### 1.3 java代码 ```python
public void add(){ Syst...
阅读全文
摘要:## Hadoop federation配置 ### 1、介绍 hadoop federation也称为联邦,主要是对namenode进行扩容。HA模式下只是实现了hadoop namenode的高可用,但是随着文件数据的不断增家,导致对namenode的压力越来越大,因此就需要对namenode的负载进行均衡处理。联邦的本质是配置多个namenode集群,将不同的路径映射到不同的集群上即可。...
阅读全文
摘要:## Git代码管理 ### 1、介绍 #### 1.1 Git概述 Git是类似于SVN、CVS等代码管理软件,使用分布式技术实现。Github是互联网代码仓库,每个人都可以在上面创建自己的仓库,使用git完成同github仓库的代码同步等管理工作。 ```sequence
IntelliJ idea->Git: 使用
Git->GitHub: 同步资源
``` #### 1.2 G...
阅读全文
摘要:## HTML-JS-CSS基础 ### 1、html hyper text markup language,超文本标记语言,所见即所得。web开发中用于展示功能的部分,浏览器可对其进行渲染。产生各种可视化组件,比如表格、图片、按钮等。 ```html this is title! hello ...
阅读全文
摘要:## Typora使用 ### 1、介绍 typora是一款不错的软件。 #### 1.1 基本使用 1. html
2. js
3. css
4. python
5. java
6. vb #### 1.2 无序列表 - a - b - c - d - e - f #### 1.3 java代码 ```python
public void add(){ Syst...
阅读全文
摘要:Typora使用 1、介绍 typora是一款不错的软件。 1.1 基本使用 1. html 2. js 3. css 4. python 5. java 6. vb 1.2 无序列表 a b c d e f 1.3 java代码 1.4 引用文档 使用其他人说的话,克里顿说: hello wrol
阅读全文
摘要:## 分布式爬虫-Kafka监控 ### 1、介绍
阅读全文
摘要:## MySQL ### 1、介绍 ### 2、隔离级别 ```mysql -- mysql>select @@tx_isolation ; -- 当前会话 mysql>select @@session.tx_isolation ; -- 查询全局 mysql>select @@global.tx_isolation ; -- 设置隔离级别,必须在事务启动前设置 mysql>set tr...
阅读全文
摘要:## SQL优化 ### 1、介绍 在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是随着互联网大数据的兴起,随着数据库中数据的增加,系统的响应速度就成为目前系统需要解决的最主要的问题之一。 系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据,劣质SQL语句和优质SQL语句之间的速度差别可以达到**上百倍*...
阅读全文
摘要:## Spring ### 1、介绍 Spring是业务层框架,在web开放领域使用广泛。Spring中设计两个思想,AOP和IOC。Spring是容器技术,提供强大的Bean管理机制。 ### 2、体验Spring 1. 引入maven依赖 ```xml 4.0.0 com.oldboy myspring 1.0-SNAP...
阅读全文
摘要:## Mybatis ### 1、mybatis介绍 mybatis是sqlmap技术,对jdbc进行封装,将大量的sql语句外部化。 ### 2、体验mybatis 1. 准备数据库和表 ```sql mysql>create table users(id int primary key auto_increment , ...
阅读全文
摘要:## 类加载器 ### 1、介绍 类加载器,加载类到JVM中。主要做的寻找类,通过将完整类名映射成相应的目录,按照目录进行搜索。尝试使用当前的类加载器,如果加载不到,再使用父加载器加载,否则再向上找。 类加载过程是使用当前类的类加载加载指定的类的,如果加载不到,再使用上级类加载器进行加载。 ### 2、java ClassLoader java类加载时三级类加载机制,分别是: - Bo...
阅读全文
摘要:## 数据仓库分层 ### 1、介绍 数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新。 两者并无冲突,相反,而是一种更好的结合。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。 ### 2、为什么要分层 分层的主要原因是在管理数据的时候,能对...
阅读全文
摘要:## Hadoop常用操作 ### 1、Hadoop安装 略 ### 2、Hadoop配置 略 ### 3、Hadoop多目录配置 namenode和datanode节点下都可以进行多个目录的配置,但是意义不同。namenode的多目录配置是副本策略,保证数据可靠性,datanode多目录配置是对容量进行扩容,由于datanode已经有副本机制了。 [hdfs-site.xml] ...
阅读全文
摘要:## Hive基础 ### 1、介绍 Hive是OLAP(online analyze process,在线分析处理)。通常称为数据仓库,简称数仓。内置很多分析函数,可进行海量数据的在线分析处理。hive构建在hadoop之上,使用hdfs作为进行存储,计算过程采用的是Mapreduce完成,本质上hive是对hadoop的mr的封装,通过原始的mr方式进行数据处理与分析,往往效率较低,而且具...
阅读全文
摘要:## 快速启动 提示,快速启动构成均在centos上完成,其中redis服务器采用的是root用户安装,因此为避免权限问题,建议使用root用户进行操作。 ### 1、下载软件包 ```shell
https://github.com/istresearch/scrapy-cluster/archive/v1.2.1.zip
https://github.com/istresearch/sc...
阅读全文
摘要:## 分布式爬虫 ### 1、概览 该项目使用kafka和redis构建分布式爬虫集群。在多个spider实例间分发url的种子,这些请求通过redis进行协同。由于边界扩展或深度遍历的特点,任何其他抓取这些触发器的内容也将在集群中的所有工作程序之间分发。 系统的输入是一组Kafka主题,输出是一组Kafka主题。原始HTML和资源以交互方式,spider和日志输出方式进行爬网。 ### ...
阅读全文
摘要:## 爬虫 ### 1、设计 分布式爬虫系统允许位于多个不同主机上的爬虫程序并行爬取提交的爬虫作业,进而协调他们之间的爬取能力。爬取队列由redis管理,每个spider通过修改的调度程序从queue中拉取job。 页面被spider成功爬取后,就交给管线进行进一步处理。如果页面没有成功爬取,重试中间件重新提交页面给后端queue,以备由其他爬虫进行重试爬取。 link spider是分布...
阅读全文
摘要:## 设计模式 ### 1、介绍 GOF是Gang of four(四人帮)的简称,是由四位java业界的专家编写的针对特定场景下问题的专家级解决方案。大概包含23中设计模式,设计模式本身与技术没有太大关系,主要是设计思想的运用,比较著名的像单例模式、工厂模式等。本文不打算给出所有设计模式的说明,主要给出实际应用较普遍的几种且比较经典的设计模式。 ### 2、单例模式 单例模式是最经典的设...
阅读全文
摘要:## 多线程 ### 1、介绍 线程是同一进程内同时执行的多个代码段。宏观上并行,微观上串行,对于每块CPU来说,同一时刻,CPU只能执行同一条指令,但是对于多核系统来说,可以做到真正的并行。线程间可以共享内存,进程间不能共享内存。 ### 2、创建线程的方式 创建线程的方式有两种,可以通过Thread类直接创建,也可以通过实现Runnable接口,传递给Thread构造函数来创建。后者可...
阅读全文
摘要:## 集合、数据结构、时间复杂度 ### 1、集合 #### 1.1 概述 java集合分为三种类型,List、set和Map。List有序,可以重复。Set无序不重复。Map是Key-value对类型,其中Key具有set的特点。 #### 1.2 List List java中有ArrayList和LinkedList两种实现。 - ArrayList 通过数组来实现,擅长读...
阅读全文
摘要:## 基本数据类型-位运算-字符集-流 ### 1、基本类型 | 类型 | 字节数 | 范围 | | :-----: | :--: | :------------------------: | | byte | 1 | -128 ~ 127 | | short | 2 | ...
阅读全文
摘要:## HUE安装与使用 ### 1、介绍 HUE是一个开源的Apache Hadoop UI系统,早期由Cloudera开发,后来贡献给开源社区。它是基于Python Web框架Django实现的。通过使用Hue我们可以通过浏览器方式操纵Hadoop集群。例如put、get、执行MapReduce Job等等。 ### 2、安装 #### 2.1 安装hue依赖的第三方包 ```shel...
阅读全文

浙公网安备 33010602011771号