04 2017 档案
摘要:1、爬虫技术概述 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从
        阅读全文
                
摘要:1,如何模拟登陆2,验证码识别3,分布式爬取网页4,数据存储5,网页更新6,基于关键字的微博爬取 然后上面的每一个问题其实研究起来都是很有意思的。虽然上面的每一个问题都有很多人解决,但是我感觉都不是很漂亮,下面一点一点来分析:第一个,模拟登陆。我估计啊,每一个爬微博数据的人都会花费50%的时间在这,
        阅读全文
                
摘要:前言: 爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个: 爬虫任务的统一调度 爬虫任务的统一去重 存储问题 速度问题 足够“健壮”的情况下实现起来越简单/方便越好 最好支持“断点续爬”功能 Python分布式爬虫比较常用的应
        阅读全文
                
摘要:爬虫写得多了,就感到有些乏。这个乏,指的并不是乏味,而是更广一些的,浑身使不上劲的SIW 乏。从务实的角度看,现有的答案已经回答地非常全面,无可指摘了。相信大多数人的爬虫入门都和我类似,先从urllib2入手,写一个最简陋的get,面对一大堆源码无所 适从。接着开始接触传说中给人用的requests
        阅读全文
                
摘要:这个要看你想抓取的网页数量是哪种规模的。如果是千万以下用hash表, set, 布隆过滤器基本可以解决,如果是海量的。。。。。。嗯我也没做过海量的,不过hash表之类的就别想了,内存根本不够,分割线下面是我的一个想法,欢迎大家讨论。布隆过滤器,大概几十行代码就可以实现。可以节省很多内存(我自己写了一
        阅读全文
                
摘要:广度优先算法介绍 整个的广度优先爬虫过程就是从一系列的种子节点开始,把这些网页中的"子节点"(也就是超链接)提取出来,放入队列中依次进行抓取。被处理过的链接需要放 入一张表(通常称为Visited表)中。每次新处理一个链接之前,需要查看这个链接是否已经存在于Visited表中。如果存在,证明链接已经
        阅读全文
                
摘要:CentOS7输入中文,打开终端,使用管理员权限 su su 输入管理员密码,回车 输入 yum install ibus-libpinyin yum install ibus-libpinyin 回车,耐心等待安装完,然后重启系统 重启完后再进行前面的步骤,添加拼音输入法。设置快捷键。然后就可以用
        阅读全文
                
摘要:yum update yum makecache yum autoremove清理依赖包
        阅读全文
                
摘要:1.进入python官网https://www.python.org/2.导航栏选择Download -> Windows3.按照系统版本点击选择32、64位安装包64 Windows x86-64 executable installer32 Windows x86 executable inst
        阅读全文
                
摘要:第一步:使用font-face声明字体@font-face {font-family: 'iconfont';src: url('iconfont.eot'); /* IE9*/src: url('iconfont.eot?#iefix') format('embedded-opentype'), 
        阅读全文
                
摘要:1.下载tomcat稳定版本7.0 2.下载JRE进入网站http://www.oracle.com/technetwork/java/javase/downloads/index.html选择下载server JRE 64位软件包 3.解压删除文件tar -zxvf apache-tomcat-7
        阅读全文
                
摘要:1.保存HTML相关源文件 浏览器进入相关网页,Ctril + S 保存原网页相关文件 在目标网页中打开控制台 2.修改HTML引入的相关文件 查看ELements选项卡下面的内容 根据显示的HTML源代码中的head标签的内容 更改CSS JS文件引入的路径 3.修改HTML外部元素的引入路径 查
        阅读全文
                
摘要:1.格式化代码 Edit - Line - Reindent(中文路径则是:编辑 - 行 - 再次缩进) 2.分屏显示 view-layout-Columns:2(中文路径则是:查看 - 布局 - 列:2) 3.生成HTML文档头部 安装emmet 1)Ctrl + Shift + P 2)在弹出来
        阅读全文
                
摘要:ssh连接超时问题解决方案:1.修改server端的etc/ssh/sshd_configClientAliveInterval 60 #server每隔60秒发送一次请求给client,然后client响应,从而保持连接ClientAliveCountMax 3 #server发出请求后,客户端没
        阅读全文
                
摘要:使用ssh远程连接服务器,有两种身份校验方式:账号密码和秘钥。使用秘钥的方式理论上更加安全,而且免去了输入密码的步骤,使用起来更方便(尤其对于sftp,scp等)。 设置 SSH,打开密钥登录功能 编辑 /etc/ssh/sshd_config 文件,进行如下设置: 留意 root 用户能否通过 S
        阅读全文
                
摘要:为解决官方发布的软件包被别人更改或者软件在传输过程中出现传输错误等问题,软件官方在提供软件包的同时,还提供一个保存MD5校验码的文件。 Linux/unix中可以使用 md5sum 文件名 sha1sum 文件名 将会直接输出校验值 也可以将校验值存入文件夹中 md5sum 文件名 > 文件名.tx
        阅读全文
                
摘要:1.axel 下载安装yum install axel 这个软件下载速度实时显示
        阅读全文
                
摘要:1.配置epel yum 源 http://www.cnblogs.com/wangshuyi/p/6150575.html 2.过滤软件包安装 yum install NetworkManager- 按Tab键 筛选出类似NetworkManager-pptp-gnome类似的插件补全安装 例如下
        阅读全文
                
摘要:Linux下编译软件时指定安装目录 1、 源码的安装步骤 源码的安装一般由3个步骤组成: ** 1). 配置(configure)、 2). 编译(make)、 3). 安装(make install)。 ** 2、 ./configure –prefix=/usr/local/test Confi
        阅读全文
                
摘要:自定义函数 创建自定义函数 CREATE FUNCTION function_name RETURNS {STRING | INTERGER | REAL | DECIMAL} routine_body 关于函数体 函数体由合法的SQL语句构成 函数体可以是简单的SELECT或INSERT语句 函数
        阅读全文
                

浙公网安备 33010602011771号