2018 年 11月随笔档案 - NAVYSUMMER

在Ubuntu上快速搭建基于Beego的RESTful API

摘要：1. 在Ubuntu中安装Go 1.8 默认Ubuntu apt-get提供的是Go 1.6,而我们要用最新的Go 1.8需要执行以下操作： 1.1 添加apt-get源并刷新 1.2 安装Go 1.8 1.3 设置环境变量等安装完毕后，Go会被安装到/usr/lib/go-1.8目录。我们要执行阅读全文

posted @ 2018-11-27 11:00 NAVYSUMMER 阅读(191) 评论(0) 推荐(0)

docker 出现 Error response from daemon

摘要：第一步：通过dig @114.114.114.114 registry-1.docker.io找到可用IP 第二步：尝试修改/etc/hosts强制docker.io相关的域名解析到其它可用IP 添加一个可用IP：保存之后重试: 验证：成功！阅读全文

posted @ 2018-11-18 10:38 NAVYSUMMER 阅读(1290) 评论(0) 推荐(0)

imread函数、namedWindow函数、imshow函数、imwrite函数

摘要：1.imread函数首先，我们看imread函数，可以在OpenCV官方文档中查到其原型如下：在Windows操作系统下，OpenCV的imread函数支持如下类型的图像载入： JPEG文件 - *.jpeg, *.jpg, *.jpe JPEG 2000文件- *.jp2 PNG图片 - *. 阅读全文

posted @ 2018-11-13 09:56 NAVYSUMMER 阅读(433) 评论(0) 推荐(0)

uwsgi+nginx+django

摘要：root@deepin:/etc/nginx# cat /var/www/mysite/polls.ini [uwsgi] #http = :8000 # Django-related settings # the base directory (full path) chdir = /var/www/mysite # Django's wsgi f... 阅读全文

posted @ 2018-11-12 16:57 NAVYSUMMER

使用uWSGI和nginx来设置Django和你的web服务器

摘要：本教程针对那些想要设置一个生产web服务器的Django用户。它介绍了设置Django以使得其与uWSGI和nginx工作良好的必要步骤。它涵盖了所有三个组成部分，提供了一个web应用和服务器软件的完整栈。 Django 是一个高层次的Python Web框架，鼓励快速开发和干净实用的设计。 ngi 阅读全文

posted @ 2018-11-12 16:50 NAVYSUMMER 阅读(361) 评论(0) 推荐(0)

Selenium库的使用

摘要：一、什么是Selenium selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit 阅读全文

posted @ 2018-11-10 18:07 NAVYSUMMER 阅读(260) 评论(0) 推荐(0)

并发下载

摘要：一、串行爬虫我们之前使用的爬虫方式，都是一个页面接着一个页面下载，也就是使用串行的方式进行爬虫。但是显然这种方式下载的速度是非常的慢的，特别是当我们需要下载大量页面的时候这个问题就会变得更加的突出。所以本节内，就学习如何进行多线程和多进程的并行爬虫。二、多线程爬虫我们在使用多线程进行爬虫的时候阅读全文

posted @ 2018-11-10 16:23 NAVYSUMMER 阅读(211) 评论(0) 推荐(0)

下载缓存

摘要：Python 缓存与持久化缓存算是持久化的一个子集，但是缓存又有自己的过期策略和缓存级别，而持久化基本无过期策略之说。缓存与持久化并不是 Python 爬虫特有的，其他语言都有涉及，所以我们下面既然说要把缓存和持久化放在一起说是建立在持久化缓存的基础上，因为多级缓存策略的内存缓存等不在我们这篇的讨阅读全文

posted @ 2018-11-10 15:55 NAVYSUMMER 阅读(458) 评论(0) 推荐(0)

数据获取的几种方法

摘要：方法一：正则表达式方法二：Beautiful Soup 安装： pip install beautifulsoup4 方发三：Lxml 安装 pip install lxml 阅读全文

posted @ 2018-11-10 11:00 NAVYSUMMER 阅读(1046) 评论(0) 推荐(0)

爬虫陷阱

摘要：目前，我们的爬虫会跟踪所有之前没有访问过的链接。但是，一些网站会动态生成页面内容，这样就会出现无限多的网页。比如，网站有一个在线日历功能，提供了可以访问下个月和下一年的链接，那么下个月的页面中同样会包含访问再下个月的链接，这样页面就会无止境地链接下去，这种情况被称为爬虫陷阱。想要避免陷入爬虫陷阱，阅读全文

posted @ 2018-11-10 10:24 NAVYSUMMER 阅读(399) 评论(0) 推荐(0)

设置代理

摘要：工具： python+urllib2 用法：访问外国网站的代理方案阅读全文

posted @ 2018-11-10 10:09 NAVYSUMMER 阅读(110) 评论(0) 推荐(0)

下载网页

摘要：工具： python+urllib/urllib2/urllib3.... 安装： pip install urllib/urllib2/urllib3 urllib2用法：阅读全文

posted @ 2018-11-10 09:56 NAVYSUMMER 阅读(322) 评论(0) 推荐(0)

获取网站所有者信息

摘要：工具： python+python-whois 安装：用法：阅读全文

posted @ 2018-11-10 09:50 NAVYSUMMER 阅读(361) 评论(0) 推荐(0)

识别网站所用技术

摘要：工具： python+builtwith 安装命令： pip install builtwith 用法：阅读全文

posted @ 2018-11-10 09:47 NAVYSUMMER 阅读(204) 评论(0) 推荐(0)

robots协议

摘要：Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。 Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots E 阅读全文

posted @ 2018-11-10 09:41 NAVYSUMMER 阅读(841) 评论(0) 推荐(0)

NAVYSUMMER

11 2018 档案

公告