摘要:摘要: 本文中我将介绍一下如何在github上搭建个人Blog(博客),也顺便让我们掌握一下github Pages功能,另外还涉及到Jekyll技术。 分割线 一、环境部署: 1.资源下载: 我们之前说过生成网页使用的Jekyll是基于Ruby的技术,所以在这里Ruby是必不可少的。我当前的开发环 阅读全文
posted @ 2016-08-12 14:25 何乐不为~ 阅读(578) 评论(0) 推荐(1) 编辑
摘要:摘要: 本文中我将介绍一下如何在github上搭建个人Blog(博客),也顺便让我们掌握一下github Pages功能,另外还涉及到Jekyll技术。 分割线 一、设计到的技术和工具: 1.技术:Jekyll、Ruby 2.工具:Github和Git客户端 二、技术简介: 1.关于Github: 阅读全文
posted @ 2016-08-12 11:55 何乐不为~ 阅读(585) 评论(0) 推荐(1) 编辑
摘要:摘要: 由于最近AR(增强现实)这个概念非常火爆,各种基于AR的应用及游戏逐渐面向大众,而在AR中最重要的两个技术就是跟踪识别和增强渲染,其中跟踪识别是通过OpenCV这个开源的计算机视觉库来实现的,所以我就想着研究一下这个库,这里是个人的学习笔记,不是什么权威的教程,如果你们有错误也麻烦帮我指出哈 阅读全文
posted @ 2016-08-12 11:52 何乐不为~ 阅读(122701) 评论(35) 推荐(22) 编辑
摘要:前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作,但其实能完成的功能都很简单,假如要进行复制的数据匹配和高效的操作,可以引入第三方的框架,例如Scrapy便是比较常用的爬虫框架。 一、Scrapy的安装: 1.最简单的安装方式: 根据官方主页的指导:ht 阅读全文
posted @ 2016-08-12 11:26 何乐不为~ 阅读(1598) 评论(0) 推荐(0) 编辑
摘要:看完上篇文档之后,我们对于正则表达式已经有了基本的了解,其实学习最有效的办法就是带着问题和目的,这里我们假设有一个目标:获取某个网页上指定规格的图片的链接地址,并下载到本地。 一、实现步骤: 1.在浏览器中打开某个网页,例如:http://tieba.baidu.com/p/4691693167 2 阅读全文
posted @ 2016-08-12 11:08 何乐不为~ 阅读(1271) 评论(0) 推荐(0) 编辑
摘要:之前说过,使用urllib和urllib2,只是为了获取指定URL的html内容,而对内容进行解析和筛选,则需要借助python中的正则表达式来完成。 一、预备知识: 1.正则表达式简述: 什么是正则表达式?正则表达式就是可以匹配文本片段的模式,最简单的正则表达式就是一个字符串,用于在文本中匹配到此 阅读全文
posted @ 2016-08-12 11:00 何乐不为~ 阅读(6194) 评论(0) 推荐(0) 编辑
摘要:在进行真正的爬虫工程创建之前,我们先要明确我们所要操作的对象是什么?完成所有操作之后要获取到的数据或信息是什么? 首先是第一个问题:操作对象,爬虫全称是网络爬虫,顾名思义,它所操作的对象当然就是网页,由于网维网存在的网页数不胜数,所以我们需要指定爬虫对象需要借助URL来定位所要操作的网页。 一、预备 阅读全文
posted @ 2016-08-03 16:10 何乐不为~ 阅读(3920) 评论(0) 推荐(0) 编辑
摘要:关于环境配置的操作,其实非常简单,假如不使用第三方的框架的话,只需要安装Python即可完成后续的操作。 一、Python的安装和配置: windows系统的安装配置过程如下,假如是Mac系统,可参考我之前的文章: Python Web 1 —— python和MongoDB安装 1.下载安装包: 阅读全文
posted @ 2016-08-03 16:02 何乐不为~ 阅读(482) 评论(0) 推荐(0) 编辑
摘要:Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的。 一、爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 二、学习 阅读全文
posted @ 2016-08-03 15:59 何乐不为~ 阅读(419) 评论(0) 推荐(0) 编辑