摘要: 这里只体现了php可以通过批处理文件调用python脚本的效果 控制器代码 访问路径为127.0.0.1/index/index/upload. index模块,index控制器,upload方法。 <?php namespace app\index\controller; use think\Re 阅读全文
posted @ 2019-08-07 17:48 大浪淘沙、 阅读(487) 评论(0) 推荐(0)
摘要: 学习来源与说明 https://www.kancloud.cn/thinkphp/thinkphp5_quickstart 测试与部署均在windows10下进行学习。 示例建立新的模块和控制器 在application模块下,建立新的模块,取名为new_controller,则建立新的文件夹,取名 阅读全文
posted @ 2019-08-05 11:22 大浪淘沙、 阅读(274) 评论(0) 推荐(0)
摘要: 学习来源与说明 https://www.kancloud.cn/thinkphp/thinkphp5_quickstart 测试与部署均在windows10下进行学习。 Composer安装和更新 Composer 是 PHP 用来管理依赖(dependency)关系的工具。可以在自己的项目中声明所 阅读全文
posted @ 2019-08-02 23:13 大浪淘沙、 阅读(765) 评论(1) 推荐(0)
摘要: 目的意义 爬虫框架也许能简化工作量,提高效率等。scrapy是一款方便好用,拓展方便的框架。 本文将使用scrapy框架,示例爬取自己博客中的文章内容。 说明 学习和模仿来源:https://book.douban.com/subject/27061630/。 创建scrapy工程 首先当然要确定好 阅读全文
posted @ 2019-07-27 15:13 大浪淘沙、 阅读(468) 评论(0) 推荐(0)
摘要: 说明 这里只放代码,方案技术没有更变 代码说明 需要cookies绕过登录,使用selenium在Firefox下模拟。需要安装geck...?插件,另外,数据存储在sqlite,需要安装。 Spider.py import HtmlDownloader import HtmlParser impo 阅读全文
posted @ 2019-07-20 23:41 大浪淘沙、 阅读(405) 评论(0) 推荐(0)
摘要: 目的意义 爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用。 来源 少部分来源于书。python爬虫开发与项目实战 构造 本次使用简易的方案,模拟浏览器访问,然后输入字段,查找,然后抓取网页中的信息。存储csv中。然后再转换为Excel,并对其中的数据进行二次处理。 代码 整 阅读全文
posted @ 2019-07-16 18:58 大浪淘沙、 阅读(903) 评论(0) 推荐(0)
摘要: 目标意义 为了理解动态网站中一些数据如何获取,做一个简单的分析。 说明 思路,原始代码来源于:https://book.douban.com/subject/27061630/。 构造-下载器 构造分下载器,下载原始网页,用于原始网页的获取,动态网页中,js部分的响应获取。 通过浏览器模仿,合理制作 阅读全文
posted @ 2019-07-12 17:12 大浪淘沙、 阅读(1246) 评论(3) 推荐(1)
摘要: 目的意义 爬虫应该能够快速高效的完成数据爬取和分析任务。使用多个进程协同完成一个任务,提高了数据爬取的效率。 以百度百科的一条为起点,抓取百度百科2000左右词条数据。 说明 参阅模仿了:https://book.douban.com/subject/27061630/。 作者说是简单的分布式爬虫( 阅读全文
posted @ 2019-06-27 17:32 大浪淘沙、 阅读(583) 评论(0) 推荐(1)
摘要: 目的意义 基础爬虫分5个模块,使用多个文件相互配合,实现一个相对完善的数据爬取方案,便于以后更完善的爬虫做准备。 这里目的是爬取200条百度百科信息,并生成一个html文件,存储爬取的站点,词条,解释。 本文思路来源书籍。其代码部分来源书籍。https://book.douban.com/subje 阅读全文
posted @ 2019-06-09 20:40 大浪淘沙、 阅读(651) 评论(0) 推荐(0)
摘要: 目的意义 使用Email自动发送,有利于实时获取爬取信息,更方便的掌握要闻。 导入相关库 MINEText库定义了发送信息, Header定义了发送的主题 formate定义了收件人和发件人的格式信息。 smtplib定义了发送邮件的方案 time用于延时发送 from email.mime.tex 阅读全文
posted @ 2019-06-07 23:07 大浪淘沙、 阅读(319) 评论(0) 推荐(0)
摘要: 目的 批量下载网页图片 导入库 urllib中的request中的urlretrieve方法,可以下载图片 lxml用于解析网页 requests用于获取网站信息 import urllib from lxml import etree import requests 定义回调函数 回调函数中,co 阅读全文
posted @ 2019-06-07 21:57 大浪淘沙、 阅读(229) 评论(0) 推荐(0)
摘要: 目的 爬取http://seputu.com/数据并存储csv文件 导入库 lxml用于解析解析网页HTML等源码,提取数据。一些参考:https://www.cnblogs.com/zhangxinqi/p/9210211.html requests请求网页 chardet用于判断网页中的字符编码 阅读全文
posted @ 2019-06-07 17:53 大浪淘沙、 阅读(760) 评论(0) 推荐(0)
摘要: 爬取静态数据并存储json import requests import chardet from bs4 import BeautifulSoup import json user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/53 阅读全文
posted @ 2019-06-04 13:26 大浪淘沙、 阅读(218) 评论(0) 推荐(0)
摘要: 创建并显示原始内容 其中的lxml第三方解释器加快解析速度 import bs4 from bs4 import BeautifulSoup html_str = """ <html><head><title>The Dormouse's story</title></head> <body> <p 阅读全文
posted @ 2019-06-02 22:12 大浪淘沙、 阅读(346) 评论(0) 推荐(0)
摘要: 基本模型 请求与响应 import urllib.request as urllib2 request=urllib2.Request('http://www.zhihu.com') response=urllib2.urlopen(request) html=response.read() pri 阅读全文
posted @ 2019-06-02 19:18 大浪淘沙、 阅读(304) 评论(0) 推荐(0)
摘要: import urllib2 源地址 在python3.3里面,用urllib.request代替urllib2 import urllib.request as urllib2 import cookielib 源地址 Python3中,import cookielib改成 import http 阅读全文
posted @ 2019-06-02 17:28 大浪淘沙、 阅读(802) 评论(1) 推荐(0)
摘要: 文件写入 def storFile(data,fileName,method='a'): with open(fileName,method,newline ='') as f: f.write(data) pass pass storFile('123', '1.txt') 文件读取 with o 阅读全文
posted @ 2019-06-01 19:05 大浪淘沙、 阅读(280) 评论(0) 推荐(0)
摘要: 获取响应内容: import requests r=requests.get('http://www.santostang.com/') print(r.encoding) print(r.status_code) print(r.text) 获取编码,状态(200成功,4xx客户端错误,5xx服务 阅读全文
posted @ 2019-05-31 22:10 大浪淘沙、 阅读(468) 评论(0) 推荐(0)
摘要: 囚徒博弈 两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确凿,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。最终 阅读全文
posted @ 2019-05-24 17:16 大浪淘沙、 阅读(1966) 评论(0) 推荐(0)
摘要: 出于未知原因,想装一下。 因为有光盘,所以就从光盘安装就可以了。 首先是配置yum下的下载地址: 找到yum的地址,然后打开文件。 然后建立该文件的/media/cdrom路径。将光盘挂载到该路径下。注意enable取1 查询光盘设备: 挂载光盘到目录下,并查看: 查看配置状态: 完成。 尝试yum 阅读全文
posted @ 2019-05-17 22:40 大浪淘沙、 阅读(550) 评论(0) 推荐(0)