大浪淘沙、

2019年9月5日

摘要：数据库的安装：配置好编码、环境变量。文本来源传智javaEE学院一些定义 SQL structured query language 结构化查询语言 DDL Data definition language 数据定义语言 DML Data Manipulation language 数据操纵语阅读全文

posted @ 2019-09-05 10:14 大浪淘沙、阅读(191) 评论(0) 推荐(0)

2019年8月14日

Thinkphp5.0快速入门笔记（3）

摘要：学习来源与说明 https://www.kancloud.cn/thinkphp/thinkphp5_quickstart 测试与部署均在windows10下进行学习。快速入门第三节获取当前的请求信息的四种方案继承think\Controller <?php namespace app\ind 阅读全文

posted @ 2019-08-14 22:09 大浪淘沙、阅读(248) 评论(0) 推荐(0)

2019年8月7日

Thinkphp5.0上传图片与运行python脚本

摘要：这里只体现了php可以通过批处理文件调用python脚本的效果控制器代码访问路径为127.0.0.1/index/index/upload. index模块，index控制器，upload方法。 <?php namespace app\index\controller; use think\Re 阅读全文

posted @ 2019-08-07 17:48 大浪淘沙、阅读(490) 评论(0) 推荐(0)

2019年8月5日

Thinkphp5.0快速入门笔记（2）

摘要：学习来源与说明 https://www.kancloud.cn/thinkphp/thinkphp5_quickstart 测试与部署均在windows10下进行学习。示例建立新的模块和控制器在application模块下，建立新的模块，取名为new_controller，则建立新的文件夹，取名阅读全文

posted @ 2019-08-05 11:22 大浪淘沙、阅读(278) 评论(0) 推荐(0)

2019年8月2日

Thinkphp5.0快速入门笔记（1）

摘要：学习来源与说明 https://www.kancloud.cn/thinkphp/thinkphp5_quickstart 测试与部署均在windows10下进行学习。 Composer安装和更新 Composer 是 PHP 用来管理依赖（dependency）关系的工具。可以在自己的项目中声明所阅读全文

posted @ 2019-08-02 23:13 大浪淘沙、阅读(773) 评论(1) 推荐(0)

2019年7月27日

python网络爬虫（14）使用Scrapy搭建爬虫框架

摘要：目的意义爬虫框架也许能简化工作量，提高效率等。scrapy是一款方便好用，拓展方便的框架。本文将使用scrapy框架，示例爬取自己博客中的文章内容。说明学习和模仿来源：https://book.douban.com/subject/27061630/。创建scrapy工程首先当然要确定好阅读全文

posted @ 2019-07-27 15:13 大浪淘沙、阅读(471) 评论(0) 推荐(0)

2019年7月20日

python网络爬虫（13）博客园用户信息爬取

摘要：说明这里只放代码，方案技术没有更变代码说明需要cookies绕过登录，使用selenium在Firefox下模拟。需要安装geck...？插件，另外，数据存储在sqlite，需要安装。 Spider.py import HtmlDownloader import HtmlParser impo 阅读全文

posted @ 2019-07-20 23:41 大浪淘沙、阅读(405) 评论(0) 推荐(0)

2019年7月16日

python网络爬虫（12）去哪网酒店信息爬取

摘要：目的意义爬取某地的酒店价格信息，示例使用selenium在Firefox中的使用。来源少部分来源于书。python爬虫开发与项目实战构造本次使用简易的方案，模拟浏览器访问，然后输入字段，查找，然后抓取网页中的信息。存储csv中。然后再转换为Excel，并对其中的数据进行二次处理。代码整阅读全文

posted @ 2019-07-16 18:58 大浪淘沙、阅读(909) 评论(0) 推荐(0)

2019年7月12日

python网络爬虫（11）近期电影票房或热度信息爬取

摘要：目标意义为了理解动态网站中一些数据如何获取，做一个简单的分析。说明思路，原始代码来源于：https://book.douban.com/subject/27061630/。构造-下载器构造分下载器，下载原始网页，用于原始网页的获取，动态网页中，js部分的响应获取。通过浏览器模仿，合理制作阅读全文

posted @ 2019-07-12 17:12 大浪淘沙、阅读(1249) 评论(3) 推荐(1)

2019年6月27日

python网络爬虫（10）分布式爬虫爬取静态数据

摘要：目的意义爬虫应该能够快速高效的完成数据爬取和分析任务。使用多个进程协同完成一个任务，提高了数据爬取的效率。以百度百科的一条为起点，抓取百度百科2000左右词条数据。说明参阅模仿了：https://book.douban.com/subject/27061630/。作者说是简单的分布式爬虫（阅读全文

posted @ 2019-06-27 17:32 大浪淘沙、阅读(587) 评论(0) 推荐(1)

2019年6月9日

python网络爬虫（9）构建基础爬虫思路

摘要：目的意义基础爬虫分5个模块，使用多个文件相互配合，实现一个相对完善的数据爬取方案，便于以后更完善的爬虫做准备。这里目的是爬取200条百度百科信息，并生成一个html文件，存储爬取的站点，词条，解释。本文思路来源书籍。其代码部分来源书籍。https://book.douban.com/subje 阅读全文

posted @ 2019-06-09 20:40 大浪淘沙、阅读(653) 评论(0) 推荐(0)

2019年6月7日

python的Email提醒

摘要：目的意义使用Email自动发送，有利于实时获取爬取信息，更方便的掌握要闻。导入相关库 MINEText库定义了发送信息， Header定义了发送的主题 formate定义了收件人和发件人的格式信息。 smtplib定义了发送邮件的方案 time用于延时发送 from email.mime.tex 阅读全文

posted @ 2019-06-07 23:07 大浪淘沙、阅读(320) 评论(0) 推荐(0)

python网络爬虫（8）多媒体文件抽取

摘要：目的批量下载网页图片导入库 urllib中的request中的urlretrieve方法，可以下载图片 lxml用于解析网页 requests用于获取网站信息 import urllib from lxml import etree import requests 定义回调函数回调函数中，co 阅读全文

posted @ 2019-06-07 21:57 大浪淘沙、阅读(233) 评论(0) 推荐(0)

python网络爬虫（7）爬取静态数据详解

摘要：目的爬取http://seputu.com/数据并存储csv文件导入库 lxml用于解析解析网页HTML等源码，提取数据。一些参考：https://www.cnblogs.com/zhangxinqi/p/9210211.html requests请求网页 chardet用于判断网页中的字符编码阅读全文

posted @ 2019-06-07 17:53 大浪淘沙、阅读(762) 评论(0) 推荐(0)

2019年6月4日

python网络爬虫（6）爬取数据静态

摘要：爬取静态数据并存储json import requests import chardet from bs4 import BeautifulSoup import json user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/53 阅读全文

posted @ 2019-06-04 13:26 大浪淘沙、阅读(219) 评论(0) 推荐(0)

2019年6月2日

python网络爬虫（5）BeautifulSoup的使用示范

摘要：创建并显示原始内容其中的lxml第三方解释器加快解析速度 import bs4 from bs4 import BeautifulSoup html_str = """ <html><head><title>The Dormouse's story</title></head> <body> <p 阅读全文

posted @ 2019-06-02 22:12 大浪淘沙、阅读(347) 评论(0) 推荐(0)

python网络爬虫（4）结构与基本概念

摘要：基本模型请求与响应 import urllib.request as urllib2 request=urllib2.Request('http://www.zhihu.com') response=urllib2.urlopen(request) html=response.read() pri 阅读全文

posted @ 2019-06-02 19:18 大浪淘沙、阅读(304) 评论(0) 推荐(0)

python网络爬虫（3）python爬虫遇到的各种问题（python版本、进程等）

摘要： import urllib2 源地址在python3.3里面，用urllib.request代替urllib2 import urllib.request as urllib2 import cookielib 源地址 Python3中，import cookielib改成 import http 阅读全文

posted @ 2019-06-02 17:28 大浪淘沙、阅读(806) 评论(1) 推荐(0)

2019年6月1日

python网络爬虫（2）回顾Python编程

摘要：文件写入 def storFile(data,fileName,method='a'): with open(fileName,method,newline ='') as f: f.write(data) pass pass storFile('123', '1.txt') 文件读取 with o 阅读全文

posted @ 2019-06-01 19:05 大浪淘沙、阅读(283) 评论(0) 推荐(0)

2019年5月31日

python网络爬虫（1）静态网页抓取

摘要：获取响应内容： import requests r=requests.get('http://www.santostang.com/') print(r.encoding) print(r.status_code) print(r.text) 获取编码，状态（200成功，4xx客户端错误，5xx服务阅读全文

posted @ 2019-05-31 22:10 大浪淘沙、阅读(472) 评论(0) 推荐(0)

不积跬步无以至千里，不积小流无以成江海，骐骥一跃不能十步，驽马十驾功在不舍。

公告