未来可期~~

2020年1月18日

摘要： 1.声明浏览器对象 from selenium import webdriver browser = webdriver.Chrome() # browser = webdriver.Firefox() # browser = webdriver.Edge() 2.访问页面 from seleniu 阅读全文

posted @ 2020-01-18 09:07 未来可期~~ 阅读(1020) 评论(0) 推荐(0)

2020年1月12日

python爬虫13--Ajax数据爬取

摘要： 1. Ajax介绍 Ajax，Asynchronous JavaScript and XML，即异步的JavaScript和XML。它不是编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下，与服务器交换数据并更新部分网页的技术。 2. Ajax基本原理发送Ajax请求阅读全文

posted @ 2020-01-12 19:16 未来可期~~ 阅读(805) 评论(0) 推荐(0)

2020年1月11日

python爬虫12--文件存储之非关系型数据库存储Redis

摘要： 1.Redis连接启动服务： cd redis的安装路径 >redis-server.exe cd redis的安装路径 >redis-cli python中连接redis： #第一种连接 from redis import StrictRedis redis = StrictRedis(host 阅读全文

posted @ 2020-01-11 17:28 未来可期~~ 阅读(251) 评论(0) 推荐(0)

python爬虫11--文件存储之非关系型数据库存储MongoDB

摘要： NoSQL，Not Only SQL，不仅仅是SQL，泛指非关系型数据库，基于键值对的，不需要经过SQL层的解析，数据之间没有耦合性，性能高。非关系型数据库细分如下：键值存储数据库：Redis、Voldemort、Oracle BDB；列表存储数据库：Cassandra、HBase、Riak；阅读全文

posted @ 2020-01-11 08:05 未来可期~~ 阅读(286) 评论(0) 推荐(0)

2020年1月10日

python爬虫10--文件存储之关系型数据库存储

摘要：关系型数据库基于关系模型，而关系模型通过二维表存储，关系型数据库有：SQLite、MySQL、Oracle、SQL Server、DB2等。 MySQL数据库存储 1.连接数据库 import pymysql #用connect()方法申明一个mysql连接对象db db = pymysql.con 阅读全文

posted @ 2020-01-10 06:51 未来可期~~ 阅读(359) 评论(0) 推荐(0)

2020年1月9日

python爬虫9--文件存储之TXT,JSON,CSV

摘要： 1.TXT文件存储 #豆瓣电影TOP250首页电影信息抓取from pyquery import PyQuery as pq import requests url = 'https://movie.douban.com/top250' headers = { 'User-Agent': 'Mozi 阅读全文

posted @ 2020-01-09 06:25 未来可期~~ 阅读(326) 评论(0) 推荐(0)

2020年1月8日

python爬虫8--pyquery解析库

摘要： 1.pyquery介绍 pyquery优势，CSS选择器功能非常强大。 2.初始化解析 2.1字符串初始化 html = ''' <div id="container"> <ul class="list> <li class="li li-first" name="item"><a href="li 阅读全文

posted @ 2020-01-08 07:13 未来可期~~ 阅读(206) 评论(0) 推荐(0)

pyquery安装问题

摘要：问题：在电脑终端安装了pyquery且能正常导入，但在pycharm中不能导入，提示没有该模块。在pycharm setting中安装出现如下错误： AttributeError: module 'pip' has no attribute 'main' 错误原因：当前pip版本中没有main() 阅读全文

posted @ 2020-01-08 05:55 未来可期~~ 阅读(685) 评论(0) 推荐(0)

2020年1月7日

python爬虫7--BeautifulSoup解析库

摘要： 1. BeautifulSoup介绍 HTML或XML的解析库。支持的解析器有： python标准库：BeautifulSoup(markup."html.parser')；执行速度适中，容错能力强；python2.7.3及python3.2.2之前版本容错能力差； lxml HTML解析器：Bea 阅读全文

posted @ 2020-01-07 06:49 未来可期~~ 阅读(301) 评论(0) 推荐(0)

python爬虫6--lxml解析库

摘要： 1. xpath介绍 XML Path Language，即XML路径语言，可以搜索XML文档，也可以搜索HTML文档。 2. 初始化解析 2.1 解析HTML文本： from lxml import etree #导入lxml库的etree模块 html = etree.HTML('res.tex 阅读全文

posted @ 2020-01-07 05:03 未来可期~~ 阅读(359) 评论(0) 推荐(0)

公告