随笔分类 -  Python网络爬虫

摘要:MongoDB存储 1、链接MongoDB 指定数据库 指定集合 import pymongo ## 连接数据库 client = pymongo.MongoClient(host='localhost', port=27017) ## 指定数据库 kuluma db = client.kuluma 阅读全文
posted @ 2020-04-26 23:26 kuluma 阅读(157) 评论(0) 推荐(0)
摘要:动态渲染页面爬取 JavaScript动态渲染 其中一种方式是Ajax请求,通过直接分析Ajax再用requests来实现数据爬取 另外一种方式是模拟浏览器运行 一、 Selenium库 Selenium是自动化测试工具,可以驱动浏览器执行特定动作(点击、下拉),还可以获取浏览器当前呈现页面的源代码 阅读全文
posted @ 2020-04-11 16:50 kuluma 阅读(333) 评论(0) 推荐(0)
摘要:Requests获取原始HTML文档,Ajax加载和JavaScript处理的数据无法获得 一、Ajax Ajax—异步的JavaScript和XML Ajax请求页面更新: 1、 发送请求 2、 解析内容 3、 渲染网页 JavaScript向服务器发送了一个Ajax请求 二、Ajax分析方法 查 阅读全文
posted @ 2020-04-03 18:07 kuluma 阅读(542) 评论(0) 推荐(0)
摘要:数据存储 文本文件—TXT、JSON、CSV 关系型数据库—MySQL、SQLite、Oracle、SQL Server、DB2 非关系型数据库—MongoDB、Redis 文件打开 open(),第二个参数设置文件打开方式 ※ r:只读,文件指针在文件开头 ※ rb:二进制只读,文件指针在文件开头 阅读全文
posted @ 2020-03-27 16:34 kuluma 阅读(1386) 评论(0) 推荐(0)
摘要:CSS选择器 1、初始化 html=''' <div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 act 阅读全文
posted @ 2020-03-24 11:43 kuluma 阅读(162) 评论(0) 推荐(0)
摘要:1、安装bs4库 2、解析器 3、节点选择器 from bs4 import BeautifulSoup html = ''' <html> <head><title>这是标题</title></head> <body> <p class="title" name="dromouse"><b>这是标 阅读全文
posted @ 2020-03-19 12:00 kuluma 阅读(190) 评论(0) 推荐(0)
摘要:XPath—XML Path Language 1、安装 lxml库 2、XPath常用规则 3、XPath解析页面 from lxml import etree text = ''' <div> <ul> <li calss='item-1'><a href='link1.html'> first 阅读全文
posted @ 2020-03-15 16:21 kuluma 阅读(155) 评论(0) 推荐(0)
摘要:猫眼电影TOP100页面爬取 https://maoyan.com/board/4 ##猫眼电影TOP100爬取 import requests import re import json import time ## 页面抓取 def get_one_page(url): try: headers 阅读全文
posted @ 2020-03-09 11:25 kuluma 阅读(261) 评论(0) 推荐(0)
摘要:正则表达式 1、 开源中国—正则表达式测试工具:https://tool.oschina.net/regex/ 2、 匹配规则 3、 match() 从字符串起始位置匹配正则表达式 若从起始位置匹配不到则返回None ※目标匹配:在正则表达式中加(),就可以根据括号位置获得匹配到的部分内容 ※通用匹 阅读全文
posted @ 2020-03-08 21:48 kuluma 阅读(234) 评论(0) 推荐(0)
摘要:一、 Request库 1、 GET请求 抓取页面(添加headers,修改headers,防止被网站拦截) #抓取网页,知乎 import requests import re ## 浏览器标识 headers = {'user-agent': "Mozilla/5.0 (Windows NT 1 阅读全文
posted @ 2020-03-08 16:45 kuluma 阅读(354) 评论(0) 推荐(0)
摘要:一、 HTTP原理 1、URL--统一资源定位符,网页链接‘’ 2、超文本--网页源代码HTML 3、HTTP--超文本传输协议 ——> HTTPS【HTTP+SSL加密(安全性提高)】 HTTP请求—响应 4、HTTP请求 ※请求方法(Request Method) GET POST:提交表单,上 阅读全文
posted @ 2020-02-27 16:51 kuluma 阅读(155) 评论(0) 推荐(0)
摘要:一、Scrapy爬虫框架 1、‘5+2’结构:5个模块+2个中间键 5个模块 1) Spider【用户配置】: 框架入口,获取初始爬取请求 提供要爬取的url链接,同时解析页面上的内容 解析Downloader返回的响应(Response) 产生爬取项(Scraped Item) 产生额外的爬取请求 阅读全文
posted @ 2020-02-25 17:05 kuluma 阅读(369) 评论(0) 推荐(0)
摘要:从股票列表网页获取股票代码 根据股票代码去股票详情页面获取股票详细信息 1、 股票列表页面 凤凰网财经—股票信息 http://app.finance.ifeng.com/list/stock.php?t=ha&f=chg_pct&o=desc&p=1 2、 股票详细信息 老虎社区—股票详情 htt 阅读全文
posted @ 2020-02-22 19:12 kuluma 阅读(1270) 评论(1) 推荐(1)
摘要:获取淘宝搜索页面信息,提取商品名称和价格 1、 淘宝搜索接口 2、 翻页处理 import requests import re ## 获取页面 def getHTMLText(url): kv = { 'cookie': 'miid=421313831459957575; _samesite_fl 阅读全文
posted @ 2020-02-21 23:42 kuluma 阅读(1292) 评论(0) 推荐(0)
摘要:Requests库—自动爬取HTML页面,自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面,信息标记与提取方法 Re库—正则表达式,提取页面关键信息 简洁表达字符串,应用于字符串匹配,模糊查找 一、正则表达式常用操作符 二、经典的正则表达式 三 阅读全文
posted @ 2020-02-20 16:41 kuluma 阅读(384) 评论(0) 推荐(0)
摘要:“中国最好大学定向爬取”实例 定向爬虫:仅对输入的URL进行爬取,不扩展爬取 三个模块: 1、 从网页上获取大学排名网页内容 getHTMLText() 2、 提取网页内容的信息到合适的数据结构中 fillUnivList() 3、 立用数据结构展示并输出结果 printUnivList() 两个要 阅读全文
posted @ 2020-02-20 15:11 kuluma 阅读(256) 评论(0) 推荐(0)
摘要:一、 信息标记的三种形式【标记+信息】 1、 XML 标签,<> </> 扩展性好,但比较繁琐,标签占据大部分内容 用于Internet上的信息交互和传递 2、 JSON 有类型键值对 key : value,JavaScript面向对象 key,value都需要家双引号:”name”:”呱呱” 适 阅读全文
posted @ 2020-02-13 23:21 kuluma 阅读(421) 评论(0) 推荐(0)
摘要:Requests库—自动爬取HTML页面,自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面,信息标记与提取方法 解析、遍历、维护 “标签树”<> </> 的功能库 一、解析器:根据html文件类型来选择 import requests from 阅读全文
posted @ 2020-02-13 21:35 kuluma 阅读(181) 评论(0) 推荐(0)
摘要:一、安装Requests库 cmd命令行 pip install requests 二、Requests库7个主要方法 1、requests.request(method , url , **kwargs) method :请求方法 ‘GET’、’HEAD’、’POST’、’PUT’、’PATCH’ 阅读全文
posted @ 2019-11-25 16:17 kuluma 阅读(181) 评论(0) 推荐(0)