Python网络爬虫 - 随笔分类 - kuluma

【BOOK】数据存储--MongoDB

摘要：MongoDB存储 1、链接MongoDB 指定数据库指定集合 import pymongo ## 连接数据库 client = pymongo.MongoClient(host='localhost', port=27017) ## 指定数据库 kuluma db = client.kuluma 阅读全文

posted @ 2020-04-26 23:26 kuluma 阅读(157) 评论(0) 推荐(0)

【BOOK】动态渲染页面爬取--Selenium库

摘要：动态渲染页面爬取 JavaScript动态渲染其中一种方式是Ajax请求，通过直接分析Ajax再用requests来实现数据爬取另外一种方式是模拟浏览器运行一、 Selenium库 Selenium是自动化测试工具，可以驱动浏览器执行特定动作(点击、下拉)，还可以获取浏览器当前呈现页面的源代码阅读全文

posted @ 2020-04-11 16:50 kuluma 阅读(333) 评论(0) 推荐(0)

【BOOK】Ajax数据爬取

摘要：Requests获取原始HTML文档，Ajax加载和JavaScript处理的数据无法获得一、Ajax Ajax—异步的JavaScript和XML Ajax请求页面更新： 1、发送请求 2、解析内容 3、渲染网页 JavaScript向服务器发送了一个Ajax请求二、Ajax分析方法查阅读全文

posted @ 2020-04-03 18:07 kuluma 阅读(542) 评论(0) 推荐(0)

【BOOK】数据存储—文件存储(TXT、JSON、CSV)

摘要：数据存储文本文件—TXT、JSON、CSV 关系型数据库—MySQL、SQLite、Oracle、SQL Server、DB2 非关系型数据库—MongoDB、Redis 文件打开 open()，第二个参数设置文件打开方式 ※ r：只读，文件指针在文件开头 ※ rb：二进制只读，文件指针在文件开头阅读全文

posted @ 2020-03-27 16:34 kuluma 阅读(1386) 评论(0) 推荐(0)

【BOOK】解析库--pyquery

摘要：CSS选择器 1、初始化 html=''' <div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 act 阅读全文

posted @ 2020-03-24 11:43 kuluma 阅读(162) 评论(0) 推荐(0)

【BOOK】解析库--Beautiful Soup

摘要：1、安装bs4库 2、解析器 3、节点选择器 from bs4 import BeautifulSoup html = ''' <html> <head><title>这是标题</title></head> <body> <p class="title" name="dromouse"><b>这是标阅读全文

posted @ 2020-03-19 12:00 kuluma 阅读(190) 评论(0) 推荐(0)

【BOOK】解析库—XPath

摘要：XPath—XML Path Language 1、安装 lxml库 2、XPath常用规则 3、XPath解析页面 from lxml import etree text = ''' <div> <ul> <li calss='item-1'><a href='link1.html'> first 阅读全文

posted @ 2020-03-15 16:21 kuluma 阅读(155) 评论(0) 推荐(0)

【BOOK】【实例】【requests库+正则表达式】猫眼TOP100电影排名爬取

摘要：猫眼电影TOP100页面爬取 https://maoyan.com/board/4 ##猫眼电影TOP100爬取 import requests import re import json import time ## 页面抓取 def get_one_page(url): try: headers 阅读全文

posted @ 2020-03-09 11:25 kuluma 阅读(261) 评论(0) 推荐(0)

【BOOK】正则表达式

摘要：正则表达式 1、开源中国—正则表达式测试工具：https://tool.oschina.net/regex/ 2、匹配规则 3、 match() 从字符串起始位置匹配正则表达式若从起始位置匹配不到则返回None ※目标匹配：在正则表达式中加()，就可以根据括号位置获得匹配到的部分内容 ※通用匹阅读全文

posted @ 2020-03-08 21:48 kuluma 阅读(234) 评论(0) 推荐(0)

【BOOK】requests库

摘要：一、 Request库 1、 GET请求抓取页面（添加headers，修改headers，防止被网站拦截） #抓取网页，知乎 import requests import re ## 浏览器标识 headers = {'user-agent': "Mozilla/5.0 (Windows NT 1 阅读全文

posted @ 2020-03-08 16:45 kuluma 阅读(354) 评论(0) 推荐(0)

【BOOK】爬虫基础

摘要：一、 HTTP原理 1、URL--统一资源定位符，网页链接‘’ 2、超文本--网页源代码HTML 3、HTTP--超文本传输协议 ——> HTTPS【HTTP+SSL加密(安全性提高)】 HTTP请求—响应 4、HTTP请求 ※请求方法(Request Method) GET POST：提交表单，上阅读全文

posted @ 2020-02-27 16:51 kuluma 阅读(155) 评论(0) 推荐(0)

【MOOC】Scrapy库

摘要：一、Scrapy爬虫框架 1、‘5+2’结构：5个模块+2个中间键 5个模块 1) Spider【用户配置】：框架入口，获取初始爬取请求提供要爬取的url链接，同时解析页面上的内容解析Downloader返回的响应(Response) 产生爬取项(Scraped Item) 产生额外的爬取请求阅读全文

posted @ 2020-02-25 17:05 kuluma 阅读(369) 评论(0) 推荐(0)

【MOOC】【实例】--股票数据定向爬取

摘要：从股票列表网页获取股票代码根据股票代码去股票详情页面获取股票详细信息 1、股票列表页面凤凰网财经—股票信息 http://app.finance.ifeng.com/list/stock.php?t=ha&f=chg_pct&o=desc&p=1 2、股票详细信息老虎社区—股票详情 htt 阅读全文

posted @ 2020-02-22 19:12 kuluma 阅读(1270) 评论(1) 推荐(1)

【MOOC】【实例】—淘宝商品比价定向爬虫

摘要：获取淘宝搜索页面信息，提取商品名称和价格 1、淘宝搜索接口 2、翻页处理 import requests import re ## 获取页面 def getHTMLText(url): kv = { 'cookie': 'miid=421313831459957575; _samesite_fl 阅读全文

posted @ 2020-02-21 23:42 kuluma 阅读(1292) 评论(0) 推荐(0)

【MOOC】正则表达式--Re库

摘要：Requests库—自动爬取HTML页面，自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面，信息标记与提取方法 Re库—正则表达式，提取页面关键信息简洁表达字符串，应用于字符串匹配，模糊查找一、正则表达式常用操作符二、经典的正则表达式三阅读全文

posted @ 2020-02-20 16:41 kuluma 阅读(384) 评论(0) 推荐(0)

【MOOC】【实例】—中国最好大学定向爬取

摘要：“中国最好大学定向爬取”实例定向爬虫：仅对输入的URL进行爬取，不扩展爬取三个模块： 1、从网页上获取大学排名网页内容 getHTMLText() 2、提取网页内容的信息到合适的数据结构中 fillUnivList() 3、立用数据结构展示并输出结果 printUnivList() 两个要阅读全文

posted @ 2020-02-20 15:11 kuluma 阅读(256) 评论(0) 推荐(0)

【MOOC】信息标记与提取【<>.find_all()】

摘要：一、信息标记的三种形式【标记+信息】 1、 XML 标签，<> </> 扩展性好，但比较繁琐，标签占据大部分内容用于Internet上的信息交互和传递 2、 JSON 有类型键值对 key : value，JavaScript面向对象 key，value都需要家双引号：”name”:”呱呱” 适阅读全文

posted @ 2020-02-13 23:21 kuluma 阅读(421) 评论(0) 推荐(0)

【MOOC】BeautifulSoup库

摘要：Requests库—自动爬取HTML页面，自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面，信息标记与提取方法解析、遍历、维护 “标签树”<> </> 的功能库一、解析器：根据html文件类型来选择 import requests from 阅读全文

posted @ 2020-02-13 21:35 kuluma 阅读(181) 评论(0) 推荐(0)

【MOOC】Requests库

摘要：一、安装Requests库 cmd命令行 pip install requests 二、Requests库7个主要方法 1、requests.request(method , url , **kwargs) method ：请求方法 ‘GET’、’HEAD’、’POST’、’PUT’、’PATCH’ 阅读全文

posted @ 2019-11-25 16:17 kuluma 阅读(181) 评论(0) 推荐(0)

kuluma

随笔分类 - Python网络爬虫

公告