会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
kuluma
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
下一页
2020年3月8日
【BOOK】requests库
摘要: 一、 Request库 1、 GET请求 抓取页面(添加headers,修改headers,防止被网站拦截) #抓取网页,知乎 import requests import re ## 浏览器标识 headers = {'user-agent': "Mozilla/5.0 (Windows NT 1
阅读全文
posted @ 2020-03-08 16:45 kuluma
阅读(351)
评论(0)
推荐(0)
2020年2月27日
【BOOK】爬虫基础
摘要: 一、 HTTP原理 1、URL--统一资源定位符,网页链接‘’ 2、超文本--网页源代码HTML 3、HTTP--超文本传输协议 ——> HTTPS【HTTP+SSL加密(安全性提高)】 HTTP请求—响应 4、HTTP请求 ※请求方法(Request Method) GET POST:提交表单,上
阅读全文
posted @ 2020-02-27 16:51 kuluma
阅读(155)
评论(0)
推荐(0)
2020年2月25日
【MOOC】Scrapy库
摘要: 一、Scrapy爬虫框架 1、‘5+2’结构:5个模块+2个中间键 5个模块 1) Spider【用户配置】: 框架入口,获取初始爬取请求 提供要爬取的url链接,同时解析页面上的内容 解析Downloader返回的响应(Response) 产生爬取项(Scraped Item) 产生额外的爬取请求
阅读全文
posted @ 2020-02-25 17:05 kuluma
阅读(367)
评论(0)
推荐(0)
2020年2月24日
Windows--cmd命令行
摘要: 进入cmd命令行: win+R a1.进入下一级目录命令: cd 文件夹名称 cd 文件夹名称 a2.返回上一级目录命令: cd.. cd..
阅读全文
posted @ 2020-02-24 21:45 kuluma
阅读(161)
评论(0)
推荐(0)
2020年2月22日
【MOOC】【实例】--股票数据定向爬取
摘要: 从股票列表网页获取股票代码 根据股票代码去股票详情页面获取股票详细信息 1、 股票列表页面 凤凰网财经—股票信息 http://app.finance.ifeng.com/list/stock.php?t=ha&f=chg_pct&o=desc&p=1 2、 股票详细信息 老虎社区—股票详情 htt
阅读全文
posted @ 2020-02-22 19:12 kuluma
阅读(1264)
评论(1)
推荐(1)
2020年2月21日
【MOOC】【实例】—淘宝商品比价定向爬虫
摘要: 获取淘宝搜索页面信息,提取商品名称和价格 1、 淘宝搜索接口 2、 翻页处理 import requests import re ## 获取页面 def getHTMLText(url): kv = { 'cookie': 'miid=421313831459957575; _samesite_fl
阅读全文
posted @ 2020-02-21 23:42 kuluma
阅读(1284)
评论(0)
推荐(0)
2020年2月20日
【MOOC】正则表达式--Re库
摘要: Requests库—自动爬取HTML页面,自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面,信息标记与提取方法 Re库—正则表达式,提取页面关键信息 简洁表达字符串,应用于字符串匹配,模糊查找 一、正则表达式常用操作符 二、经典的正则表达式 三
阅读全文
posted @ 2020-02-20 16:41 kuluma
阅读(382)
评论(0)
推荐(0)
【MOOC】【实例】—中国最好大学定向爬取
摘要: “中国最好大学定向爬取”实例 定向爬虫:仅对输入的URL进行爬取,不扩展爬取 三个模块: 1、 从网页上获取大学排名网页内容 getHTMLText() 2、 提取网页内容的信息到合适的数据结构中 fillUnivList() 3、 立用数据结构展示并输出结果 printUnivList() 两个要
阅读全文
posted @ 2020-02-20 15:11 kuluma
阅读(252)
评论(0)
推荐(0)
2020年2月13日
【MOOC】信息标记与提取【<>.find_all()】
摘要: 一、 信息标记的三种形式【标记+信息】 1、 XML 标签,<> </> 扩展性好,但比较繁琐,标签占据大部分内容 用于Internet上的信息交互和传递 2、 JSON 有类型键值对 key : value,JavaScript面向对象 key,value都需要家双引号:”name”:”呱呱” 适
阅读全文
posted @ 2020-02-13 23:21 kuluma
阅读(419)
评论(0)
推荐(0)
【MOOC】BeautifulSoup库
摘要: Requests库—自动爬取HTML页面,自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面,信息标记与提取方法 解析、遍历、维护 “标签树”<> </> 的功能库 一、解析器:根据html文件类型来选择 import requests from
阅读全文
posted @ 2020-02-13 21:35 kuluma
阅读(180)
评论(0)
推荐(0)
上一页
1
2
3
4
5
下一页
公告