kuluma

2020年3月8日

摘要：一、 Request库 1、 GET请求抓取页面（添加headers，修改headers，防止被网站拦截） #抓取网页，知乎 import requests import re ## 浏览器标识 headers = {'user-agent': "Mozilla/5.0 (Windows NT 1 阅读全文

posted @ 2020-03-08 16:45 kuluma 阅读(354) 评论(0) 推荐(0)

2020年2月27日

【BOOK】爬虫基础

摘要：一、 HTTP原理 1、URL--统一资源定位符，网页链接‘’ 2、超文本--网页源代码HTML 3、HTTP--超文本传输协议 ——> HTTPS【HTTP+SSL加密(安全性提高)】 HTTP请求—响应 4、HTTP请求 ※请求方法(Request Method) GET POST：提交表单，上阅读全文

posted @ 2020-02-27 16:51 kuluma 阅读(155) 评论(0) 推荐(0)

2020年2月25日

【MOOC】Scrapy库

摘要：一、Scrapy爬虫框架 1、‘5+2’结构：5个模块+2个中间键 5个模块 1) Spider【用户配置】：框架入口，获取初始爬取请求提供要爬取的url链接，同时解析页面上的内容解析Downloader返回的响应(Response) 产生爬取项(Scraped Item) 产生额外的爬取请求阅读全文

posted @ 2020-02-25 17:05 kuluma 阅读(369) 评论(0) 推荐(0)

2020年2月24日

Windows--cmd命令行

摘要：进入cmd命令行： win+R a1.进入下一级目录命令: cd 文件夹名称 cd 文件夹名称 a2.返回上一级目录命令: cd.. cd.. 阅读全文

posted @ 2020-02-24 21:45 kuluma 阅读(165) 评论(0) 推荐(0)

2020年2月22日

【MOOC】【实例】--股票数据定向爬取

摘要：从股票列表网页获取股票代码根据股票代码去股票详情页面获取股票详细信息 1、股票列表页面凤凰网财经—股票信息 http://app.finance.ifeng.com/list/stock.php?t=ha&f=chg_pct&o=desc&p=1 2、股票详细信息老虎社区—股票详情 htt 阅读全文

posted @ 2020-02-22 19:12 kuluma 阅读(1269) 评论(1) 推荐(1)

2020年2月21日

【MOOC】【实例】—淘宝商品比价定向爬虫

摘要：获取淘宝搜索页面信息，提取商品名称和价格 1、淘宝搜索接口 2、翻页处理 import requests import re ## 获取页面 def getHTMLText(url): kv = { 'cookie': 'miid=421313831459957575; _samesite_fl 阅读全文

posted @ 2020-02-21 23:42 kuluma 阅读(1291) 评论(0) 推荐(0)

2020年2月20日

【MOOC】正则表达式--Re库

摘要： Requests库—自动爬取HTML页面，自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面，信息标记与提取方法 Re库—正则表达式，提取页面关键信息简洁表达字符串，应用于字符串匹配，模糊查找一、正则表达式常用操作符二、经典的正则表达式三阅读全文

posted @ 2020-02-20 16:41 kuluma 阅读(384) 评论(0) 推荐(0)

【MOOC】【实例】—中国最好大学定向爬取

摘要： “中国最好大学定向爬取”实例定向爬虫：仅对输入的URL进行爬取，不扩展爬取三个模块： 1、从网页上获取大学排名网页内容 getHTMLText() 2、提取网页内容的信息到合适的数据结构中 fillUnivList() 3、立用数据结构展示并输出结果 printUnivList() 两个要阅读全文

posted @ 2020-02-20 15:11 kuluma 阅读(255) 评论(0) 推荐(0)

2020年2月13日

【MOOC】信息标记与提取【<>.find_all()】

摘要：一、信息标记的三种形式【标记+信息】 1、 XML 标签，<> </> 扩展性好，但比较繁琐，标签占据大部分内容用于Internet上的信息交互和传递 2、 JSON 有类型键值对 key : value，JavaScript面向对象 key，value都需要家双引号：”name”:”呱呱” 适阅读全文

posted @ 2020-02-13 23:21 kuluma 阅读(420) 评论(0) 推荐(0)

【MOOC】BeautifulSoup库

摘要： Requests库—自动爬取HTML页面，自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面，信息标记与提取方法解析、遍历、维护 “标签树”<> </> 的功能库一、解析器：根据html文件类型来选择 import requests from 阅读全文

posted @ 2020-02-13 21:35 kuluma 阅读(181) 评论(0) 推荐(0)

公告