随笔分类 -  Python网络爬虫与信息提取-北京理工大学

摘要:见下载文档 阅读全文
posted @ 2018-08-24 09:34 菜鸟key 阅读(206) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-08-23 20:38 菜鸟key 阅读(178) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-08-23 20:25 菜鸟key 阅读(150) 评论(0) 推荐(0)
摘要:re库的基本使用 阅读全文
posted @ 2018-08-23 16:48 菜鸟key 阅读(261) 评论(0) 推荐(0)
摘要:import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.appar... 阅读全文
posted @ 2018-08-23 16:39 菜鸟key 阅读(327) 评论(0) 推荐(0)
摘要:标记后的信息可形成信息组织结构,增加了信息维度标记的结构与信息一样具有重要价值标记后的信息可用于通信、存储或展示标记后的信息更利于程序理解和运用 信息标记的三种形式: XMLJSONYAML 基于bs4库的HTML内容查找方法 阅读全文
posted @ 2018-08-23 15:32 菜鸟key 阅读(282) 评论(0) 推荐(0)
摘要:1 安装 pip3 install beautifulsoup4 小测: 3 beautiful soup基本元素 Beautiful Soup库的引用Beautiful Soup库,也叫beautifulsoup4 或 bs4约定引用方式如下,即主要是用BeautifulSoup类 from bs 阅读全文
posted @ 2018-08-22 11:19 菜鸟key 阅读(420) 评论(0) 推荐(0)
摘要:1 京东商品页面爬取 2 亚马逊商品页面的爬取 3 百度/360搜索关键词提交 百度的关键词接口:http://www.baidu.com/s?wd=keyword360的关键词接口:http://www.so.com/s?q=keyword 4 网络图片的爬取和储存 图片爬取全代码 4 IP归属地 阅读全文
posted @ 2018-08-21 18:38 菜鸟key 阅读(254) 评论(0) 推荐(0)
摘要:2. requests.get()方法 r = requests.get(url)Requests库的2个重要对象作用:构造一个向服务器请求资源的Request对象,返回一个包含服务器资源的Response对象 Response对象的属性 r.content 获得一个图片,图片以二进制存储,r.co 阅读全文
posted @ 2018-08-21 14:39 菜鸟key 阅读(506) 评论(0) 推荐(0)