随笔分类 - Python网络爬虫
摘要:①信息组织与提取方法 信息标记的三种形式:XML、JSON、YAML 三种信息标记形式的比较: XML ==> 最早的通用信息标记语言,可扩展性好,但繁琐;是Internet上的信息交互与传递。 JSON ==> 信息有类型,适合程序处理(js),较XML繁琐;用于移动应用云端和节点的信息通信,无注释。 YAML ==> 信息无类型,文本信息比例较高,可读性好;用于各类系统的配置文件,有注释易读。...
阅读全文
摘要:BeautifulSoup库是解析、遍历、维护.html或.xml的功能库 ①BeautifulSoup库的安装: 在cmd命令行中输入: pip install beautifulsoup4即可 ②BeautifulSoup库的引用: from bs4 import BeautifulSoup BeautifulSoup库,也叫beautifulsoup4或bs4 ③检测Beautiful S...
阅读全文
摘要:①爬取工具:MySQL数据库 Navicat for mysql 编程语言python3 集成开发环境pycharm(community) Python包管理器Anaconda3 ②基本知识:(1)request库: requests库的七个主要方法 requests.request() ==> 构
阅读全文