随笔分类 -  Python网络爬虫

摘要:①信息组织与提取方法 信息标记的三种形式:XML、JSON、YAML 三种信息标记形式的比较: XML ==> 最早的通用信息标记语言,可扩展性好,但繁琐;是Internet上的信息交互与传递。 JSON ==> 信息有类型,适合程序处理(js),较XML繁琐;用于移动应用云端和节点的信息通信,无注释。 YAML ==> 信息无类型,文本信息比例较高,可读性好;用于各类系统的配置文件,有注释易读。... 阅读全文
posted @ 2019-07-28 15:46 yyer 阅读(234) 评论(0) 推荐(0)
摘要:BeautifulSoup库是解析、遍历、维护.html或.xml的功能库 ①BeautifulSoup库的安装: 在cmd命令行中输入: pip install beautifulsoup4即可 ②BeautifulSoup库的引用: from bs4 import BeautifulSoup BeautifulSoup库,也叫beautifulsoup4或bs4 ③检测Beautiful S... 阅读全文
posted @ 2019-07-12 15:02 yyer 阅读(322) 评论(0) 推荐(0)
摘要:①爬取工具:MySQL数据库 Navicat for mysql 编程语言python3 集成开发环境pycharm(community) Python包管理器Anaconda3 ②基本知识:(1)request库: requests库的七个主要方法 requests.request() ==> 构 阅读全文
posted @ 2019-07-09 18:02 yyer 阅读(1748) 评论(0) 推荐(0)