Python网络爬虫 - 随笔分类 - yyer

Python网络爬虫与信息提取（三）（正则表达式的基础语法）

摘要：①信息组织与提取方法信息标记的三种形式：XML、JSON、YAML 三种信息标记形式的比较： XML ==> 最早的通用信息标记语言，可扩展性好，但繁琐；是Internet上的信息交互与传递。 JSON ==> 信息有类型，适合程序处理（js），较XML繁琐；用于移动应用云端和节点的信息通信，无注释。 YAML ==> 信息无类型，文本信息比例较高，可读性好；用于各类系统的配置文件，有注释易读。... 阅读全文

posted @ 2019-07-28 15:46 yyer 阅读(234) 评论(0) 推荐(0)

Python网络爬虫与信息提取（二）（BeautifulSoup库）

摘要：BeautifulSoup库是解析、遍历、维护.html或.xml的功能库 ①BeautifulSoup库的安装：在cmd命令行中输入： pip install beautifulsoup4即可 ②BeautifulSoup库的引用： from bs4 import BeautifulSoup BeautifulSoup库，也叫beautifulsoup4或bs4 ③检测Beautiful S... 阅读全文

posted @ 2019-07-12 15:02 yyer 阅读(322) 评论(0) 推荐(0)

Python网络爬虫与信息提取（一）（入门篇）

摘要：①爬取工具：MySQL数据库 Navicat for mysql 编程语言python3 集成开发环境pycharm(community) Python包管理器Anaconda3 ②基本知识：（1）request库： requests库的七个主要方法 requests.request() ==> 构阅读全文

posted @ 2019-07-09 18:02 yyer 阅读(1748) 评论(0) 推荐(0)

yyer's blog

随笔分类 - Python网络爬虫

公告