随笔档案「2022年10月28日」：文本数据挖掘作业实验1 -----爬取数据 ... - slowlydance2me

2022年10月28日

摘要： # 1.定位到来电分类分区 # 2. 提取子页面的连接地址 child_href1 # 3. 在子页面提取想要的数据 # 4. 再定位到详细来电，进入二重子页面 # 5. 提取二重子页面连接地址 child_href2 # 6. 在二重子页面（来电情况）里提取想要的数据代码如下： 1 # 1.定位阅读全文

posted @ 2022-10-28 22:57 slowlydance2me 阅读(107) 评论(0) 推荐(0)

python 爬虫 -----爬取猪八戒网

摘要： 1.使用元素定位：找到一个模块的分区，复制它完整的Xpath 2. 修饰并利用循环得出每一个模块 import requests from lxml import etree # 获取源码 url = "https://chengdu.zbj.com/search/service/?kw=saas" 阅读全文

posted @ 2022-10-28 20:40 slowlydance2me 阅读(369) 评论(0) 推荐(0)

python 爬虫 ----- xpath

摘要： xpath 是在XML文档中搜索内容的一门语言 html是xml的一个子集 xml代码示例 """ <book> <id>1</id> <name>野花遍地香</name> <price>1.23</price> <author> <nick>周大枪</nick> <nick>周芷若</nick> 阅读全文

posted @ 2022-10-28 19:57 slowlydance2me 阅读(45) 评论(0) 推荐(0)

python 爬虫 -----Bs4 爬取并且下载图片

摘要： # 1.拿到主页面主代码，拿到子页面连接地址，href # 2.通过href拿到子页面内容，从子页面中找到图片的下载地址 img -> src # 3. 下载图片 import requests from bs4 import BeautifulSoup import time import url 阅读全文

posted @ 2022-10-28 19:30 slowlydance2me 阅读(185) 评论(0) 推荐(0)

python 爬虫 Bs4解析 -----HTML语法

摘要： Bs4 bs4全称：beautifulsoup4，意思为美丽的汤版本4 可以在HTML或XML文件中提取数据的网页信息提取库与re和xpath模块的区别： re模块：使用起来过于麻烦且阅读性不好 xpath模块：需要使用一些特定的语法 bs4模块：只需要记住一些方法如：find()、find_al 阅读全文

posted @ 2022-10-28 13:33 slowlydance2me 阅读(122) 评论(0) 推荐(0)

slowlydance2me

公告