会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
chen17
博客园
首页
新随笔
联系
订阅
管理
2022年3月4日
利用爬虫爬取自己csdn主页最近发表的文章及问题.
摘要: 小结: 爬取网页很简单,只需要对爬虫头部进行伪装,然后对服务器发送请求即可。在此程序中通过构造函数getHTML来实现.而页面分析相对而言比较麻烦. 通过查看页面代码发现该页面所有问题或文章的标题都是<h4>标签. 所以我们直接查找h4标签即可,而链接是存放在<a>标签中的href属性中,然而直接搜
阅读全文
posted @ 2022-03-04 22:05 冷月半明
阅读(31)
评论(0)
推荐(0)
公告