会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
韩非囚秦
——独善其身者,难成大事也。
导航
博客园
首页
新随笔
联系
订阅
管理
公告
随笔分类 -
爬虫
一、python简单爬取静态网页
摘要:一、简单爬虫框架 简单爬虫框架由四个部分组成:URL管理器、网页下载器、网页解析器、调度器,还有应用这一部分,应用主要是NLP配合相关业务。 它的基本逻辑是这样的:给定一个要访问的URL,获取这个html及内容(也可以获取head和cookie等其它信息),获取html中的某一类链接,如a标签的hr
阅读全文
posted @
2018-04-15 14:53
一只火眼金睛的男猴
阅读(10447)
评论(0)
推荐(0)