摘要: 网页解析 HTML语言用URLopen抓取出来的是html语言编写出来的字符流 html语言:超文本编辑语言·带着尖括号的tag·网页的正文:图片,视频,音频的超级连接 一个URL对应着没有干扰的,纯文本的字节流 html以<html>和</html>标记开始和结束 ·在开始和结束标记之间包含hea 阅读全文
posted @ 2021-11-02 20:58 C语言使我快乐 阅读(63) 评论(0) 推荐(0)
摘要: 网络爬虫,按照一定的规则,自动的抓取万维网信息的程序或脚本。 只要有URL就可以获取网页通过html源码解析获得想要的内容 crawling process:从网页的URL开始在抓取网页的过程中,不断从当前页面抽取新的URL放入队列中直到满足系统通知条件 1、从已知种子的URL开始,放入URL队列2 阅读全文
posted @ 2021-11-02 20:48 C语言使我快乐 阅读(203) 评论(0) 推荐(0)