摘要: 一 使用beautifulSoup 解析网页 Soup = BeantifulSoup(html,'lxml') 二 描述需要爬取的东西在哪? = Soup.select('???') 三 从标签中获得你要的信息 <p>Something</p> 去掉标签,并放到数据容器中。 title.get_t 阅读全文
posted @ 2017-03-06 23:15 记得万物的源头 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 自己写爬虫很久了,刚刚又学一门新课,所以决定还是过一下基础知识。 网页中 浏览器负责翻译网页的内容。 html 负责结构 css负责美观 javasript负责功能 div嵌套,div中加入其他内容,各种标签。css负责美观,li列表,a 负责链接,img图片 header,content,foot 阅读全文
posted @ 2017-03-06 07:41 记得万物的源头 阅读(235) 评论(0) 推荐(0) 编辑