python爬虫计划 - 随笔分类 - 内脏坏了

爬虫实战(1)

摘要：看完了BeautifulSoup的官方文档, 今天试着爬了一波自家学校moodle, 写了一个简陋查分器, 还算是成功, 代码已经扔在github上了, 感兴趣的朋友可以去看看. https://github.com/zhang77595103/web-crawler 今天模仿大神xlzd, 准备先阅读全文

posted @ 2016-06-17 23:58 内脏坏了阅读(2858) 评论(0) 推荐(0)

读BeautifulSoup官方文档之html树的打印

摘要：prettify()能返回一个格式良好的html的Unicode字符串 : 但是你只是想要一个代表该html的字符串, 并不在乎它的格式, 你可以使用str()或者unicode()...这里str()返回的是格式为utf8的字符串, 你可以使用encode使它变为bytestring或者decod 阅读全文

posted @ 2016-06-17 11:14 内脏坏了阅读(340) 评论(0) 推荐(0)

读BeautifulSoup官方文档之html树的修改

摘要：修改html树无非是对其中标签的改动, 改动标签的名字(也就是类型), 属性和标签里的内容... 先讲这边提供了很方便的方法来对其进行改动... 然后是改动内容 : 当然你还可以用append(), 我让我奇怪的是使用append()之后的效果看上去是一样的, 但是调用.contents却会发现其实阅读全文

posted @ 2016-06-17 10:45 内脏坏了阅读(969) 评论(0) 推荐(0)

读BeautifulSoup官方文档之html树的搜索(2)

摘要：除了find()和find_all(), 这里还提供了许多类似的方法我就细讲了, 参数和用法都差不多, 最后四个是next, previous是以.next/previous_element()来说的... Signature: find_parents(name, attrs, string, l 阅读全文

posted @ 2016-06-16 17:50 内脏坏了阅读(315) 评论(0) 推荐(0)

读BeautifulSoup官方文档之html树的搜索(1)

摘要：之前介绍了有关的四个对象以及他们的属性, 但是一般情况下要在杂乱的html中提取我们所需的tag(tag中包含的信息)是比较复杂的, 现在我们可以来看看到底有些什么搜索的方法. 最主要的两个方法当然是find_all()和find(), 两者大致思路相同, 只不过一个前者返回符合条件的所有tags, 阅读全文

posted @ 2016-06-16 17:18 内脏坏了阅读(433) 评论(0) 推荐(0)

读BeautifulSoup官方文档之与bs有关的对象和属性(3)

摘要：上一节说到.string的条件很苛刻, 如果某个tag里面包含了超过一个children, 就会返回None, 但是这里提供另外一种方式 .strings, 它返回的是一个generator, 比如对于 : 我们调用结果如下 : 这样空格太多, 所以我们可用用另外一种stripped_string 阅读全文

posted @ 2016-06-16 15:06 内脏坏了阅读(275) 评论(0) 推荐(0)

读BeautifulSoup官方文档之与bs有关的对象和属性(2)

摘要：上一节说到tag, 这里接着讲, tag有个属性叫做string, tag.string其实就是我们要掌握的四个对象中的第二个 NavigableString, 它代表的是该tag内的text(甚至包括空白字符, 该tag内如果有别的tag, 必须前后紧挨不带空格, 否则返回None, 这一点的原因阅读全文

posted @ 2016-06-16 14:17 内脏坏了阅读(357) 评论(0) 推荐(0)

读BeautifulSoup官方文档之与bs有关的对象和属性(1)

摘要：自从10号又是5天没更, 是, 我再一次断更... 原因是朋友在搞python, 老问我问题, 我python也是很久没碰了, 于是为了解决他的问题, 我只能重新开始研究python, 为了快速找回感觉, 我先是看了<简明python教程>, 出于兴趣考虑又开始看一本叫做<Web Scraping 阅读全文

posted @ 2016-06-16 00:26 内脏坏了阅读(462) 评论(0) 推荐(0)

随笔分类 - python爬虫计划