随笔分类 -  Python

Python3利用BeautifulSoup4抓取站点小说全文的代码
摘要:再写一个用BeautifulSoup抓站的工具,体会BeautifulSoup的强大。根据小说索引页获取小说全部章节内容并在本地整合为小说全文。不过不是智能的,不同的站点对代码需要做相应的修改。#!/usr/bin/env pythonimport osimport sysimport reimpo... 阅读全文
posted @ 2014-11-08 15:46 xshrim 阅读(974) 评论(0) 推荐(0)
Python3利用BeautifulSoup4批量抓取站点图片的代码
摘要:边学边写代码,记录下来。这段代码用于批量抓取主站下所有子网页中符合特定尺寸要求的的图片文件,支持中断。原理很简单:使用BeautifulSoup4分析网页,获取网页和元素,对集合反复弹栈入栈,对集合进行筛选下载。具体代码如下:import osimport sysimport timeimport ... 阅读全文
posted @ 2014-11-07 15:16 xshrim 阅读(2434) 评论(0) 推荐(0)
Python3实现最小堆建堆算法
摘要:今天看Python CookBook中关于“求list中最大(最小)的N个元素”的内容,介绍了直接使用python的heapq模块的nlargest和nsmallest函数的解决方式,记得学习数据结构的时候有个堆排序算法,所以顺便研究了一下“堆”结构(这里特指二叉堆)。概念所谓二叉堆(binary ... 阅读全文
posted @ 2014-11-06 17:32 xshrim 阅读(8278) 评论(0) 推荐(0)