04 2017 档案
摘要:非原创作品,转载自:http://blog.csdn.net/fyuanfena/article/details/52038984 Python真的超级超级好玩呐,不管是爬虫还是数据挖掘,真的都超级有意思。 今天,来说一说python一个好玩的模块w...
阅读全文
摘要:非原创作品,转载自:http://blog.csdn.net/marksinoberg/article/details/70809830 前言 网易云音乐一直是我向往的“神坛“,听音乐看到走心的评论的那一刻,高山流水。于是今天来抓...
阅读全文
摘要:用bash shell写程序时,经常会用到for循环,特别是从1到100这种需求,这里记录几种shell中从1到100的循环方法 方法 类c语言 [html] view plain copy ...
阅读全文
摘要:Linux Mint中写了一个简单的shell脚本,利用for..do..done结构计算1+2+3......+100的值,结果执行"sh -n xxx.sh"检测语法时总是报错,但在PC机上可正常运行; 脚本: [html] ...
阅读全文
摘要:获取行号 获取当前行号的方法如下: import sys print "here is :",__file__,sys._getframe().f_lineno 获取当前的函数名 获取当前的函数名或者运行的类名,需要分开来说 python中获取函数名...
阅读全文
摘要:python中try except处理程序异常的三种常用方法 如果你在写python程序时遇到异常后想进行如下处理的话,一般用try来处理异常,假设有下面的一段程序: 1 2 3...
阅读全文
摘要:在写程序的时候 , 每次总会写一些重复的函数, 因此有必要把他们收集一下 再之后的使用中,可以直接使用。 1.自定义log打印函数: #自定义log 打印函数, 以数字定义log 级别 def my_log(log_leavel,msg): #impor...
阅读全文
摘要:获取不同的IP 使用不同的user-agent #!/usr/bin/python# coding:utf-8import reimport randomimport sysimport timeimport datetimeimport threadin...
阅读全文
摘要:CSV文件读写练习 导入CSV库,就可以实现对CSV文件的读写了 它的读写规则和excel有点类似 #!/usr/bin/python# coding:utf-8import csvcsvFile = open("./test.csv",'w+')tr...
阅读全文
摘要:爬取百度贴吧帖子 一开始只是在网上看到别人写的爬取帖子的文章,然后自己就忍不住手痒自己锻炼一下, 然后照着别人的写完,发现不太过瘾, 毕竟只是获取单个帖子的内容,感觉内容稍显单薄,然后自己重新做了修改,把它变成重写成了一个比较强大的爬虫 精简版本 简介 通过...
阅读全文
摘要:想要使用python 将数据存储在doc 、docx等 word文档中,首先需要安装一个模块 python-docx 安装指令如下: pip install python-docx 测试使用如下: >>> from docx import Document>...
阅读全文
摘要:对于通过Windows商店安装的应用,可以直接在开始菜单的磁贴上右键选择“卸载”命令来移除,但这个方法对照片、音乐、OneNote、相机等Win10预装应用无效,因为你找不到“卸载”这个选项。不过微软并未真正封堵卸载的途径,用户仍可以通过Windows Po...
阅读全文
摘要:前两天在linux 上面写了一版爬取微信公众号的文章 13_python爬虫——爬出新高度_抓取微信公众号文章(selenium+phantomjs)(上) 今天重新修改一下,让它在windows上面也能运行 运行下面的代码需要安装以下内容: pip ...
阅读全文
摘要:原文地址: http://www.iteye.com/topic/212750 SSH 一、安装与启动SSH 在Red Hat Linux上的发行版本中大多已经包含了与OpenSSH相关的软件包,如果没有,则可以从OpenSSH的主页下载RPM包自行安装,...
阅读全文
摘要:执行下面的文件,相当于linux 系统下的tree命令 能够遍历指定文件下的所有内容 #coding:utf-8import osdef print_dirName(spath): for schild in os.listdir(spath): sch...
阅读全文
摘要:转载地址 http://blog.csdn.net/MrLevo520/article/details/52397305 前言 在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,这里自己总结下如何避免 方法1:设...
阅读全文
摘要:fg、bg、jobs、&、nohup、ctrl+z、ctrl+c 命令 一、& 加在一个命令的最后,可以把这个命令放到后台执行,如 watch -n 10 sh test.sh & #每10s在后台执行一次test.sh脚本 二、ctrl...
阅读全文
摘要:抓取微信公众号的文章 一.思路分析 目前所知晓的能够抓取的方法有: 1、微信APP中微信公众号文章链接的直接抓取(http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&sn=...
阅读全文
摘要:json.dumps : dict转成str json.loads:str转成dict 也就是说,一个是将字典转换为字符串 一个是将字符串转换为字典 看下面的例子 import json TestTarget = {...
阅读全文
摘要:pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的。他的官方文档地址是:http://packages.python.org/pyquery/。今天重新看了一遍整...
阅读全文
摘要:quote函数 属于urllib库里面的一个函数 屏蔽特殊的字符、比如如果url里面的空格!url里面是不允许出现空格的。 按照标准, URL 只允许一部分 ASCII 字符(数字字母和部分符号),其他的字符(如汉字)是不符合 URL 标准的。 所...
阅读全文
摘要:之前写过一个方法: py2exe的使用 今天要说的是另外一种方法, 使用pyinstaller 来打包程序 它的安装方法很简单, 使用pip 工具直接安装就行 pip install pyinstaller 检测方法 看导入安装包 import ...
阅读全文
摘要:爬取链家房价信息(未完待续) items.py # -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http://...
阅读全文
摘要:统计个人CSDN的博客文章数量 第一版 原始版本比较简单 只能统计第一页,而且没有进行排序 # coding:utf-8import urllib2from bs4 import BeautifulSoupimport sysreload(sys)sy...
阅读全文

浙公网安备 33010602011771号