2017 年 4月随笔档案 - 枫奇丶宛南

python的一个好玩模块wordcloud

摘要：非原创作品，转载自：http://blog.csdn.net/fyuanfena/article/details/52038984 Python真的超级超级好玩呐，不管是爬虫还是数据挖掘，真的都超级有意思。今天，来说一说python一个好玩的模块w... 阅读全文

posted @ 2017-04-27 15:13 枫奇丶宛南阅读(57) 评论(0) 推荐(0)

抓取网易云音乐歌曲热门评论生成词云（转）

摘要：非原创作品，转载自：http://blog.csdn.net/marksinoberg/article/details/70809830 前言网易云音乐一直是我向往的“神坛“，听音乐看到走心的评论的那一刻，高山流水。于是今天来抓... 阅读全文

posted @ 2017-04-27 15:08 枫奇丶宛南阅读(153) 评论(0) 推荐(0)

shell for循环1到100

摘要：用bash shell写程序时，经常会用到for循环，特别是从1到100这种需求，这里记录几种shell中从1到100的循环方法方法类c语言 [html] view plain copy ... 阅读全文

posted @ 2017-04-27 10:23 枫奇丶宛南阅读(192) 评论(0) 推荐(0)

shell脚本：Syntax error: Bad for loop variable错误解决方法

摘要：Linux Mint中写了一个简单的shell脚本，利用for..do..done结构计算1+2+3......+100的值，结果执行"sh -n xxx.sh"检测语法时总是报错，但在PC机上可正常运行；脚本： [html] ... 阅读全文

posted @ 2017-04-27 10:22 枫奇丶宛南阅读(186) 评论(0) 推荐(0)

python_获取当前代码行号_获取当前运行的类名和函数名的方法

摘要：获取行号获取当前行号的方法如下： import sys print "here is :",__file__,sys._getframe().f_lineno 获取当前的函数名获取当前的函数名或者运行的类名，需要分开来说 python中获取函数名... 阅读全文

posted @ 2017-04-25 20:44 枫奇丶宛南阅读(156) 评论(0) 推荐(0)

python_python中try except处理程序异常的三种常用方法

摘要：python中try except处理程序异常的三种常用方法如果你在写python程序时遇到异常后想进行如下处理的话,一般用try来处理异常，假设有下面的一段程序： 1 2 3... 阅读全文

posted @ 2017-04-25 20:02 枫奇丶宛南阅读(47) 评论(0) 推荐(0)

python_制作自己的函数库

摘要：在写程序的时候，每次总会写一些重复的函数，因此有必要把他们收集一下再之后的使用中，可以直接使用。 1.自定义log打印函数： #自定义log 打印函数，以数字定义log 级别 def my_log(log_leavel,msg): #impor... 阅读全文

posted @ 2017-04-25 10:10 枫奇丶宛南阅读(108) 评论(0) 推荐(0)

python使用代理访问网站

摘要：获取不同的IP 使用不同的user-agent #!/usr/bin/python# coding:utf-8import reimport randomimport sysimport timeimport datetimeimport threadin... 阅读全文

posted @ 2017-04-17 11:49 枫奇丶宛南阅读(214) 评论(0) 推荐(0)

19_python_练习题——CSV文件读写练习

摘要：CSV文件读写练习导入CSV库，就可以实现对CSV文件的读写了它的读写规则和excel有点类似 #!/usr/bin/python# coding:utf-8import csvcsvFile = open("./test.csv",'w+')tr... 阅读全文

posted @ 2017-04-17 11:13 枫奇丶宛南阅读(163) 评论(0) 推荐(0)

python爬虫(13)爬取百度贴吧帖子

摘要：爬取百度贴吧帖子一开始只是在网上看到别人写的爬取帖子的文章，然后自己就忍不住手痒自己锻炼一下，然后照着别人的写完，发现不太过瘾，毕竟只是获取单个帖子的内容，感觉内容稍显单薄，然后自己重新做了修改，把它变成重写成了一个比较强大的爬虫精简版本简介通过... 阅读全文

posted @ 2017-04-14 20:15 枫奇丶宛南阅读(522) 评论(0) 推荐(0)

18_python_练习题——写入文件到word文档中

摘要：想要使用python 将数据存储在doc 、docx等 word文档中，首先需要安装一个模块 python-docx 安装指令如下： pip install python-docx 测试使用如下： >>> from docx import Document>... 阅读全文

posted @ 2017-04-14 14:57 枫奇丶宛南阅读(46) 评论(0) 推荐(0)

卸载win10 自带应用

摘要：对于通过Windows商店安装的应用，可以直接在开始菜单的磁贴上右键选择“卸载”命令来移除，但这个方法对照片、音乐、OneNote、相机等Win10预装应用无效，因为你找不到“卸载”这个选项。不过微软并未真正封堵卸载的途径，用户仍可以通过Windows Po... 阅读全文

posted @ 2017-04-13 20:14 枫奇丶宛南阅读(88) 评论(0) 推荐(0)

python爬虫（17）爬出新高度_抓取微信公众号文章（selenium+phantomjs）（下）（windows版本）

摘要：前两天在linux 上面写了一版爬取微信公众号的文章 13_python爬虫——爬出新高度_抓取微信公众号文章（selenium+phantomjs）（上）今天重新修改一下，让它在windows上面也能运行运行下面的代码需要安装以下内容： pip ... 阅读全文

posted @ 2017-04-13 17:28 枫奇丶宛南阅读(77) 评论(0) 推荐(0)

SSH 的详细使用方法

摘要：原文地址： http://www.iteye.com/topic/212750 SSH 一、安装与启动SSH 在Red Hat Linux上的发行版本中大多已经包含了与OpenSSH相关的软件包，如果没有，则可以从OpenSSH的主页下载RPM包自行安装，... 阅读全文

posted @ 2017-04-12 18:04 枫奇丶宛南阅读(487) 评论(0) 推荐(0)

17_python_练习题——打印指定目录下的文件和文件夹（相当于tree命令）

摘要：执行下面的文件，相当于linux 系统下的tree命令能够遍历指定文件下的所有内容 #coding:utf-8import osdef print_dirName(spath): for schild in os.listdir(spath): sch... 阅读全文

posted @ 2017-04-12 16:04 枫奇丶宛南阅读(34) 评论(0) 推荐(0)

Python爬虫防封杀方法集合

摘要：转载地址 http://blog.csdn.net/MrLevo520/article/details/52397305 前言在爬取的过程中难免发生ip被封和403错误等等，这都是网站检测出你是爬虫而进行反爬措施，这里自己总结下如何避免方法1：设... 阅读全文

posted @ 2017-04-12 09:23 枫奇丶宛南阅读(56) 评论(0) 推荐(0)

linux后台运行和关闭、查看后台任务

摘要：fg、bg、jobs、&、nohup、ctrl+z、ctrl+c 命令一、& 加在一个命令的最后，可以把这个命令放到后台执行，如 watch -n 10 sh test.sh & #每10s在后台执行一次test.sh脚本二、ctrl... 阅读全文

posted @ 2017-04-11 20:06 枫奇丶宛南阅读(17) 评论(0) 推荐(0)

python爬虫(17)爬出新高度_抓取微信公众号文章（selenium+phantomjs）（上）

摘要：抓取微信公众号的文章一.思路分析目前所知晓的能够抓取的方法有： 1、微信APP中微信公众号文章链接的直接抓取（http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&sn=... 阅读全文

posted @ 2017-04-11 12:10 枫奇丶宛南阅读(381) 评论(0) 推荐(0)

json.dumps和 json.loads 区别，如此简单

摘要：json.dumps : dict转成str json.loads:str转成dict 也就是说，一个是将字典转换为字符串一个是将字符串转换为字典看下面的例子 import json TestTarget = {... 阅读全文

posted @ 2017-04-11 11:37 枫奇丶宛南阅读(31) 评论(0) 推荐(0)

Python中PyQuery库的使用总结

摘要：pyquery库是jQuery的Python实现，可以用于解析HTML网页内容，我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的。他的官方文档地址是：http://packages.python.org/pyquery/。今天重新看了一遍整... 阅读全文

posted @ 2017-04-11 10:56 枫奇丶宛南阅读(31) 评论(0) 推荐(0)

quote函数什么意思，怎么用

摘要：quote函数属于urllib库里面的一个函数屏蔽特殊的字符、比如如果url里面的空格！url里面是不允许出现空格的。按照标准， URL 只允许一部分 ASCII 字符（数字字母和部分符号），其他的字符（如汉字）是不符合 URL 标准的。所... 阅读全文

posted @ 2017-04-11 10:05 枫奇丶宛南阅读(110) 评论(0) 推荐(0)

将自己的python程序打包成exe

摘要：之前写过一个方法： py2exe的使用今天要说的是另外一种方法，使用pyinstaller 来打包程序它的安装方法很简单, 使用pip 工具直接安装就行 pip install pyinstaller 检测方法看导入安装包 import ... 阅读全文

posted @ 2017-04-10 11:09 枫奇丶宛南阅读(38) 评论(0) 推荐(0)

python爬虫——爬取链家房价信息（未完待续）

摘要：爬取链家房价信息（未完待续） items.py # -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http://... 阅读全文

posted @ 2017-04-01 15:24 枫奇丶宛南阅读(48) 评论(0) 推荐(0)

统计个人CSDN的博客文章数量

摘要：统计个人CSDN的博客文章数量第一版原始版本比较简单只能统计第一页，而且没有进行排序 # coding:utf-8import urllib2from bs4 import BeautifulSoupimport sysreload(sys)sy... 阅读全文

posted @ 2017-04-01 12:46 枫奇丶宛南阅读(73) 评论(0) 推荐(0)

枫奇丶宛南

04 2017 档案

公告