黄聪

论SEO对人类的重要性,请看我的博客:hcsem.com

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

随笔分类 -  Python

1 2 下一页

摘要:软件名称:shadowsocks-windows 解压到任意目录,运行shadowsocks.exe开启客户端。客户端最默认最小化到托盘,此时双击托盘图标打开,填入服务器信息,点击OK即可: 说明一下: Server IP: 代理服务器IP Server Port: 代理服务器端口 Password 阅读全文
posted @ 2017-12-12 08:27 黄聪 阅读(15) 评论(0) 推荐(0) 编辑

摘要:今天为了帮助Ami实现从CA,US在网络层面上回国的梦想,专门搭建一个回国的Shadowsocks服务器。但是我的手上只有Windows 2008的一台上海服务器,于是我欢快的去纠结如何在Windows下搭建Shadowsocks服务器。 据说Node.JS版本的Shadowsocks已经被打上了D 阅读全文
posted @ 2017-12-11 22:12 黄聪 阅读(12) 评论(0) 推荐(0) 编辑

摘要:1. Download BeautifulSoup (path: http://www.crummy.com/software/BeautifulSoup/download/3.1.x/).2.解压到python主程式路径(例如: C:\Python26 ), 档案有4個: BeautifulSoup.py, BeautifulSoupTests.py, PKG-INFO, setup.py3.执行DOS COMMAND,安裝: C:\Python26\setup.py install4.测试安裝是否成功 C:\Python26\BeautifulSoupTests.py, 如果成功,会出现O 阅读全文
posted @ 2013-04-24 00:13 黄聪 阅读(7576) 评论(0) 推荐(2) 编辑

摘要:转载来自:http://hcsem.com/2095/我来讲一下字符问题我的理解吧,虽然我对Python的编码处理的具体细节还不太清楚,不过临时稍微看了一下,和Perl的原理也差不多 最重要的是必须区分“字符”和“字节”的不同,“字符”是抽象的,而“字节”是具体的 比如一个“中”字,在不同编码中用如下字节表示: GBKBig5UTF-8 UTF-16LE \xD6\xD0\xA4\xA4\xE4\xB8\xAD\x2D\x4E 所谓“抽象”的“字符”的“中”,并不是指“\xD6\xD0”或“\xA4\xA4”或任何字节,应该把它理解成:GBK编码中“\xD6\xD0”字节所指代的那个字... 阅读全文
posted @ 2013-03-26 10:17 黄聪 阅读(3864) 评论(2) 推荐(1) 编辑

摘要:文件编码是UTF-8,同时在文件头添加 # -*- coding: utf-8 -*-文件中所有的字符串前都加u,如 u"中文"在输入(抓取某些utf-8/gbk的网页)、输出(输出到网页、终端)的时候,要记住python内部是用Unicode存储的所有输入要先decode,变成unicode,输出时要encode变成想要的编码(MacOS X/Linux下输出为utf-8,Windows下输出为gbk,但如果是在pycharm自己的控制台下的话,windows下输出为utf-8也可以正常显示)还有其他很多种古老的解决方案,比如统一用gbk,比如中转编码不用unicode, 阅读全文
posted @ 2013-03-26 10:15 黄聪 阅读(9574) 评论(1) 推荐(0) 编辑

摘要:Ctrl /注释(取消注释)选择的行 Shift + Enter开始新行Ctrl + Enter智能换行TAB Shift+TAB缩进/取消缩进所选择的行Ctrl + Alt + I自动缩进行Ctrl + Y删除当前插入符所在的行Ctrl + D复制当前行、或者选择的块Ctrl + Shift + J合并行Ctrl + Shift + V从最近的缓存区里粘贴Ctrl + Delete删除到字符结尾Ctrl + Backspace删除到字符的开始Ctrl + NumPad+/-展开或者收缩代码块Ctrl + Shift + NumPad+展开所有的代码块Ctrl + Shift + NumPad 阅读全文
posted @ 2013-03-25 08:57 黄聪 阅读(23533) 评论(0) 推荐(1) 编辑

摘要:最近开始学习Python,在网上寻找一下比较好的IDE.因为以前用C#做开发的,用Visual Studio作为IDE,鉴于用惯了VS这么强大的IDE,所以对IDE有一定的依赖性.Python的IDE也有不少,网上也有很多介绍. 我自己选择了国产 Python IDE:UliPad.这个IDE本身就是用 Python+wxPython编写的,小巧,功能全,特别适合Python初学者。这是 Ulipad 下载地址:http://code.google.com/p/ulipad/downloads/listIDE 作者主页:http://hi.baidu.com/limodou/home简单介绍下 阅读全文
posted @ 2012-12-14 23:50 黄聪 阅读(3827) 评论(1) 推荐(2) 编辑

摘要:#!python# encoding: utf-8import collectionsdef default_factory(): return 'default value'd=collections.defaultdict(default_factory,foo='bar',ok='ok')print 'd:',dprint 'foo=>',d['foo']print 'ok=>',d['ok']print 'bar=& 阅读全文
posted @ 2012-12-13 00:37 黄聪 阅读(3282) 评论(0) 推荐(0) 编辑

摘要:#!python# encoding: utf-8s = "哈哈"ss = u'哈哈'print s.decode('utf-8').encode('gbk')print ss.encode('gbk') 阅读全文
posted @ 2012-12-13 00:20 黄聪 阅读(1097) 评论(0) 推荐(0) 编辑

摘要:抓取网页的一般逻辑和过程一般普通用户,用浏览器,打开某个URL地址,然后浏览器就可以显示出对应的页面的内容了。这个过程,如果用程序代码来实现,就可以被称为(用程序实现)抓取网页(的内容,并进行后期处理,提取所需信息等)对应的英文说法有,website crawl/scrape/data mining。而用来抓取网页的工具,也常被叫做 spider,crawler等。即,一般所谓的取网页内容,指的是通过程序(某种语言的程序代码,比如Python脚本语言,C#语言等)实现访问某个URL地址,然后获得其所返回的内容(HTML源码,Json格式的字符串等)。而对于这个抓取网页的过程,是有一套自己的逻辑 阅读全文
posted @ 2012-12-07 16:41 黄聪 阅读(5554) 评论(1) 推荐(1) 编辑

该文被密码保护。
posted @ 2012-05-02 17:16 黄聪 阅读(3) 评论(0) 推荐(1) 编辑

摘要:假设Python安装在 C://Python2x项目路径为 D://Python/demo则在系统变量中添加 C:\Python2x;C:\Python2x\Scripts;C:\Python2x\Lib;D:\Python\demo 阅读全文
posted @ 2011-09-26 09:40 黄聪 阅读(1019) 评论(0) 推荐(0) 编辑

摘要:import urllib proto, rest = urllib.splittype("http://www.baidu.com/11/12.htm") host, rest = urllib.splithost(rest) print host host, port = urllib.splitport(host) if port is None: port = 80 print port 阅读全文
posted @ 2011-09-18 22:02 黄聪 阅读(3457) 评论(1) 推荐(0) 编辑

摘要:1. 安装IronPython到http://ironpython.codeplex.com/下载IronPython。安装下载下来的安装包(要先装VS啊)。2. 创建项目创建一个C#的控制台应用程序。添加引用: 浏览到IronPython的安装目录中,添加对IronPython.dll,Microsoft.Scripting.dll 两个dll的引用。3. 添加Python文件到当前的项目中创建一个文本文件命名为:hello.py, 编辑如下def welcome(name): return "hello" + name把该文件添加的当前的项目中。4. 在C#中调用Pyt 阅读全文
posted @ 2011-09-18 17:18 黄聪 阅读(18635) 评论(2) 推荐(2) 编辑

摘要:import MySQLdb#创建链接conn=MySQLdb.Connect(host='localhost',user='root',passwd='',db="xingming")#生成游标cursor=conn.cursor()#插入多条记录cursor.executemany( """INSERT INTO xm (x, m) VALUES (%s, %s)""", [ ("h","c"), ("g" 阅读全文
posted @ 2011-09-04 08:27 黄聪 阅读(680) 评论(0) 推荐(0) 编辑

摘要:今天下载了MySQL-python-1.2.2.win32-py2.6.rar 想试试python的数据库操作,但是安装时错误下面是报错截图:修改__init__.py:*注释第34行: from sets import ImmutableSet*在后面一行添加: ImmutableSet = frozenset*注释第41行e: from sets import BaseSet*在后面一行添加: BaseSet = set##### __init__.py#Line 35#from sets import ImmutableSet #class DBAPISet(ImmutableSet): 阅读全文
posted @ 2011-09-04 01:48 黄聪 阅读(2310) 评论(0) 推荐(0) 编辑

该文被密码保护。
posted @ 2011-09-03 22:41 黄聪 阅读(3) 评论(0) 推荐(0) 编辑

摘要:#-*-coding:utf-8-*-import urllib2, urllib, cookielibimport reimport getpassimport sqlite3import randomimport time class Discuz: def __init__(self,user,pwd,args): self.username = user self.password = pwd self.args = args self.regex = { 'loginreg':'<input\s*ty... 阅读全文
posted @ 2011-09-03 21:57 黄聪 阅读(6720) 评论(3) 推荐(0) 编辑

摘要:简单的抓取网页:import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象page=response.read() 直接将URL保存为本地文件:import urllib.request url="http://www.xxxx.com/1.jpg"urllib.request.urlretrieve(url,r"d:\temp\1.jpg")POST方式:import urllib.parse import ur 阅读全文
posted @ 2011-09-03 18:49 黄聪 阅读(13919) 评论(0) 推荐(1) 编辑

摘要:网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬,而是有一定目的的,并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Internet 上搜集网页内容以及它们之间的链接等信息;又比如一些别有用心的爬虫会在 Internet 上搜集诸如 foo@bar.com 或者 foo [at] bar [dot] com 之类的东西。除此之外,还有一些定制的爬虫,专门针对某一个网站,例如前一阵子 JavaEye 的 Robbin 就写了几 阅读全文
posted @ 2011-09-01 23:13 黄聪 阅读(7681) 评论(0) 推荐(5) 编辑

1 2 下一页