摘要:
转载自:http://blog.csdn.net/gogor/article/details/5323599 我们知道,计算机只能识别诸如0101这样的二进制数,于是人们必须以二进制数据与计算机进行交互,或者先将人类使用的字符按一定规则转换为二进制数。 那什么是字符呢?在计算机领域,我们把诸如文字、 阅读全文
posted @ 2017-03-23 13:58
道高一尺
阅读(280)
评论(0)
推荐(0)
摘要:
事实上计算机只认识0和1,然而我们却可以通过计算机来显示文本,这就是靠编码实现的。编码其实就是约定的一个协议,比如ASCII编码约定了大写字母A对应十进制数65,那么在读取一个字符串的时候,看到65,计算机就知道这里说的是字母A的意思。 由于计算机是美国人发明的,所以这个ASCII编码设计时只采用1 阅读全文
posted @ 2017-03-23 13:54
道高一尺
阅读(2846)
评论(0)
推荐(0)
摘要:
1 import urllib.request 2 import chardet 3 4 def main(): 5 count = 1 6 with open('D:\\urls.txt') as f: 7 while True: 8 url = f.readline() 9 if ur... 阅读全文
posted @ 2017-03-23 09:18
道高一尺
阅读(441)
评论(0)
推荐(0)
摘要:
使用Python写文件的时候,或者将网络数据流写入到本地文件的时候,大部分情况下会遇到:UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position ... 这个问题。 网络上有很多类似的文件讲述如何解决这个问题, 阅读全文
posted @ 2017-03-23 09:16
道高一尺
阅读(84742)
评论(4)
推荐(12)
摘要:
在日常使用中,我们难以避免会遇到编码转换问题。(如果编码是什么都不知道,请先看:什么是编码?)而进行编码转换的前提是你知道这个字符串使用的是什么编码。比如你使用 urllib.request.urlopen() 获取一个网页时,你特么如果不知道网页的编码会怎样?<ignore_js_op> 直接 r 阅读全文
posted @ 2017-03-23 07:44
道高一尺
阅读(1239)
评论(0)
推荐(0)