day04 进制和编码

 

课程目标:讲解计算机中一些必备的常识知识,让学员了解一些常见名词背后的含义(重在理解)。

课程概要:

  • python代码的运行方式

  • 进制

  • 计算机中的单位

  • 编码

 

1.Python代码运行方式

  • 脚本式

    python3 ~/PycharmProjects/day03/6.作业题讲解.py
  • 交互式

    python3

    截屏2020-10-25 下午5.15.51

 

 

2.进制

计算机中底层所有的数据都是以 010101的形式存在(图片、文本、视频等)。

  • 二进制

    0
    1
    10

    截屏2020-10-25 下午5.36.39

  • 八进制

  • 十进制

  • 十六进制

image-20201025174321969

2.1 进制转换

 

 

 

v1 = bin(25) # 十进制转换为二进制
print(v1) # "0b11001"
​
v2 = oct(23) # 十进制转换为八进制
print(v2) # "0o27"
​
v3 = hex(28) # 十进制转换为十六进制
print(v3) # "0x1c"
i1 = int("0b11001",base=2) # 25
​
i2 = int("0o27",base=8) # 23 
​
i3 = int("0x1c",base=16) # 28 

 

 

3. 计算机中的单位

由于计算机中本质上所有的东西以为二进制存储和操作的,为了方便对于二进制值大小的表示,所以就搞了一些单位。

  • b(bit),位

    1,1位
    10,2位
    111,3位
    1001,4位
  • B(byte),字节

    8位是一个字节。

    10010110,1个字节
    10010110 10010110,2个字节
  • KB(kilobyte),千字节

    1024个字节就是1个千字节。

    10010110 11010110 10010111 .. ,1KB
    1KB = 1024B= 1024 * 8 b
  • M(Megabyte),兆

    1024KB就是1M
    1M= 1024KB = 1024 * 1024 B = 1024 * 1024 * 8 b
  • G(Gigabyte),千兆

    1024M就是1G
    1 G= 1024 M= 1024 *1024KB = 1024 * 1024 * 1024 B = 1024 * 1024 * 1024 * 8 b
  • T(Terabyte),万亿字节

    1024个G就是1T
  • ...其他更大单位 PB/EB/ZB/YB/BB/NB/DB 不再赘述。

 

做个小练习

  • 假设1个汉字需要2个字节(2B=16位来表示,如:1000101011001100),那么1G流量可以通过网络传输多少汉字呢?(计算机传输本质上也是二进制)

    1G = 1024M = 1024 * 1024KB = 1024 * 1024 * 1024 B
    每个汉字需要2个字节表示
    1024 * 1024 * 1024/2 = ?
  • 假设1个汉字需要2个字节(2B=16位来表示,如:1000101011001100),那么500G硬盘可以存储多少个汉字?

    500G = 500 * 1024M = 500 * 1024 * 1024KB = 500 * 1024 * 1024 * 1024 B
    500 * 1024 * 1024 * 1024 / 2 = ?

     

4.编码

编码,文字和二进制之间的一个对照表。

 

4.1 ascii编码

ascii规定使用1个字节来表示字母与二进制的对应关系。

00000000
00000001 w
00000010 B
00000011 a
...
11111111

2**8 = 256

image-20201026111741235

image-20201026111752410

 

4.2 gb-2312编码

gb-2312编码,由国家信息标准委员会制作(1980年)。

gbk编码,对gb2312进行扩展,包含了中日韩等文字(1995年)。

在与二进制做对应关系时,由如下逻辑:

  • 单字节表示,用一个字节表示对应关系。2**8 = 256

  • 双字节表示,用两个字节表示对应关系。2**16 = 65536中可能性。

 

4.3 unicode

unicode也被称为万国码,为全球的每个文字都分配了一个码位(二进制表示)。

  • ucs2

    用固定的2个字节去表示一个文字。

    00000000 00000000 悟
    ...

    2**16 = 65535
  • ucs4

    用固定的4个字节去表示一个文字。
    00000000 00000000 00000000 00000000 无
    ...
    2**32 = 4294967296

     

文字     十六进制            二进制 
ȧ 0227 1000100111
ȧ 0227 00000010 00100111 ucs2
ȧ 0227 00000000 00000000 00000010 00100111 ucs4

乔 4E54 100111001010100
乔 4E54 01001110 01010100 ucs2
乔 4E54 00000000 00000000 01001110 01010100 ucs4

😆 1F606 11111011000000110
😆 1F606 00000000 00000001 11110110 00000110 ucs4

 

无论是ucs2和ucs4都有缺点:浪费空间?

文字     十六进制     二进制
A 0041 01000001
A 0041 00000000 01000001
A 0041 00000000 00000000 00000000 01000001

unicode的应用:在文件存储和网络传输时,不会直接使用unicode,而在内存中会unicode。

4.4 utf-8编码

包含所有文字和二进制的对应关系,全球应用最为广泛的一种编码(站在巨人的肩膀上功成名就)。

本质上:utf-8是对unicode的压缩,用尽量少的二进制去与文字进行对应。

  unicode码位范围            utf-8      
0000 ~ 007F 用1个字节表示
0080 ~ 07FF 用2个字节表示
0800 ~ FFFF 用3个字节表示
10000 ~ 10FFFF 用4个字节表示

具体压缩的流程:

  • 第一步:选择转换模板

      码位范围(十六进制)                转换模板
    0000 ~ 007F 0XXXXXXX
    0080 ~ 07FF 110XXXXX 10XXXXXX
    0800 ~ FFFF 1110XXXX 10XXXXXX 10XXXXXX
    10000 ~ 10FFFF 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

    例如:
    "B" 对应的unicode码位为 0042,那么他应该选择的一个模板。
    "ǣ" 对应的unicode码位为 01E3,则应该选择第二个模板。
    "武" 对应的unicode码位为 6B66,则应该选择第三个模板。
    "沛" 对应的unicode码位为 6C9B,则应该选择第三个模板。
    "齐" 对应的unicode码位为 9F50,则应该选择第三个模板。
    😆 对应的unicode码位为 1F606,则应该选择第四个模板。

    注意:一般中文都使用第三个模板(3个字节),这也就是平时大家说中文在utf-8中会占3个字节的原因了。
  • 第二步:在模板中填入数据

    - "武"  ->  6B66  ->  110 101101 100110
    - 根据模板去套入数据
    1110XXXX 10XXXXXX 10XXXXXX
    1110XXXX 10XXXXXX 10100110
    1110XXXX 10101101 10100110
    11100110 10101101 10100110
    在UTF-8编码中 ”武“ 11100110 10101101 10100110

    - 😆 -> 1F606 -> 11111 011000 000110
    - 根据模板去套入数据
    11110000 10011111 10011000 10000110

     

4.5 Python相关的编码

字符串(str)     "alex媳妇叫铁锤"             unicode处理               一般在内存
字节(byte) b"alexfdsfdsdfskdfsd" utf-8编码 or gbk编码 一般用于文件或网络处理
v1 = ""

v2 = "".encode("utf-8")
v2 = "".encode("gbk")

 

将一个字符串写入到一个文件中。

name = "嫂子热的满身大汗"
data = name.encode("utf-8")

# 打开一个文件
file_object = open("log.txt",mode="wb")
# 在文件中写内容
file_object.write(data)
# 关闭文件
file_object.close()

 

 

一、python2的字符串类型

在python2中,字符串一般有两种类型,unicode和str。(python3中是Unicode类型)

str类型,字节码类型,根据某种编码把字符串转成对应的字节,一个字符根据不同的编码规则对应不同的字节数。GBK编码一个字符对应两个字节。

unicode类型,则是用unicode编码的字符串,一个字符对应两个字节。

直接赋值字符串,类型为str,str为字节串,会按照开头的encoding来编码成对应的字节。

赋值的时候在字符串前面加个u,类型则为unicode,直接按照unicode编码成两个字节。

# coding=utf-8
s1 = "字节串"
print(type(s1)) #输出 <type 'str'>,按照开头的encoding来编码成相应的字节
print(len(s1)) #输出9,因为按utf8编码,一个汉字占3个字节,3个字就占9个字节

s2 = u"万国码"
print(type(s2)) #输出 <type 'unicode'>,用unicode编码,2个字节1个字符
print(len(s2)) #输出3,unicode用字符个数来算长度,从这个角度上看,unicode才是真正意义上的字符串类型
E:\PycharmProjects\LEDdisplay2\venv\Scripts\python.exe E:/PycharmProjects/LEDdisplay2/1.py
<type 'str'>
9
<type 'unicode'>
3

Process finished with exit code 0

再举个例子,比如要从一个文件中找出所有后两位是’字符’的词语,在进行判断的时候:

# coding=utf-8
s = '中文字符'
s[-2:] == '字符‘ 
# 返回false,本以为相等但在python2中是不相等的
# 这里的”字符是用开头的encoding声明解释的,我开头用的是utf8,汉字占3个字节,所以“字符”占了6个字节),而s[-2:]取的是最后两个”双字节“,所以不相同。

s = u'中文字符'
s[-2:] == u'字符’ 
# 加u强制转换成unicode
# 返回true,这也是为什么说unicode是真正意义上的字符串类型。因为使用的是unicode,”字符“占的是两个”双字节“,一个"双字节“一个字。

对于经常处理中文字符串的人,统一用unicode(加u强制转换成unicode)就可以避免这个坑了。

虽然有些字符串处理函数用str也可以,应该是函数里面帮你处理了编码问题。

二、python3的字符串类型

python3中,字符串是以Unicode编码的,是str类型。

如果要在网络上传输,或者保存到磁盘,就需要把str变为以字节为单位的bytes。python3中对bytes类型的数据用带b前缀的单引号或者双引号表示。

以Unicode表示的str通过encode()方法可以编码为指定的bytes。反过来,从网络或磁盘上读取的字节流,即bytes,要把bytes变为str,通过decode()方法。

 

 

>>> "ABC".encode("utf-8")
b'ABC'
>>> "中文".encode("utf-8")
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
# 纯英文的str可以用ASCII编码为bytes,内容是一样的,含有中文的str可以用UTF-8编码为bytes。
# 含有中文的str无法用ASCII编码,因为中文编码的范围超过了ASCII编码的范围,Python会报错
# 因为python3中字符串类型是Unicode编码的,所以不需要先decode成Unicode,直接encode成指定编码的bytes

反过来

>>> b'ABC'.decode("utf-8")
'ABC'
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode("utf-8")
'中文'
>>>

三、python3字符函数举例一二

len()函数,str类型字符串调用时,计算的是字符数,bytes类型调用时,计算的是字节数

>>> len(b'ABC')
3
>>> len(b'\xe4\xb8\xad\xe6\x96\x87')
6
>>> len('中文'.encode('utf-8'))
6
# 1个中文字符经过UTF-8编码后通常会占用3个字节,而1个英文字符只占用1个字节

ord()函数,获取单个字符的整数表示

chr()函数,把单个字符的整数转换为对应的字符

C:\Users\xxx>python3
Python 3.8.7 (tags/v3.8.7:6503f05, Dec 21 2020, 17:59:51) [MSC v.1928 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.

>>> ord("A")
65
>>> ord("")
20013
>>> chr(65)
'A'
>>> chr(25991)
''
>>>

chardet.detect(str),查看字符串的编码格式
detect()函数接受一个参数,一个非unicode字符串
它返回一个字典,其中包含自动检测到的字符编码和从0到1的可信度级别。encoding:表示字符编码方式;confidence:表示可信度; language:语言

# encoding: utf-8
import chardet
s = "中文".encode("utf-8")
print(chardet.detect(s))
D:\SoftInstall\Python\Python38\python3.exe E:/PycharmProjects/displayPY3/1.py
{'encoding': 'utf-8', 'confidence': 0.7525, 'language': ''}

Process finished with exit code 0

检测出的编码是ascii,confidence字段表示检测的概率是0.7525(即75.25%)

总结

本章的知识点属于理解为主,了解这些基础之后有利于后面知识点的学习,接下来对本节所有的知识点进行归纳总结:

  1. 计算机上所有的东西最终都会转换成为二进制再去运行。

  2. ascii编码、unicode字符集、utf-8编码本质上都是字符与二进制的关系。

    • ascii,字符和二进制的对照表。

    • unicode,字符和二进制(码位)的对照表。

    • utf-8,对unicode字符集的码位进行压缩处理,间接也维护了字符和二进制的对照表。

  3. ucs2和ucs4指的是使用多少个字节来表示unicode字符集的码位。

  4. 目前最广泛的编码为:utf-8,他可以表示所有的字符且存储或网络传输也不会浪费资源(对码位进行压缩了)。

  5. 二进制、八进制、十进制、十六进制其实就是进位的时机不同。

  6. 基于Python实现二进制、八进制、十进制、十六进制之间的转换。

  7. 一个字节8位

  8. 计算机中常见单位b/B/KB/M/G的关系。

  9. 汉字,用gbk编码需要用2个字节;用utf-8编码需要用3个字节。

  10. 基于Python实现将字符串转换为字节(utf-8编码)

    # 字符串类型
    name = "武沛齐"
    
    print(name) # 武沛齐
    # 字符串转换为字节类型
    data = name.encode("utf-8")
    print(data) # b'\xe6\xad\xa6\xe6\xb2\x9b\xe9\xbd\x90'
    
    # 把字节转换为字符串
    old = data.decode("utf-8")
    print(old)

     

  11. 基于Python实现将字符串转换为字节(gbk编码)

    # 字符串类型
    name = "武沛齐"
    print(name) # 武沛齐
    # 字符串转换为字节类型
    data = name.encode("gbk")
    # print(data) # b'\xe6\xad\xa6\xe6\xb2\x9b\xe9\xbd\x90'  utf8,中文3个字节
    print(data) # b'\xce\xe4\xc5\xe6\xc6\xeb'              gbk,中文2个字节
    
    # 把字节转换为字符串
    old = data.decode("gbk")
    print(old)

     

     

 

 

 

 

 

 

 

 

 

 

 

 

 

 

posted @ 2022-03-30 00:05  贰号猿  阅读(131)  评论(0)    收藏  举报