哈夫曼编码实践

哈夫曼编码实践

实验内容

  • 哈夫曼编码实践
    • 设有字符集:S={a,b,c,d,e,f,g,h,i,j,k,l,m,n.o.p.q,r,s,t,u,v,w,x,y,z}。
    • 给定一个包含26个英文字母的文件,统计每个字符出现的概率,根据计算的概率构造一颗哈夫曼树。
    • 并完成对英文文件的编码和解码。
    • 要求:
      (1)准备一个包含26个英文字母的英文文件(可以不包含标点符号等),统计各个字符的概率
      (2)构造哈夫曼树
      (3)对英文文件进行编码,输出一个编码后的文件
      (4)对编码文件进行解码,输出一个解码后的文件

实验过程及结果

1.设有字符集:S={a,b,c,d,e,f,g,h,i,j,k,l,m,n.o.p.q,r,s,t,u,v,w,x,y,z},给定一个包含26个英文字母的文件,统计每个字符出现的概率。

  • 首先,初始化一个含有二十六个字母的字符型数组,a对应的下标为0,以此类推。
  • 然后,定义一个容量为26的double型数组,用于统计每个字母的出现次数及概率,注意下标的对应关系,并初始化数组。
char[] S = new char[]{'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'};
        double[] sum = new double[26];
        int count = 0;
        for (int i = 0; i < 26; i++) {
            sum[i] = 0;
        }
  • 读取文件内容,将内容存储在一个字符串中,然后将其转化为字符型数组,再用两个for循环统计26个字母出现的次数及概率。
File file = new File("D:\\test", "HelloWorld.txt");
        Reader reader2 = new FileReader(file);
        String result = "";
        while (reader2.ready()) {
            result += (char) reader2.read();
        }
        char[] text = result.toCharArray();
        for (int j = 0; j < text.length; j++) {
            for (int k = 0; k < S.length; k++) {
                if (text[j] == S[k] || text[j] == (S[k] - 32)) {
                    sum[k]++;
                    count++;
                }
            }
        }
        for (int i = 0; i < sum.length; i++) {
            sum[i] = sum[i] / count;
        }

2.根据计算的概率构造一颗哈夫曼树

harf h = new harf();
        Node root = h.createTree(nodes);
        h.setCode(root);
  • 调用的方法为:
public class harf {
    Node createTree(List<Node> nodes) {
        // 只要nodes数组中还有2个以上的节点
        while (nodes.size() > 1) {
            quickSort(nodes);
            //获取权值最小的两个节点
            Node left = nodes.get(nodes.size() - 1);
            Node right = nodes.get(nodes.size() - 2);

            //生成新节点,新节点的权值为两个子节点的权值之和
            Node parent = new Node(null, left.weight + right.weight);

            //让新节点作为两个权值最小节点的父节点
            parent.leftChild = left;
            parent.rightChild = right;

            //删除权值最小的两个节点
            nodes.remove(nodes.size() - 1);
            nodes.remove(nodes.size() - 1);

            //将新节点加入到集合中
            nodes.add(parent);
        }

        return nodes.get(0);
    }
  • 上面的这个步骤是输入一个node型的数组,然后将其排序,将两个最小的组成一个三节点的二叉树,再将其放回数组中,删除两个最小的,重复上述步骤,直到数组里只剩下一个元素,循环结束,哈夫曼树就构造好了。

3.对英文文件进行编码,输出一个编码后的文件。

  • 对文件进行编码,其实就是将每个字母用01代码表示,然后全部输入到文件中。
  • 而每个字母的01代码由从根节点到对应结点的路径决定,进入到左子树就加‘0’,进入右子树就加’1‘,因此我用了递归来实现:
public void setCode(Node root) {

        if (root.leftChild != null) {
            root.leftChild.code = root.code + "0";
            setCode(root.leftChild);
        }

        if (root.rightChild != null) {
            root.rightChild.code = root.code + "1";
            setCode(root.rightChild);
        }

4.对编码文件进行解码,输出一个解码后的文件。

  • 解码其实就是编码的反过程,将每个01码对应的字母打印到文件中,这就是解码的过程。
  • 但是,在解码的过程中,如果编码不是用的哈夫曼编码,而是用的普通的二进制编码,那么就会出现解码错误,混乱的情况。

  • 而哈夫曼的特点就是任意字符编码都不是其他编码的前缀,这也就决定了它解码时不可能出现不明确的情况。
 private void matchCode(Node root, String code){
        if (root.leftChild == null && root.rightChild == null) {
            if (code.equals(root.code)) {
                result += root.data; // 找到对应的字符,拼接到解码字符穿后
                target = true; // 标志置为true
            }
        }
        if (root.leftChild != null) {
            matchCode(root.leftChild, code);
        }
        if (root.rightChild != null) {
            matchCode(root.rightChild, code);
        }
    }

上传码云

实验过程中遇到的问题和解决过程

  • 问题:我开始的思路有问题:
    • 我的第一份程序,前面读取文件并统计数据的过程都很顺利,但是当构建树时,出现了很多问题,其实主要就是我的储存方式有问题。

  • 我的思路是:因为数组存储有容量限制,因此我想用无线延伸的链表来存储数据,下面是我的示意图和代码(忽略这辣鸡画工)
public void BuildTree(){
        Linked l=new Linked(sum,S);
        Number Head=l.Sort();
        Number temp=Head;
        LinkedBinaryTree branch = null;
        while (temp.next!=null){
            int he=temp.num+temp.next.num;
            LinkedBinaryTree a=new LinkedBinaryTree(temp);
            LinkedBinaryTree b=new LinkedBinaryTree(temp.next);
            branch=new LinkedBinaryTree(temp.num+temp.next.num,a,b);
            temp=l.Delete2();
            Number node=new Number(he,'1');
            temp=l.InsertNode2(node);
        }
        root=branch;
    }

  • 但是当我把加起来的结点重新放回数组里时,我发现我的每个数组元素只存储了一个结点,并且没有左右子树。于是,我改用数组存放树的结点,然后将其排序,将两个最小的组成一个三节点的二叉树,再将其放回数组中,删除两个最小的,重复上述步骤,直到数组里只剩下一个元素,循环结束,哈夫曼树就构造好了

感悟

posted @ 2019-11-23 10:23  hp12138  阅读(183)  评论(0编辑  收藏