Implement Trie (Prefix Tree)

关注Trie 这种结构已经很久,Trie有一个很有趣的用途,那就是自动提示。而且,前不久在一次面试里,也需要用Trie来解答。所以,在此对这个数据结构进行总结。
Trie,又称单词查找树或键树,是一种树形结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
它有3个基本性质:

  1. 根节点不包含字符,除根节点外每一个节点都只包含一个字符。
  2. 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。
  3. 每个节点的所有子节点包含的字符都不相同。

下面这个图就是Trie的表示,每一条边表示一个字符,如果结束,就用星号表示。在这个Trie结构里,我们有下面字符串,比如do, dork, dorm等,但是Trie里没有ba, 也没有sen,因为在a, 和n结尾,没有结束符号(星号)。

有了这样一种数据结构,我们可以用它来保存一个字典,要查询改字典里是否有相应的词,是否非常的方便呢?我们也可以做智能提示,我们把用户已经搜索的词存在Trie里,每当用户输入一个词的时候,我们可以自动提示,比如当用户输入 ba, 我们会自动提示 bat 和 baii.

现在来讨论Trie的实现。

首先,我们定义一个TrieNode。

 1 class TrieNode {
 2     // Initialize your data structure here.
 3     char content; // the character in the node
 4     boolean isEnd; // whether the end of the words
 5     int count; // the number of words sharing this character
 6     LinkedList<TrieNode> childList; // the child list
 7 
 8     public TrieNode(char c) {
 9         childList = new LinkedList<TrieNode>();
10         isEnd = false;
11         content = c;
12         count = 0;
13     }
14 
15     public TrieNode subNode(char c) {
16         if (childList != null) {
17             for (TrieNode eachChild : childList) {
18                 if (eachChild.content == c) {
19                     return eachChild;
20                 }
21             }
22         }
23         return null;
24     }
25 
26     public TrieNode() {
27         childList = new LinkedList<TrieNode>();
28         isEnd = false;
29         content = ' ';
30         count = 0;
31     }
32 }

现在我们来看这个Trie类的具体实现。

public class Trie {
    private TrieNode root;

    public Trie() {
        root = new TrieNode();
    }

    public void insert(String word) {
        if (search(word) == true) return;

        TrieNode current = root;
        for (int i = 0; i < word.length(); i++) {
            TrieNode child = current.subNode(word.charAt(i));
            if (child != null) {
                current = child;
            } else {
                current.childList.add(new TrieNode(word.charAt(i)));
                current = current.subNode(word.charAt(i)); 
            }
            current.count++;
        }
        // Set isEnd to indicate end of the word
        current.isEnd = true;
    }

    // Returns if the word is in the trie.
    public boolean search(String word) {
        TrieNode current = root;

        for (int i = 0; i < word.length(); i++) {
            if (current.subNode(word.charAt(i)) == null)
                return false;
            else
                current = current.subNode(word.charAt(i)); // 非常巧妙
        }
        /*
         * This means that a string exists, but make sure its a word by checking
         * its 'isEnd' flag
         */
        if (current.isEnd == true) return true;
        return false;
    }

    // Returns if there is any word in the trie
    // that starts with the given prefix.
    public boolean startsWith(String word) {
        TrieNode current = root;

        for (int i = 0; i < word.length(); i++) {
            if (current.subNode(word.charAt(i)) == null)
                return false;
            else
                current = current.subNode(word.charAt(i));
        }
        return true;
    }
    
    public void deleteWord(String word){  
        if(search(word) == false) return;  
      
        TrieNode current = root;  
        for(char c : word.toCharArray()) {   
            TrieNode child = current.subNode(c);  
            if(child.count == 1) {  
                current.childList.remove(child);  
                return;  
            } else {  
                child.count--;  
                current = child;  
            }  
        }  
        current.isEnd = false;  
    }
}

时间复杂度分析:

 对于insert, 如果被插入的String长度是 k, 每对一个字符进行查询,我们最多在child linkedlist里面查询26次(最多26个字母),所以,复杂度为O(26*k) = O(k). 对于 search, 复杂度是一样的。

本文代码来自:http://www.technicalypto.com/2010/04/trie-in-java.html

转载请注明出处:http://blog.csdn.net/beiyeqingteng

posted @ 2016-06-29 04:02  北叶青藤  阅读(538)  评论(0编辑  收藏  举报