QDa

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
 private static final char URL_SPLASH = '/';
    private static final String URL_SCHEME_POSTFIX = "://";
    private static final String URL_HOST_DELIMITER = ".";
    private static final String URL_HOST_DELIMITER_REGEX = "\\.";

    private static final String[] URL_ORG_DOMAIN = {
            "com", "ac", "aero", "asia", "arpa", "bike", "biz", "coop", "cc", "edu", "gov", "info",
            "int", "idv", "mil", "museum", "mobi", "net", "name", "org", "pro", "tel", "travel",
            "tv", "us", "xxx"
    };

    private static final String[] URL_NATIONAL_DOMAIN = {
            "ac", "ad", "ae", "af", "ag", "ai", "al", "am", "an", "ao", "aq", "ar", "as", "at",
            "au", "aw", "az", "ba", "bb", "bd", "be", "bf", "bg", "bh", "bi", "bj", "bm", "bn",
            "bo", "br", "bs", "bt", "bv", "bw", "by", "bz", "ca", "cc", "cf", "cg", "ch", "ci",
            "ck", "cl", "cm", "cn", "co", "cq", "cr", "cu", "cv", "cx", "cy", "cz", "de", "dj",
            "dk", "dm", "do", "dz", "ec", "ee", "eg", "eh", "es", "et", "ev", "fi", "fj", "fk",
            "fm", "fo", "fr", "ga", "gb", "gd", "ge", "gf", "gh", "gi", "gl", "gm", "gn", "gp",
            "gr", "gt", "gu", "gw", "gy", "hk", "hm", "hn", "hr", "ht", "hu", "id", "ie", "il",
            "in", "io", "iq", "ir", "is", "it", "jm", "jo", "jp", "ke", "kg", "kh", "ki", "km",
            "kn", "kp", "kr", "kw", "ky", "kz", "la", "lb", "lc", "li", "lk", "lr", "ls", "lt",
            "lu", "lv", "ly", "ma", "mc", "md", "mg", "mh", "ml", "mm", "mn", "mo", "mp", "mq",
            "mr", "ms", "mt", "mv", "mw", "mx", "my", "mz", "na", "nc", "ne", "nf", "ng", "ni",
            "nl", "no", "np", "nr", "nt", "nu", "nz", "om", "pa", "pe", "pf", "pg", "ph", "pk",
            "pl", "pm", "pn", "pr", "pt", "pw", "py", "qa", "re", "ro", "ru", "rw", "sa", "sb",
            "sc", "sd", "se", "sg", "sh", "si", "sj", "sk", "sl", "sm", "sn", "so", "sr", "st",
            "su", "sy", "sz", "tc", "td", "tf", "tg", "th", "tj", "tk", "tl", "tm", "tn", "to",
            "tp", "tr", "tt", "tv", "tw", "tz", "ua", "ug", "uk", "us", "uy", "va", "vcSt", "ve"
    };

    public static String getUrlHostName(String url) {

        int start = url.indexOf(URL_SCHEME_POSTFIX);
        if (start == -1) {
            start = 0;
        } else {
            start += URL_SCHEME_POSTFIX.length();
        }
        int end = url.indexOf(URL_SPLASH, start);
        if (end == -1) {
            end = url.length();
        }
        url = url.substring(start, end);
        String[] urls = url.split(URL_HOST_DELIMITER_REGEX);
        int urlssize = urls.length;
        if (urlssize < 2) {
            return null;
        }
        StringBuffer host = new StringBuffer();
        String urltemp = null;
        String topHostTemp = null;
        int findIndex = -1;
        /**
         * 逻辑:从后往前查,第0个不做判断
         * 目的:查国家地区域名,找到最靠前的二级域名,如google.co.jp 查到co
         */
        for (int i = urlssize - 1; i > 0; i--) {
            urltemp = urls[i];
            for (int j = 0; j < URL_NATIONAL_DOMAIN.length; j++) {
                topHostTemp = URL_NATIONAL_DOMAIN[j];
                if (TextUtils.equals(urltemp, topHostTemp)) {
                    findIndex = i;
                    break;
                }
            }
        }
        if (findIndex == -1) {
            findIndex = urlssize - 1;
        }
        /**
         * 逻辑:从国家地区域名往前查,第0个不做判断
         * 目前: 查主域名,如sina.com.cn;上一步查到cn,后一步查com,如12306.cn.需要查询是否有主域名
         */
        boolean isFind = false;
        for (int i = findIndex; i > 0; i--) {
            urltemp = urls[i];
            for (int j = 0; j < URL_ORG_DOMAIN.length; j++) {
                topHostTemp = URL_ORG_DOMAIN[j];
                if (TextUtils.equals(urltemp, topHostTemp)) {
                    findIndex = i;
                    isFind =true;
                    break;
                }
            }
            if(isFind ){
                break;
            }
        }
        if (findIndex > 0) {
            findIndex--;
        }
        if (findIndex != -1) {
            for (int i = findIndex; i < urlssize; i++) {
                host.append(urls[i]);
                if (i != urlssize - 1) {
                    host.append(URL_HOST_DELIMITER);
                }
            }
        }
        return host.toString();
    }

 

posted on 2014-02-08 14:14  QDa  阅读(835)  评论(0编辑  收藏  举报