【基础】搜索引擎处理后html还剩下什么

蜘蛛抓取html页面后,代码中存在太多无用的html标签,通常预处理程序会去除掉标签

        <div id="cnts">
            <div id="site_nav_top">«<a href="http://home.cnblogs.com/">我的园子</a></div>
            <div id="login_area"><span id="span_userinfo"></span></div>
            <div class="clear"></div>
        </div>
处理完后只剩下“我的园子”可见文字,同时搜索引擎还是提取包含文字的特定标签,例如meta标签中的文字图片的alt文字link的title文字flash的替代文字

posted on 2011-06-16 17:12  瓦卡  阅读(138)  评论(0)    收藏  举报

导航