【基础】搜索引擎处理后html还剩下什么
蜘蛛抓取html页面后,代码中存在太多无用的html标签,通常预处理程序会去除掉标签
<div id="cnts">
<div id="site_nav_top">«<a href="http://home.cnblogs.com/">我的园子</a></div>
<div id="login_area"><span id="span_userinfo"></span></div>
<div class="clear"></div>
</div>
处理完后只剩下“我的园子”可见文字,同时搜索引擎还是提取包含文字的特定标签,例如meta标签中的文字,图片的alt文字,link的title文字,flash的替代文字等
浙公网安备 33010602011771号