欢迎光临周浪zhoulang (Eastwave) 的博客主页本博客在线提供全方位的、系统的、全面的最新新闻资讯技术等。涉及工业商业IT科教百科国际军事科普文化艺术旅游数码通讯影音娱乐体育休闲购物物流房产工作生活的方方面面。重点主要凸现在IT的计算机电脑互联网SEO搜索引擎网页设计HTMLDHTMLXMLCSSPHPASPSQL数据库JavaCC++Flash三维动画广告设计平面设计动画制作计算机应用;以及计算机网络电子邮件软件技术黑客技术电脑游戏电子竞技主页空间主机域名博客社区下载论坛计算机技术
posts - 12, comments - 340, trackbacks - 0, articles - 627
  首页  :: 联系 :: 订阅 订阅  :: 管理

浅谈Google对网络富媒体文件的抓取和编制索引




Flash

Google 现在可以发现各种 SWF 文件(包括独立的 Flash 网站,以及按钮和菜单等 Flash 小工具)中的文字内容,并为其编制索引。 这样就能使用户看到所有文字内容。 此外,我们现在可以查找和跟踪嵌在 Flash 文件中的网址。 我们抓取此内容并为其编制索引的方式与我们抓取您网站上其他内容并为它们编制索引的方式一样,网站管理员无需采取任何其他特殊措施。 然而,我们不保证将抓取所有内容、Flash 或其他元素并为其编制索引。

我们将继续改进为 Flash 文件编制索引的方式,但仍会遇到下列限制:

1. Googlebot 并不执行某些类型的 Javascript。如果您的网页使用 Javascipt 加载 Flash 文件,我们可能无法发现该文件的内容和为其编制索引。

2. 我们目前不附加来自外部资源(由您的 Flash 文件加载)的内容。 如果您的 Flash 文件加载了其他文件(如 HTML 文件、XML 文件或其他 SWF 文件),我们可能会为那些文件中的内容编制索引,但是我们不会将那些内容看作您 Flash 文件内容的一部分。

3. 目前,我们无法为 Flash 文件中的双重定向语言内容(如希伯来语或阿拉伯语)编制索引。

请注意,虽然 Google 可以为 Flash 文件中的内容编制索引,其他搜索引擎可能无法这样做。请提供这些文件的等效文字版本,这样可帮助其他搜索引擎抓取您的内容以及为其编制索引。您还可以考虑使用 ‎sIFR(Scalable Inman Flash Replacement,可伸缩 Inman Flash 替换)技术。sIFR(一种开放源项目)允许网站管理员用 Flash 对应内容替换文本元素。使用该技术,内容和导航由嵌入的 Flash 对象显示,但由于内容包含在 HTML 源代码中,非 Flash 用户(包括搜索引擎)也可以进行读取。

Silverlight 和其他富媒体格式

Google 可以抓取 Flash 文件中的文字内容并为其编制索引,但仍无法访问其他富媒体格式的内容,如 Silverlight 格式。 这些富媒体格式本身就是可视的,可能会导致 Googlebot 在读取时出现某些问题。 与某些互联网 Spider 不同的是,Googlebot 可以读取一些富媒体文件并提取其中的文本和链接,但结构和上下文会丢失。 另外,富媒体设计者通常会以图形的形式提供内容,而 Google 无法检测到图形中的字词,因此可能会丢失重要的关键字。 换言之,即使我们能抓取您的内容并将其放入我们的索引中,也可能会丢失某些文字、内容或链接。

如果您确实希望使用 Silverlight 或其他富媒体格式,以下谨提供一些可以防止出现问题的指南。

· 尽量只在需要的位置使用富媒体。我们建议您针对内容和导航使用 HTML。 这会使您的网站便于 Google 使用,也会让其获得更多的受众,包括如因视觉缺陷需使用屏幕读取器的用户、使用版本较早或非标准浏览器的用户,以及带宽有限或较低的用户(如手机或移动设备用户)。 好处还不止这些, 将 HTML 用于导航时,用户可将内容添加为书签并可通过电子邮件发送直接链接。

· 提供网页的文字版本。Silverlight 通常用作主页上的闪屏,网站的根级网址会在此处提供一个富媒体简介,指向网站内部的 HTML 内容。 如果您在网站上采用这种方法,请确保在该首页上有一个指向非 Flash 网页的常规 HTML 链接,以便用户(或 Googlebot)可以不必借助富媒体工具就可浏览您的网站。

· 建议您使用 robots.txt  拦截富媒体文件。如果您提供了文字版本的内容,可以考虑使用 robots.txt 拦截对富媒体版本的访问。

--- 摘自:<Google>


博客评分,欢迎投票: Google PageRank (Powered by MyPagerank.net) Google Bot Last Visit (Powered by GBotVisit.com) Yahoo Bot Last Visit (Powered by MyPagerank.net) MSN Bot Last Visit (Powered by MyPagerank.net) Website Counter (Powered by RedCounter.net)