首页 > Google网站管理员工具 > 从 Google 索引中删除我自己的内容

从 Google 索引中删除我自己的内容

2009年7月30日

此网页介绍如何从 Google 索引中删除您自己的内容(网页、网站、图片等)。为此,您需要对您的网站进行一些更改,然后等待 Google 再次抓取您的网站。通过网站管理员工具中的网址删除工具可加快这一过程。

要删除内容或阻止搜索引擎抓取您网站上的内容,您需要采取以下一种或两种方法:

  • 使用 robots.txt 文件。robots.txt 文件可限制抓取网络的搜索引擎漫游器对您的网站的访问(请注意,尽管 Google 不会抓取 robots.txt 拦截的网页内容或将其编入索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会将这些网页的网址编入索引)。要使用 robots.txt 文件,您需要对服务器具有 root 访问权限。了解关于创建 robots.txt 文件的详情。
  • 使用 noindex 元标记。如果检测到某一网页上含有 noindex 元标记,Google 就会将该网页从我们的搜索结果中完全删除,而不管是否还有其他网页与其相链接。如果这些内容目前包含在我们的索引中,我们会在下次抓取该内容时将其删除。该元标记允许您基于网页进行访问控制,如果您对服务器没有 root 访问权限,那么该元标记会十分有用(您需要能够编辑您的网页的源 HTML 代码)。
如果您要删除的内容不归您控制,请参见从搜索结果中删除其他人的内容

您希望删除哪些内容?

我的整个网站或目录

要阻止漫游器抓取您的网站,请在您的 robots.txt 文件中添加以下指令:

User-agent: *
Disallow: /

要只想从 Google 中删除您的网站并阻止 Googlebot 在以后抓取该网站,请使用以下指令:

User-agent: Googlebot
Disallow: /

每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 提供内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只将所有 http 网页而非 https 网页编入索引,应使用以下 robots.txt 指令。

对于 http 协议 (http://yourserver.com/robots.txt):

User-agent: *
Allow: /

对于 https 协议 (https://yourserver.com/robots.txt):

User-agent: *
Disallow: /

网页

要阻止所有漫游器将您网站上的某个网页编入索引,请使用 noindex 元标记。请将以下元标记置入该网页的 部分:

<meta name="robots" content="noindex">

要允许其他漫游器将该网页编入索引而只阻止 Google 的漫游器,请将以下元标记置入其 部分:

<meta name="googlebot" content="noindex">

请注意,由于我们必须抓取您的网页才能看到 noindex 元标记,因此在极少数情况下 Googlebot 可能会看不到和不遵循 noindex 元标记。如果您的网页仍显示在搜索结果中,可能是因为在您添加标记后我们尚未抓取过您的网站。(此外,如果您使用了 robots.txt 文件拦截该网页,我们将无法访问该网页并检测到此标记。)

图片

要从 Google 的图片索引中删除图片,请在您的 robots.txt 文件中添加一条指令。例如,如果您希望 Google 将您的网站上显示的狗.jpg 图片(www.yoursite.com/images/狗.jpg)排除在外,请在您的 robots.txt 文件中添加以下指令:

User-agent: Googlebot-ImageDisallow: /images/狗.jpg

要从我们的索引中删除您网站上的所有图片,请在您的 robots.txt 文件中添加以下指令:

User-agent: Googlebot-ImageDisallow: /

Disallow 模式中可包含”*”,用以与任意字符序列相匹配;Disallow 模式可用”$”结尾,用以表示名称到此结束。要删除属于某一文件类型的所有文件(例如,包括 .jpg 图片但不包括 .gif 图片),请使用以下 robots.txt 条目:

User-agent: Googlebot-ImageDisallow: /*.gif$

通过将 Googlebot-Image 指定为 User-agent,可将图片排除在 Google 图片之外。如果您要将图片排除在所有 Google 搜索(包括 Google 网页搜索和 Google 图片)之外,请指定 User-agent Googlebot。

缓存的网页

Google 会为抓取的每个网页自动拍摄”快照”,并将快照存档。如果原始网页不可用(由于网页的网络服务器暂时出现故障),此”缓存”版本可使您的最终用户检索到网页。缓存网页的外观与 Google 最后抓取该网页时的外观相同,并且该网页的顶端会显示一条消息,来指明该网页为缓存的版本。用户可以在搜索结果页上选择”网页快照”链接来访问缓存的版本。

在开始之前,您必须执行以下其中一项操作:

  • 要更新某网页的缓存版本,请更改该网页的内容。Google 下次抓取该网页时,我们就会更新它的缓存版本。
  • 要从 Google 的索引中删除某网页的缓存版本并阻止 Google 在将来缓存该网页,您必须向该网页添加 noarchive 元标记。我们在下次抓取该网站时,就会看到该标记并删除该网页。

完成此操作后,如果 Google 还没有抓取并缓存该网页的最新版本,您可以使用网站管理员工具中的网址删除工具请求尽快删除当前缓存的内容。

要阻止所有搜索引擎显示您网站的”缓存”链接,请将以下标记置入网页的 <HEAD> 部分:

<meta name="robots" content="noarchive">

只阻止 Google 显示您网站的”缓存”链接,请使用以下标记:

<meta name="googlebot" content="noarchive">

注意:使用 noarchive 元标记仅会删除该网页的”缓存”链接。Google 仍会将该网页编入索引,并显示其中的某个片段。
过期的网页或链接

Google 会定期更新其全部索引。抓取网络时,我们会自动查找新的网页,删除过期的链接并将更新应用到现有的网页中,从而尽可能确保 Google 索引始终是最新的。

如果您网站上的过期链接显示在了搜索结果中,请确保网页在标头处能够返回 404(未找到)或 410(已删除)状态代码。这些状态代码会通知 Googlebot 请求的网址无效。某些配置错误的服务器也会为不存在的网页返回 200(成功)状态代码,这会通知 Googlebot 请求的网址有效,且应当被编入索引。如果某个网页通过 http 标头返回了真正的 404 错误,那么任何用户都可以使用网页删除请求工具从 Google 索引中删除该网页。对于未返回真正 404 错误的过期网页,当其他网页停止链接到这些网页时,我们通常会自然地将其排除在索引之外。

已更新 9/15/2009

转载:http://www.google.com/support/webmasters/bin/answer.py?hl=cn&answer=156412

Google网站管理员工具

  1. 目前还没有任何评论.
  1. 目前还没有任何 trackbacks 和 pingbacks.