11个让谷歌百度快速收录网站的技巧

百度快速收录网站的技巧

如果百度或者谷歌没有收录你的网站,那么网站自然不会出现在搜索结果,无法获得的搜索引擎自然流量。关于百度收录的相关问题,也是站长圈子屡见不鲜的话题。

今天就与大家一起分享下如何让百度快速收录网站的11个小技巧(不仅针对百度,其实适用于所有搜索引擎),本文会教你如何解决以下这三个问题:

  1. 你的整个站点没有被索引;
  2. 一部分页面有索引,而其他的没有;
  3. 新发布的页面并没有呗即时索引。

但是首先,请确保我们保持一致,并充分理解索引的意义。

什么是抓取和索引?

无论是百度还是Google,都是通过抓取来发现新的网页,然后将这些网页添加到索引中。他们使用称为Googlebot、Baiduspider的网络爬虫来进行此操作(如果你的WordPress网站安装了Spider Analyser,你会发现许多类型的爬虫)。

很困惑?让我们来对一些名词做一些解释:

  • 抓取:在网页上跟踪超链接以发现新内容的过程。
  • 索引:将网页存储在庞大的数据库中的过程。
  • 网络爬虫:一种执行抓取的程序。
  • Googlebot:谷歌的网络爬虫。
  • Baiduspider:百度的网络爬虫。

当你在百度或者Google搜索内容时,其实是在要求百度或Google返回其索引中的所有相关页面。 由于通常有成千上万的网页符合要求,因此百度或者Google的排名算法会尽力对网页进行排序,以便你会首先看到最好的和最相关的结果。

我这里要阐述的一个要点是,索引和排名是两个不同的事情

索引为了是参与,而排名是为了获胜。

如果你都没有参与是不可能获得获胜的。

如何检查你的页面是否被索引了

进入百度或者谷歌搜索引擎,然后进行如下搜索 site:yourdomain.com

百度网站收录量查询命令
这里的数字显示的是百度或者谷歌大致的索引页面数量。

如果你想检查某个具体的页面是否被索引的话,同样也可以进行这样的操作site:详细的网址(此方法仅适合谷歌,百度则直接搜索URL地址),或者使用搜索推送收录插件的收录查询功能(仅支持百度收录查询) 。

URL地址收录查询命令

谷歌URL收录查询命令

如果没有任何结果的话,就说明页面没有被索引。

如果你是Google Search Console的用户的话,你只需要查看覆盖率额报告就可以找到精准的索引数据。你只需要进入:

Google Search Console > 索引 > 覆盖率

谷歌站长工具网站索引查询

查看有效页面的数量(包括警告页面数量)。

如果这两个数字的总和不是零,那么Google至少会将你网站上的某些页面编入索引。 如果没有,那么你可能遇到严重的问题,因为你的网页均未被索引。

如果要查询网站在百度搜索的整体收录情况,也可以通过百度搜索资源平台查看。

百度搜索资源平台 > 搜索服务 > 索引量

百度资源平台网站索引量查询

小提示.不是Google Search Console用户或者百度搜索资源平台?免费注册一个。每个关心从Google或百度获得流量的站长都应使用Google Search Console或者百度搜索资源平台,这个很重要。此外,百度索引量也可以通过百度统计查看:百度统计> 优化分析 > 百度索引量。

除上述site命令的方法,你也可以使用Google Search Console来检测特定页面是否被谷歌索引。你只需要将页面URL放入URL检测工具中。

如果页面被索引,那么会显示“URL is on Google(URL在谷歌中)”。

谷歌站长工具URL索引查询

如果页面没有被索引,那么这里会显示“URL is not on Google(URL不在谷歌中)”

谷歌站长工具URL未索引结果

如何让谷歌或者百度收录网站页面

你的网站或者页面没有被谷歌或者百度收录?

如果是谷歌搜索引擎,你可以尝试使用以下这些:

  1. 进入Google Search Console。
  2. 进入URL检测工具。
  3. 将需要索引的URL粘贴到搜索框中。
  4. 等待谷歌检测URL。
  5. 点击“请求编入索引”按钮。

如果是百度搜索引擎,则可以尝试:

  1. 进入百度搜索资源平台。
  2. 进入链接提交或者普通收录-资源提交-手动提交。
  3. 将需要百度收录的URL粘贴到指定位置,然后确定提交。
  4. 等待百度蜘蛛爬取收录。

当你发布新帖子或页面时,最好这么操作。你实际上是在告诉Google,你已经在网站上添加了一些新内容,它们应该去看看。

但是,请求编入收录索引不太可能解决旧页面的索引问题,并且这只是一个最原始的方式,提交链接不能确保你的URL一定被收录,尤其是百度。

如果要全面解决网站搜索引擎收录问题,请按照下面的清单进行诊断并解决问题。

下方是一些解决方法的快速访问链接,你可能已经试过其中一些:

  1. 去除Robots.txt中的抓取阻碍
  2. 去除不必要的noindex标签
  3. 将需要索引的页面包含在网站地图中
  4. 去除不必要的canonical标签
  5. 检查页面是否是孤岛页面
  6. 修复不必要的内部nofollow链接
  7. 在“强力”页面中加入内部链接
  8. 确保页面独特并且有价值
  9. 去除或优化低质量页面 (优化“抓取预算”)
  10. 建立高质量的外链
  11. 使用一切可用的推送方式

1) 去除Robots.txt中的抓取阻碍

Google或者百度没有索引整个网站?这可能是由于robots.txt文件存在抓取阻碍导致的。

进入yourdomain.com/robots.txt检查详细的问题。

检查是否右下方的这两段中的任意一个代码:

(1)这样的规则将会告诉谷歌不要索引你的网站;

User-agent: Googlebot
Disallow: /

(2)这样的规则将会告诉百度不要索引你的网站;

User-agent: Baiduspider
Disallow: /

(3)这样的规则将会告诉所有搜索引擎不要索引你的网站;

User-agent: *
Disallow: /

上述三个规则不允许搜索引擎蜘蛛抓取网站上的任何页面。要解决此问题,你只需要删除它们,就这么简单。

如果百度或者谷歌只是没有为单个网页编制索引,也有可能是robots.txt中的某个代码导致的。

要检测单个URL是否因robots.txt没有被谷歌搜索引擎索引收录:

请将URL粘贴到Google Search Console中的URL检测工具中。点击覆盖率板块以显示更多详细信息,然后查找“是否允许抓取? 否:被robots.txt阻止”错误。

这就代表,页面被robots.txt阻止了。

要检测单个URL是否因为robots.txt没有被百度收录索引:

进入网站关联的百度搜索资源平台,找到robots菜单,选择对应的站点名称,点击检测并更新后,在校验出输入你要验证的URL地址,点击校验。(不过不太好使,老用不了,这个功能)

百度搜索资源平台Robots检测

如果是这种情况,请重新检查你的robots.txt文件中是否有与该页面或相关目录有关的“Disallow”规则。

robots-txt

在需要的情况下移除这段代码即可。

2) 去除不必要的noindex标签

如果你告诉谷歌不索引某个网页,谷歌是不会为其编制索引的。这可以让一部分页面保持隐秘。有两种方法可以做到这一点:
方法1:meta标签
在页面的<head> 中如果出现如下任意代码,则不会被谷歌或者百度收录索引:

<meta name=“robots” content=“noindex”>
<meta name=“googlerobot” content=“noindex”>
<meta name=“baiduspider” content=“noindex”>

这是一个针对爬虫的meta标记,它告诉搜索引擎它们是否可以为该页面编制索引。

小提示. 核心的参数是“noindex”,如果出现了“noindex”就代表页面设置了不索引。

如果你想找到网上所有拥有noindex meta标签的页面,你只需要使用Ahrefs的网站诊断工具做个检测即可。然后进入Indexability (可索引性)报告。寻找“Noindex page(不索引页面)“提示。

非索引URL数据

点击后查看所有被屏蔽的页面。删除那些需要索引页面的noindex meta标签。
方法2:X‑Robots-Tag
网络爬虫遵循X-Robots-Tag的HTTP响应标头。你可以使用服务器端脚本语言(例如PHP)、. htaccess文件中的内容或通过更改服务器配置来实现此效果。

Google Search Console中的URL检查工具可告诉你,是否是由于此标头而阻止Google抓取页面。只需输入URL,然后查找“允许索引?否:在“ X‑Robots-Tag” http标头中检测到“ noindex”标记。

x-robots-header-search-console
如果你想检测整个站点是否存在这样的问题,那么可以使用Ahrefs的网站诊断工具,并且在Page Explorer (页面分析)筛选框中选择“Robots information in HTTP header(检查HTTP表头的Robots信息)”进行查看:

x-robots-tag条件过滤

同时,告诉网站开发者,修改需要要索引的页面的表头。

推荐阅读: 使用X-Robots-Tag HTTP表头进行特定的SEO:技巧和窍门

3) 将需要索引的页面包含在网站地图中

网站地图会告诉Google或者百度等搜索引擎网站上的哪些页面很重要,哪些不重要。它同时也可以为搜索引擎的抓取频率做一些指导。

一般情况下搜索引擎应该都能够在你的网站上找到网页,无论它们是否在站点地图中,但将它们包括在网站地图内仍然是一种很好的做法。毕竟,没必要让百度或者谷歌进行毫无意义的抓取。

要检查网页是否在你的站点地图中,请使用Google Search Console中的URL检查工具。如果你看到“URL不在Google上”和“站点地图:不适用”,则表明该URL不在你的站点地图中或未建立索引。

URL未索引或未包含在Sitemap

没有使用Google Search Console?进入你的网站地图,通常是这个地址:yourdomain.com/sitemap.xml,然后搜索这个页面的URL。

sitemap链接搜索

或者,你想找到所有的不在网站地图中,但有需要索引的页面,你只需要使用你Ahrefs网站诊断工具。进入Page Explorer (页面分析),并进行如下筛选:

未包含于Sitemap链接筛选

这些页面应该在你的网站地图中,所以添加进去。添加后,通过下方的Ping方法告诉谷歌你已经更新了这个网站地图。

http://www.google.com/ping?sitemap=http://yourwebsite.com/sitemap_url.xml

将后方的提示换成你的网站地图地址,你应该可以收到下方这样的消息:

sitemap通知

这样可以让谷歌加速索引你的页面。

关于生成WordPress网站Sitemap

有很多WordPress专用的SEO优化插件都支持生成Sitemap网站地图,比如All in One SEO,Yoast SEOGoogle XML Sitemaps或者我们的Smart SEO Tool

Smart SEO Tool插件支持生成标准的XML网站地图,并且能够将网站地图更新通知到谷歌和Bing搜索引擎;并且生成的地图文件满足部分搜索引擎单个文件不超过50000条URL地址的要求。

注:提交sitemap地图,务必遵循“非索引型Sitemap地址提交”。

smart seo tool插件生成sitemap地图

4) 去除不必要的canonical标签

Canonical标签会告诉搜索引擎哪个是页面的首选版本。它看起来像这样:

<link rel=“canonical” href=“/page.html”/>

大多数页面没有canonical标签,也就是所谓的自引用的canonical标签。这就告诉Google或者百度等搜索引擎该页面本身就是首选版本,同时可能是唯一的版本。换句话说,你希望对该页面建立索引。

但是,如果你的页面有不规范的canonical标签,那么有可能在告诉百度或者Google等搜索引擎错误的首选版本。在这种情况下,你的页面将不会被索引。

检测canonical标签,你只需要使用谷歌的URL检测工具(百度好像没有类似的工具,也不太遵守这个规则)。如果你的页面的canonical标签指向了另外一个页面被,你看可以看到“具有Canonical标签的备用页面”的提示。

canonical标签页面

如果这个不应该出现,你希望当前页面被索引,那么只需要去除该页面的canonical标签即可。

重要 请注意,canonical标签并不总是不好的。带有这些标签的大多数页面都会有它们的原因。如果你看到你的页面具有canonical标签,请检查对应的页面。如果确实是该页面的首选版本,并且也无需索引该页面,则应该保留canonical标记。

如果你想快速找到整个站点上有问题的canonical标签,可以使用Ahrefs网站诊断工具进行检测,进入Page Explorer (页面分析)并使用以下设置:

问题canonical标签页面

这会在站点地图中查找带有非自引用canonical标签的页面。几乎可以肯定的是,你希望对站点地图中的页面建立索引,因此,如果此过滤器返回任何结果,则你需要进一步进行排查。

这些页面很可能具有错误的canonical标签,或者一开始就不应该放在你的网站地图中。

5) 检查页面是否是孤岛页面

孤岛页面指的是那些没有内部链接支撑的页面。

由于Google通过抓取链接发现新内容,因此他们无法通过该过程发现孤岛页面。网站访客也将无法找到这些内容。

为了检测孤岛页面,尝试使用Ahrefs网站诊断工具。然后点击 Links(链接)报告,并查看“孤岛页面 (没有任何指向链接)”错误:

孤岛页面统计

这会显示出所有可索引、在站点地图中显示的、但没有内部指向链接的所有页面。

重要 这个只有在下方两种情况下才能够正常检测出结果:

  1. 所有需要索引的页面都在你的网站地图中。
  2. 在Ahrefs的Site Audit最开始,将选择使用网站地图中的页面选项打勾。

不确定要索引的所有页面都在站点地图中吗?尝试这个:

  1. 下载你网站上的所有页面 (可以通过你的CMS来实现)
  2. 抓取你的整个站点 (使用像Ahrefs网站诊断这样的工具)
  3. 对比两组URL。

任何没有在抓取时找到的URL都属于孤岛页面

你可以通过以下两种中任意一个方法解决孤岛问题:

  1. 如果页面不重要,那么将它删除,并移出网站地图。
  2. 如果页面和重要,将他放到你的内链结构中去。

Nofollow链接指的是那些有着 rel="nofollow" 标记的链接。它们会组织 页面权重的传递。同时百度或者谷歌并不会抓取Nofollow链接。

这里是谷歌针对这个做的说明

本质上,使用nofollow会导致我们从抓取目录中删除目标链接。但是,如果其他网站在不使用nofollow的情况下链接到目标页面,或者这些URL是在站点地图中提交给Google的,则目标页面仍可能会出现在我们的索引中。

简而言之,你需要确保指向索引页面的链接是follow状态的。

为此,请使用Ahrefs的网站诊断工具对网站进行抓取。检查Links(链接)报告中是否出现“Page has nofollow incoming internal links only(页面仅具有nofollow的指向链接)”的错误:

nofollow内链错误

假设你要Google索引该页面,请从这些指向链接中删除nofollow标记。如果不是,请删除该页面或对该页面进行noindex处理。

推荐阅读:Nofollow链接详解及使用注意事项

Google通过抓取你的网站来发现新内容。如果你忽略了内部链接到相关页面,则它可能找不到这个页面。

解决此问题的一种简单方法是在网站中添加一些内部链接。你可以在建立索引的任何网页上执行此操作。但是,如果你希望Google尽可能快地为页面建立索引,则可以在一些“强力的”页面上建立一些内部链接。

为什么?因为相比于一些不太重要的页面,Google会更快地抓取此类页面。

做法就是,进入Ahrefs网站分析输入你的域名,并查看 Best by links(最佳链接)报告。

Best by links

这将显示网站上的所有页面,按URL Rating(网址评分)进行排序。换句话说,它首先显示的是权重最高的页面。

查看列表并查找相关页面,可以在这些页面上添加一些目标页面的内部链接。

例如,如果我们希望对“网站测速性能测试深入浅出教程”文章进行内链的制作,那么“如何实现WordPress图像和视频懒加载”这个页面就可以提供一个相关的内部链接。

然后,当Google或者百度下次重新抓取页面时,就会看到并抓取该链接。

专家建议 在你添加完内部链接之后,将该页面粘贴到Google的URL检查工具中。点击“请求编入索引”按钮,以使Google知道页面上的某些内容已更改,它需要尽快对其进行重新抓取。这可以加快Google发现内部链接并因此发现你要索引的页面的进程。如果针对百度搜索引擎,也可以利用百度搜索资源平台的URL提交功能。不过稍后,我们会专门针对URL提交进行详细的说明。

8) 确保页面独特并且有价值

Google不太可能将低质量的网页编入索引,因为它们对用户没有任何价值。以下是Google的John Mueller对2018年建立索引的看法:

We never index all known URLs, that’s pretty normal. I’d focus on making the site awesome and inspiring, then things usually work out better.

(我们从不索引内容重复的URL,这很正常。我会把重点放在内容具备独特性及价值性的网站上,否则搜索变得索然无味。)

— @JohnMu January 3, 2018

11个让谷歌百度快速收录网站的技巧插图23

不管是谷歌或者百度,还是其他搜索引擎,如果你希望网站或网页编入收录索引,则它必须“有价值并且有意义”。

如果你的页面已经排除了技术问题但还是不索引,那么可能就是页面的价值不足。因此,你需要重新审视页面并问自己:这个页面真的有价值吗?如果用户从搜索结果中点击该页面,会在该页面找到有用的内容吗?

如果对上述两个问题的回答均为否,那么你就需要改进你的内容。

你可以通过 Ahrefs网站诊断工具、码迷SEO工具以及 URL Profiler 工具来找到那些低质量的页面。 进入Ahrefs的Site Audit(网站诊断)中的Page Explorer (页面分析)板块,并且进行如下设置:

高质量页面筛选

这个可以反馈那些内容比较单薄的页面,当前这些页面也没有自然流量。换句话说,它们没有被索引的可能性很大。

将报告导出后,将所有的链接站跳到URL Profiler工具中,并且做一个谷歌索引检测。

URL Profiler工具

不得不说,码迷SEO的内容质量报告也是一个非常不错的工具,该工具可以根据你给出的关键词和URL地址,对URL页面进行内容质量不同维度的评分并给出详细的修改意见。包括TDK信息修改,相关词密度建议等:

码迷SEO

重要 如果你要对很多页面(即超过100个页面)进行此操作,建议使用代理。否则,你将面临被Google禁止使用IP的风险。如果你无法这么做,那么另一种选择是在Google上搜索“free bulk Google indexation checker(免费批量Google索引检查器)”。有一些这样的工具存在,但大多数一次只能限制在25页以下。

检查所有未编入索引的页面是否存在质量问题。进行必要的改进,然后在Google Search Console中请求重新请求编入索引。

同时你也需要注意重复内容的问题。 Google或者百度对重复或几乎重复的页面都不会感兴趣,收录索引的概率极低(当然,这也取决于你网站的域名评级,如果域名权重高,这个规律则不一定了)。使用Site Audit(网站诊断)中的 Duplicate content(重复内容)报告来检查这些问题。

重复内容报告

9) 去除或优化低质量页面 (优化“抓取预算”)

网站上的劣质页面过多,会浪费谷歌的抓取预算。

这里是 谷歌对此做的说明

在低价值页面上浪费服务器资源,会使抓取有价值内容的频率下降,这可能会导致在站点上发现大量新内容时出现延迟。

可以将其视为导师在给论文进行评分,其中一个就是你的论文。如果他们要审阅10篇论文,那么他们很快就会看到你的论文。如果他们要审阅一百个,那将花费更长的时间。如果有成千上万的话,那么他们的工作量就太高了,他们可能永远也无法对你的内容进行打分。

Google确实指出:抓取预算[…]并不是大多数站长都需要担心的事情,并且“如果网站的页面少于几千个”,则都可以对其进行有效的抓取。

不过,从你的网站上删除低质量的页面绝不是一件坏事。它只会产生积极影响。

你可以用Ahrefs的内容检测模板来检测那些有问题、不相关并可以删除的页面。

重要 但相对于删除页面,小编更建议采用内容重建的方式来优化低质量的内容。关于内容重建,可以参考“炒冷饭也是做好SEO的一种手段”一文。毕竟大量删除文章可能会产生大量的404错误URL地址,这本身对SEO优化也是一个严重的打击。

外链告诉搜索引擎这个页面很重要。毕竟,如果有人链接到它,则它必须具有一定的价值。这些是百度或者谷歌等搜索引擎想要索引的页面。

百度或者Google不仅会索引带有外链的网页。有很多(上亿的)没有外链的页面也编入了索引。但是,由于搜索引擎认为具有高质量链接的页面更为重要,因此与不具有高质量链接的页面相比,它们抓取和重新抓取的速度可能更快。这会使得索引边的更快。

关于如何获得高质量外链的做法,建议阅读“外链建设在SEO中的重要性及策略”。

虽然无论是百度、谷歌,还是其他搜索引擎,他们都会通过蜘蛛来爬取互联网各个网站的页面信息(前提你没有拦截蜘蛛)。但再强大的蜘蛛群,对于庞大的互联网数据,也无法实时顾及所有网站。

那么,站长要如何将网站最新更新告知搜索引擎呢?

前面提交的手动提交URL、Sitemap提交和通知、内链和外链布局是其中方式,然后,站长不要忽视百度提供的API接口提交数据。

目前百度搜索引擎提供的推送方式包括:

  • 快速收录推送(需要配额权限);
  • 普通收录的自动推送、主动推送;
  • 小程序的天级和周级推送。

此外,Bing搜索引擎也提供API提交的渠道,虽然Bing在搜索引擎的市场份额少得可怜,但再小的占比,庞大的互联网用户基数,这数字也是可观的。只要能从中分得一杯甚至一勺羹,那也是不错的。

关于百度或者Bing的API推送,可以考虑使用搜索推送收录插件来实现。

搜索推送收录管理插件界面

索引 ≠ 排名

在Google还是百度上获得索引、收录,并不代表你能获得排名或者是流量。

这是两个不同的东西。

索引意味着搜索引擎已经看到了你的网站,但是并不意味着你的内容值得搜索引擎对特定关键词进行排序。

这就是SEO需要做的——优化网页以针对特定关键词进行排名的艺术。

简单的来说,SEO包含:

  • 找到你的用户在搜索什么;
  • 围绕话题创作内容;
  • 针对目标关键词进行优化;
  • 外链建设;
  • 对页面内容进行更新,保持“新鲜”。

… 以及一些文章:

延伸阅读

最后

搜索引擎不索引你网站或页面的原因只有两个:

  1. 技术性问题导致它无法索引;
  2. 它认为你的内容没有价值,不值得被索引。

这两个问题很可能同时存在。但是,我想说技术问题要普遍得多。技术问题还可能导致低质量内容的自动生成(例如,分页问题)。

尽管如此,通过上面的检查表多数是可以解决索引问题的。

只要记住索引≠排名即可。如果你想对任何有价值的关键词进行排名,并吸引源源不断的自然流量,那么SEO就是至关重要的。

然后,SEO优化无非来来去去就那些要点:“全面提升WordPress博客SEO的13种方法”,重点还得看站长是否能够遵守这些规则并持久做站。

简言概之,优质的内容——网站优化——链接建设——搜索引擎推送,反复实践,各个击破。相信总会有惊喜来临之时!

(via ahrefs.com 译者,Park Cheng,文章有改动)

标签

评论交流

闪电博沟通群

扫码加入QQ交流群 695891297