您当前位置:北京网站建设公司 >> seo优化 >> 正文

robots.txt的使用方法和作用

作者:佚名 浏览次数:
robots.txt的使用方法和作用:蜘蛛赞成robots使用方式记录包括:
 
Disallow - 告诉搜索引擎不要抓取某些文档或文件夹。如下面robots源码将阻拦制止搜索引擎抓取全部的网站文档:
 
User-agent: *
 
Disallow: /
 
Allow - 告诉搜索引擎应该抓取某些文档。Allow和Disallow协调使用,可以告诉搜索引擎某个文件夹下,绝大多数都不抓取,只抓取一部分。如下面robots源码将使搜索引擎不抓取ab文件夹下其他文档,而只抓取当中cd下的文档:
 
User-agent: *
 
Disallow: /ab/
 
Allow: /ab/cd
 
$通配符 - 匹配URL结尾地字节。如下面robots源码将同意搜索引擎访问以.htm为后缀的URL:
 
User-agent: *
 
Allow: .htm$
 
*通配符 - 告诉搜索引擎匹配任意一段字节。如下面一段robots源码将禁止搜索引擎抓取全部htm文档:
 
User-agent: *
 
Disallow: /*.htm
 
Sitemaps位置 - 告诉搜索引擎网站的地图在哪里,格式为:
 
Sitemap:
 
三家都赞成的Meta元素包括:
 
NOINDEX - 告诉搜索引擎不要索引某个页面。
 
NOFOLLOW - 告诉搜索引擎不要跟踪页面上的链接。
 
NOSNIPPET - 告诉搜索引擎不要在搜索结果中出现说明文字。
 
NOARCHIVE - 告诉搜索引擎不要出现快照。
 
NOODP - 告诉搜索引擎不要使用开放文件夹中的标题和说明。
 
上面这些记录或元素,现在三家都共同赞成。当中通配符好似以前雅虎微软并不赞成。360现在也赞成Disallow,Allow及两种通配符。Meta元素我不存在找到360是否赞成的官方说明。
 
只有Google赞成的Meta元素有:
 
UNAVAILABLE_AFTER - 告诉搜索引擎页面什么时候过期。在这个日期之后,不应该再显示在搜索结果中。
 
NOIMAGEINDEX - 告诉搜索引擎不要索引网页上的图像。
 
NOTRANSLATE - 告诉搜索引擎不要翻译网页内容。
 
雅虎还赞成Meta元素:
 
Crawl-Delay - 同意搜索引擎延长抓取地频率。
 
NOYDIR - 和NOODP元素类似,而是指雅虎文件夹,而不是开放文件夹。
 
Robots-nocontent - 告诉搜索引擎被标示的部分html不是页面内容的一部分,或者换个角度,告诉搜索引擎哪些部分是网页的主要内容(想被检索的内容)。
 
MSN还赞成Meta元素:
 
Crawl-Delay
 
另外提醒我们注意的是,robots.txt文档可以没有,返回404错误,意指同意搜索引擎抓取全部内容。但抓取robots.txt文档时却发生超时之类的错误,可能导致蜘蛛不收录网站,因为搜索引擎不知道robots.txt文档是否存在或者里面有什么内容,这与确认文档没有是不一样的。
北京网站推广公司
北京网站制作公司
晓圣网页设计公司 版权所有 京ICP备12008142号-4 
电话:010-87889810 值班电话:18211075251 在线QQ客服:992015934
@CopyRight 2009-2017,晓圣网页设计公司, Inc.All Rights Reserved网站地图xml
北京晓圣网页设计公司:北京网站建设公司北京网站制作公司北京网站设计公司北京网页设计公司
 
QQ在线咨询
点击这里给我发消息