来源:企业网站建设 | 03-17
网页要被搜索引擎抓取,首先要被搜索引擎收录,而搜索引擎收录网页参考的就是robots.txt文件,robots.txt文件对于网站非常重要,robots.txt文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
Disallow – 不允许蜘蛛抓取某些文件或目录。
下面的代码将阻止蜘蛛抓取网站所有的文件:
User-agent: *
Disallow: /
Allow – 允许蜘蛛抓取某些文件。可以把Allow和Disallow配合使用,从而使蜘蛛在某个目录下只抓取一部分内容。
下面代码将不允许蜘蛛抓取ab目录下的文件,而只抓取cd下的文件:
User-agent: *
Disallow: /ab/
Allow: /ab/cd
$通配符 – 匹配URL结尾的字符。
下面的代码将允许蜘蛛访问以.htm为后缀的URL路径:
User-agent: *
Allow: .htm$
*通配符 – 告诉蜘蛛匹配任意一段字符。
如下面一段代码将禁止蜘蛛抓取所有htm文件:
User-agent: *
Disallow: /*.htm
Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:
Sitemap: sitemap_location
蓝冰科技提供技术支持
转载请注明: >> Robots.txt文件标准写法?
版权所有:http://www.bluece.com 转载请注明出处本文链接:http://www.bluece.com/newsread.asp?u=102w319w3478t0