robots文件是什么?设置robots.txt文件的10大注意事项

Robots.txt文件是一个纯文本文件,可以告诉蜘蛛哪些页面可以爬取(收录),哪些页面不能爬取。搜索引擎爬取我们页面的工具叫做搜索引擎机器人,也生动的叫做“蜘蛛”蜘蛛在爬取网站页面之前,会先去访问网站根目录下面的一个文件,就是robots.txt。这个文件其实就是给“蜘蛛”的规则,如果没有这个文件,蜘蛛会认为你的网站同意抓取所有网页。

robots文件是什么?设置robots.txt文件的10大注意事项

下面迦洛SEO就来和大家聊聊设置robots.txt文件的10大注意事项:

1、如果未创建robots.txt文件,则代表默认网站所有文件向所有搜索引擎开放爬取。

2、必须命名为:robots.txt,都是小写,robot后面加”s”。

3、robots.txt必须放置在一个站点的根目录下。

通过如https://www.jaluoseo.com/robots.txt 可以成功访问到,则说明本站的放置正确。

4、一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。

5、空格换行等不能弄错,可复制这个页面并修改为自己的。点击

6、有几个禁止,就得有几个Disallow函数,并分行描述。

7、至少要有一个Disallow函数,如果都允许收录,则写: Disallow:

如果都不允许收录,则写:Disallow: /  (注:只是差一个斜杆)。

8、允许有多个User-agent,如果对所有爬取蜘蛛生效,则用“*”星号表示。

9、robtos.txt文件内可以放上Sitemap文件地址,方便告诉搜索引擎Sitemap文件地址。

10、网站运营过程中,可以根据情况对robots.txt文件进行更新,屏蔽一些不要搜索引擎抓取的文件地址。

举例两个常见屏蔽规则:

User-agent: *  星号说明允许所有搜索引擎收录

Disallow:/search.html

说明 https://www.seowhy.com/search.html 这个页面禁止搜索引擎抓取。

Disallow: /index.php?

说明类似这样的页https://www.jaluoseo.com//index.php?search=%E5%A5%BD&action=search&searchcategory=%25 这样的页面禁止搜索引擎抓取。

本站整理分享,如若转载请注明出处,本文地址:https://www.jaluoseo.com/wzyh/1122.html

发表评论

登录后才能评论
网站建设
网站建设
青岛seo
青岛seo
网站优化
网站优化
分享本页
返回顶部
承接青岛网站建设,青岛seo,青岛网站优化以及北京、上海、深圳等各个地区和城市的企业、个人网站搭建和网站seo优化服务,咨询VX:jaluo2021