趣文网 > 作文大全

SEO正式操作之robots.txt

2020-12-01 21:45:01
相关推荐

百度蜘蛛爬行我们的网站时会优先爬行根目录下的robots.txt文件。robots.txt文件存在的意义是:防止搜索引擎收录一些保密和没有意义的页面,这个文件声明的是该网站中不想被爬虫访问的部分。从而保证网站的安全和更好的优化效果。

robots.txt文件必须存在根目录下,而且百度蜘蛛只能识别小写的robots.txt文件。

下面介绍一年robots.txt文件里面的常用语的意思:

User-agent:用来指定搜索引擎爬虫的名字。

Disallow:用来指定不希望被搜索引擎爬虫访问到的URL。

Allow:用来指定希望被搜索引擎爬虫访问到的URL(优先级要比Disallow高)。

*:通配符,有“全部”的意思。

Sitemap:指定网站地图的位置。

对于一些大型的网站来说,robots.txt文件可以写的详细一点。比如说禁止抓取后台文件、禁止抓取data(就是也就是禁止抓取数据库)。

但是如果我们是一个小企业站、一些小网站的话,其实就也没必要设置太多东西。因为蜘蛛一般只会抓取那些有价值的内容。就拿后台来说,光一个后台登录框也没有什么内容,一般来讲蜘蛛不会抓取的。

所以以下格式是对安全性要求不是特别高的那些小网站可以借鉴的形式:

User-agent:*

Allow:/

Sitemap:https://www.XXXXXX.com/sitemap.xml

修改robots.txt文件的话,那你需要在dede后台的文件管理器中去修改。

另外提醒一下,robots.txt文件本质上是一种协议,而不是强制隔离的技术手段。如果有爬虫想暴力抓取你网站的内容,那你的robots.txt是根本防不住的。

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

快乐是什么作文 初中作文800字优秀作文 一年级作文看图写话 六年级家乡的风俗作文 下雪作文300字 过春节英语作文 友情类作文 我不后悔作文 读书笔记作文 乡村美景的作文 仙人球的作文 周末计划英语作文 春节的故事作文 关于勇敢的作文 蝴蝶兰作文 西安旅游作文 四下作文 介绍中国的英语作文 陪伴作文500字 冰糖葫芦作文 童话故事作文三年级 关于乡村的作文 学校生活英语作文 真没想到作文 英语作文八年级上册 写饺子的作文 五下作文 换位思考作文 满分作文500 初一满分作文