首页 LIBOKE.CN

搜索抓取配置文件robots的设置

robots.txt设置


注意:
  1.不分大小写
  2.空白文档:允许所有搜索引擎抓取所有文档 
  3.robots文件正确放置与网站更目录

注释:文本前加"#"字符

通配符:
  "*":匹配0或多个任意字符
  "$":匹配行结尾字符

基础设置:
  User-agent: *  
  1.指定搜索引擎    
  2.首字母必须大写,后面全小写
  3.“*”正则通配,所有搜索引擎(可指定,百度:Baiduspider,谷歌:Googlebot)


组合设置:
  Disallow: /                  禁止抓取,根目录下的所有内容
  Disallow: /d                禁止抓取,d字母开头的所有目录
  Disallow: /dir/             禁止抓取,指定目录
  Disallow: /dir/*.html    禁止抓取,指定目录下后缀为.html的文件
  Disallow: .png$           禁止抓取,所有后缀是png的文件
 
  Allow:                         允许抓取,用法参考Disallow


例子:(仅允许抓取指定目录,指定后缀文件)
  User-agent: *
  Disallow:/
  Allow:/dir/.html$


例子:(禁止动态链接的页面,如:index.html?name=abc)
  User-agent: *
  Disallow:/*?*


例子:(表示指定目录下,除Allow指定文件,其余都不能抓取)
  User-agent: *                          #允许所有爬虫
  Allow:/data/*/index.html           #允许抓取指定路径的指定文件
  Disallow:/data/                         #禁止抓取指定目录文件


==========================================================

时间:2024/3/3
网址:www.liboke.cn

==========================================================