`
445822357
  • 浏览: 731148 次
文章分类
社区版块
存档分类
最新评论

robots.txt 不让搜索引擎收录网站的方法

 
阅读更多

有没有担心过自己的隐私会在强大的搜索引擎面前无所遁形?想象一下,如果要向世界上所有的人公开你的私人日记,你能接受吗?的确是很矛盾的问题,站长们大都忧虑“如何让搜索引擎收录的我的网站?”,而我们还是要研究一下“如何让搜索引擎不收录我们的网站”,也许我们同样也用的到。

1.搜索引擎如何工作的?

简单的说,搜索引擎实际上依靠的庞大的网页数据库。按搜索方式可以分为全文搜索目录搜索两种。

所谓全文搜索,是搜索引擎通过从网页自动提取信息来建立数据库的过程。至于提取的原理,就是SEO狂热者们所研究的算法,在他们的理想情况下,网页应该是针对搜索引擎设计的,具有最好的收录效果。当然,不是本文的话题。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信 息存入数据库,以备用户查询。

与全文搜索引擎相比,目录索引有许多不同之处。目录索引完全是手工操作的。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而 且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。

2.如何拒绝搜索引擎?

其实很简单的,只需要在网站的根目录中放一个名称为Robots.txt的文件,该文件的写法很有讲究的哦,务必按要求写,写法如下:

1)什么是Robots.txt?

Robots.txt是一个文本文件,关键是这个文件所在的位置:在网站的根目录下。弄错了,就不起作用了!

2)Robots.txt如何起作用?

前面提到过搜索引擎的自动提取信息会遵循一定的算法,但是,无论算法如何,第一步都是在寻找这个文件。其含义是,“贵站对我们这些Robots有什么限制?”所谓的Robots就是搜索引擎派出的蜘蛛或者机器人。如果没有得到回应(没有找到这个文件),代表没有什么限制,尽管来抓取吧。如果真的有这个文件,机器人会读来看看,如果自己被拒绝就会停止抓取过程了。

3)怎么写Robots.txt文件?

遵循语法的Robots.txt才可能被机器人识别,至于语法,介绍起来很繁琐,现简单举例如下:

1)禁止所有搜索引擎访问网站的任何部分(也就是网站彻底的拒绝所有搜索引擎收录)

User-agent: *

Disallow: /

2)允许所有的robot访问(也就是网站允许所有搜索引擎收录)

User-agent: *

Disallow:

3)禁止某个搜索引擎的访问(比如禁止百度收录,按如下的方式写)

User-agent: baiduspider

Disallow: /

4)允许某个搜索引擎的访问(比如允许百度收录,按如下的方式写)

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

5)禁止搜索引擎访问某些目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /images/

使用方法:很简单,将代码存为一个文本文件,命名为Robots.txt ,放在网页根目录即可。

注意:所有语句都是单规则的,即每行仅声明一条规则,比如例五中三个目录必须分三行列出来。

更多关于Robots的资料请访问:http://www.robotstxt.org/wc/robots.html

各个搜索引擎的机器人蜘蛛名称:http://kangxiaowei.com/archives/6362.html
分享到:
评论

相关推荐

    robots.txt文件在线生成工具.zip

    robots.txt可以告诉搜索引擎您的网站哪些页面可以被收录,哪些页面不可以被收录,如果您不想让搜索引擎收录您网站的某些内容,请用robots.txt文件指定搜索引擎在您网站上的抓取范围。 此工具本人找了很久,源码...

    如何写robots,robots.txt是一个纯文本文件

    robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录...

    robots.txt详细介绍

    robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以...

    如何禁止网站内容被搜索引擎收录的几种方法讲解

    通常做网站的目标就是让搜索引擎收录,扩大推广面,但是如果你的网站涉及个人隐私或者机密性非公开的网页而需要禁止搜索引擎收录抓取的话,该如何操作呢?比如淘宝网就是禁止搜索引擎收录的一个例子,本文将教你几种...

    搜索引擎爬虫管理插件 for Z-blog.rar

    写这个插件的初衷在于帮助不懂Robots.txt写作规范和语法的同学们,通过这个插件,你只需要点点鼠标就能规范的生成Robts.txt文件,帮助引擎收录你想要它收录的东西,过滤你不想它收录的东西。 此插件并不会造成...

    搜索引擎爬虫管理插件(RobotsMng)v1.0 For Zblog.rar

    写这个插件的初衷在于帮助不懂Robots.txt写作规范和语法的同学们,通过这个插件,你只需要点点鼠标就能规范的生成Robts.txt文件,帮助引擎收录你想要它收录的东西,过滤你不想它收录的东西。  此插件并不会造成...

    hello_robots_txt:小森林 robots.txt

    小森林静态资源robots.txtMastodon 默认是用 noindex 标签阻止搜索引擎收录,不过百度好像不太认。如果你确实不希望被收录,修改 是最有效的方法,请提交 Pull Request,把你的用户名(@username@hello.2heng.xin 里...

    搜索引擎优化魔法书

    第一章 搜索引擎基础............................................................................................................................2 第一节 什么是搜索引擎.....................................

    SEO魔法书-最全的优化教程

    第一章 搜索引擎基础............................................................................................................................2 第一节 什么是搜索引擎....................................

    黑色风格HTML5企业网站 html5网站源码 html5网站源码带后台 html5整站源码带后台

    (2)在根目录增加robots.txt,引导搜索引擎蜘蛛收录页面。 2.核心函数标签的改进 (1)text_intro()函数,不再过滤掉空格符,增加对英文站的友好程度。 (2)对product_list()和news_list()函数进行优化,兼容更多...

    SitemapX网站地图生成工具 v1.2.7.rar

     工具能够自动通知(Ping)搜索引擎收录您刚刚更新的页面。这样不仅能加快网页的收录,更能让您的网站从被动等待搜索引擎的收录变成主动通知搜索引擎来收录,从而增加搜索引擎蜘蛛对您网站的喜爱程度,对提高SEO...

    Mpanel空间后台管理系统 2.0.zip

    5.增加了robots.txt让搜索引擎不再收录Mpanel这个管理的目录 6.增加了帮助 7.增加了网页UTF-8转换 8.把没有用的发邮件程序去除 本程序制作权归Mpanel.mfqj.info所有。而内部的管理功能归开发这个管理功能的...

    网站地图与robots

    让网站更容易被搜索引擎收录。

    SEO初级教程.rar

    四、 Robots.txt 介绍 7 五、 网站的基本查询方式 介绍 8 1、收录查询 8 2、网页收录数量 9 3、反向链接查询 9 4、佩奇等级(PageRank) 10 5、ALEXA排名查询 10 六、 搜索引擎优化(SEO) 11 1、搜索引擎...

    搜索引擎蜘蛛算法与蜘蛛程序构架.doc

    搜索引擎蜘蛛算法与蜘蛛程序构架 禁止搜索引擎收录的方法 Robots Meta标签及其用法

    phpcms网站地图

    网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清晰了解网站的架构,网站地图一般存放在robots文件中,为搜索引擎蜘蛛指路,增加网站重要内容页面的收录。网站地图就是根据网站的结构、框架、内容,...

    UrlRewriter Java v2.0 RC1

    比如可以根据User-Agent来判断是否搜索引擎,强制其无法收录您不想让其收录的内容(可以不必设置robots.txt)。 根据来访者的IP地址来为其提供不同的服务,比如禁止某IP段的访问请求。 还有很多,都需要您的潜心...

    酷睿股票私募网站管理系统 v2011.rar

    修正了幻灯图片不能后台添加修改的问题修正了财经视频直播视频不能播放的问题修改滚动行情不能自动更新并改为全球主要股指自动实时更新增强后台木马在线检测系统修正了黑客利用后台或会员上传功能上传木马的BUG修正...

Global site tag (gtag.js) - Google Analytics