关注前端开发
关注用户体验

浅析搜索引擎收录原理

搜索引擎爬虫,蜘蛛,机器人是什么?-搜索引擎收录原理

搜索引擎为了能够让自己的数据库足够的强大,足够的全面,不分昼夜的在网络上寻找新的,更可靠的信息,但是随着网络时代到来,网络信息爆炸式的 整张,人工根本不可能完成这样的任务,因此,搜索引擎拥有者开发出来一套程序,用来不分昼夜的抓去信息,然后整理,分类信息,最后将这些信息索引到自己的 数据库中。

这种不分昼夜抓取网站信息的程序的名字很多,比如:蜘蛛,爬虫,机器人,探测器。一般搜索引擎可以同时派出N多个爬虫程序,它们通过URL一个 页面一个页面的抓去网站的标题,描述,图片,网站内容等,然后把抓去回来的信息放在专用的仓库中,等待索引。

但是网站的设计者,并不能保证自己设计的网站是天衣无缝的,都会有很多问题:比如说网页中出现死链接,网页内容过多等,都导致爬虫程序无法正确 的抓取完整个页面的内容,或许爬虫只抓去了这个页面的头部,在抓去身子的时候发现自己存储信息的地方不够了,不得不离开。所以我们在设计网站的时候都应该 注意这些问题,建议各位网站设计者能够把网页设计的容易让爬虫接受。

Google的两个爬虫程序原理介绍

下面我们以搜索引擎中做的最好的google为例,分析搜索引擎是如何抓取信息,如何处理信息。

Google爬虫程序拥有2种:刷新爬虫,和深度探测爬虫,刷新爬虫部分昼夜的将抓取来的信息放在一个特定的数据库中,由于刷新爬虫个和主要索 引程序一起提供搜索结果,有的时候您会发现,你的页面更新突然出现在搜索结果页面,但是过了一会又突然消失了,这是因为刷新爬虫在不停的抓去信息,不停的 重写,给我的感觉是刷新爬虫的存储机制影响比较像数据结构中的栈,先进后出,后就进先出,消失的这段时间各位seo不要着急,还是那个样子不停的更新1月 后就会慢慢出现在搜索结果中,不过现在可能等待时间没有那么长。如果你的页面已经在搜索引擎的索引中出现,刷新爬虫一旦发现你的更新,爬虫程序会很快的将 您的更新显示出来,但是还是不够稳定,要一直等到深度爬虫更新主要索引,您的页面才能够足够的稳定。

下面我们用简单的流程介绍下搜索引擎收录过程:

刷新爬虫程序——–》发现信息———-》抓取信息———-》放在专用数据库———–》等待索 引整理———-》索引整理(深度爬虫访问主要索引)——-》索引完成,某关键词的排名都已经计算好——-》等待用户搜索 ——–》奉上结果。

搜索引擎提供的结果有几种?

搜索结果提供的搜索结果有二种,建议各位seoer都应该做上,本人正在学习中,希望能得到高手指点一二。

三种搜索结果1内容索引结果2特别索引结果,前者是对网页的关键词,标题,描述,链接源头文字等文字形式的索引和压缩。后者包含图片索 引,PDF文件索引等比较特殊的索引,建议各位seoer不要小看第二种搜索结果,这个也是能带来相当大的流量的。

赞(1)
未经允许不得转载:大前端 » 浅析搜索引擎收录原理
分享到: 更多 (0)

评论 11

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #10

    Can I say what a relief to discover one who actually knows what theyre preaching about on-line. You certainly understand how to bring a challenge to light making it important. More and more people really need to check out this and understand why side of your story. I cant believe youre less well-known simply because you undoubtedly develop the gift.

    Ollie Mishoe1周前 (05-15)回复
  2. #9

    I discovered your website site on bing and appearance some of your early posts. Maintain inside the great operate. I just now extra your Feed to my MSN News Reader. Seeking forward to reading much more by you at a later date!…

    Nonton Anime2周前 (05-10)回复
  3. #8

    Everything you need to know about News is very much imptortant to us.

    cat2周前 (05-08)回复
  4. #7

    This site was… how do you say it? Relevant!! Finally I have found something which helped me. Many thanks!

  5. #6

    very nice post, i undoubtedly adore this site, continue it

  6. #5

    Very good info. Lucky me I came across your website by chance (stumbleupon). I have book marked it for later!

    DMC52个月前 (03-31)回复
  7. #4

    All other webmasters should take note: this is what awesome articles look like! I cannot wait to read more of your work! Not only is it engaging, but it is also well-written. If you would reply with a link to your Facebook, I would be extremely grateful!

    my singing monsters2个月前 (03-28)回复
  8. #3

    The subsequent time I learn a weblog, I hope that it doesnt disappoint me as a lot as this one. I mean, I do know it was my choice to learn, however I truly thought youd have one thing attention-grabbing to say. All I hear is a bunch of whining about one thing that you possibly can repair in case you werent too busy searching for attention.

    Karly Branstetter3个月前 (03-11)回复
  9. #2

    我需要多来学习学习! 🙂

    gezi7年前 (2012-05-30)回复
  10. #1

    不错的文章 转走啦

    olings9年前 (2011-01-04)回复

themebetter 国内更好的WordPress主题服务商

立即前往