百度搜索引擎工作原理讲解!

发布时间:2019-05-21 21:56:26
点击:
作者:风雪
来源:代代SEO

    百度搜索引擎工作原理是学习SEO入门课,是新手必须要掌握的,网络上、官方的原理都太过于复杂不便于理解,我挑重点为大家通俗易懂的总结了一下,更加方便新手的学习。百度搜索引擎原理主要分为四步:百度蜘蛛抓取页面内容、储存临时库进行垃圾内容过滤、资源分类并建立索引、输出排序结果。


    第一步:百度蜘蛛抓取内容


    当我们建立好一个网站的时候,想在SEO中做排名,就一定要把网站地址提交到百度站长平台,让百度蜘蛛来进行抓取,百度蜘蛛抓取到内容后,如果判断内容为高质量内容,就会收录到百度资源库中,提供给用户进行搜索结果展现!反之就会过滤掉,不给予收录,或者收录了,但不给予搜索结果展现(就是不给排名的意思)。


搜索引擎工作原理百度搜索引擎原理


    1,百度通过哪些渠道可以抓取我们网站那?


    一般而言新站,都是我们自己进行提交到百度站长平台后,百度才会进行抓取,否则百度怎么知道你的网站存在那?还有一种方式就是,你把你站点链接发布到了其他网站上,比如:博客、论坛、贴吧这类的平台,百度在抓取这些平台的时候,跟着链接直接来抓取你的站点。另外现在百度搜索引擎给我们了一个福利,就是只要我们在我们的网站中添加一段代码,百度自动就会来进行抓取了,大大提高了网站抓取率!


    2,蜘蛛抓取状态码什么意思?


    这个状态码主要在我们分析蜘蛛抓取日志的时候会用到,蜘蛛日志会记录百度每天来抓取了多少次,都抓取了那些页面和目录,都是哪些IP段的蜘蛛,以及抓取是否成功,或者抓取失败,抓取失败就意味着页面不会被收录,也就不会参与排名,怎么判断抓取失败那,这个时候就需要用到蜘蛛状态码了!


    200表示抓取成功,百度蜘蛛成功抓取了页面,准备进行下一步处理!


    403代表抓取失败,网页目前禁止访问,一般为设置了某些权限所产生。


    404代表抓取失败,原网页页面已经失效,代表抓取失败


    503代表抓取失败,网页临时不可访问,通常网站临时关闭,带宽超额不可访问等情况。


    3,抓取异常是由什么原因造成的?


    一般而言,如果百度蜘蛛抓取失败,证明用户也是不可访问的,常见的原因有服务器连接异常,就是网站打不开,或者抓取页面已经被删除掉、失效成为了死链接。这里大家要注意,如果在蜘蛛中发现了抓取失败的页面,一定要及时处理,以免大量的失效页面被百度搜索引擎所惩罚!


    第二步、临时库垃圾内容过滤


    百度蜘蛛抓取到成功的页面,会下载储存到一个临时库中去,然后百度会通过各类算法进行页面分析,删除重复的页面、低质量的页面、违法信息页面、等等,百度的算法高达200多种,最后过滤出高质量页面,进行下一步的处理!


    什么样的页面称之为高质量页面?


    1、有时效性且有价值的页面


    在这里,时效性和价值是并列关系,缺一不可。有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的.


    2、内容优质的专题页面


    专题页面的内容不一定完全是原创的,即可以很好地把各方内容整合在一起,或者增加一些新鲜的内容,比如观点和评论,给用户更丰富全面的内容。


    3、高价值原创内容页面


    百度把原创定义为花费一定成本、大量经验积累提取后形成的文章,千万不要再问我们伪原创是不是原创。


    4、图文并茂,且段落分明


    如果文章字数超过500字,且是图文并茂形式,段落清晰,为花费一定成本编写的原创文章,是百度最喜欢的文章类型,大家可以参考“百度百科”形式!


    第三步:资源分类并建立索引


    当上一步处理完毕,经过审核的高质量页面,在这一步会被百度正式的储存在索引库中,也称为被收录了,并运用分词算法对文章进行归类,通俗点讲就是什么类型的文章就放到什么位置,方便百度归类文章内容!


    这里跟大家讲解一下,索引跟收录会稍微有一点误差,是因为有一部分的索引量百度并没有直接公开出来,可能还需要进行审核,需要延迟一段时间才能放出来,有的直接公开出来了,所以大家查收录的时候,一般索引量会高于收录量,这个是正常现象!    


    第四步:输出排序结果


    搜索引擎会对蜘蛛抓取回来的页面内容进行逐一标记和识别,将这些标记进行存储为结构化数据,比如页面的基本title信息,tag,discripition,keywords,网页外链描述,抓取记录等一系列内容。以便在用户搜索的时候提供最匹配的内容页面。


    当上一步建立索引以后,并且百度放出你的页面以后,就会通过一系列算法来计算你应该获得的排名位数!计算排名是需要一系列的算法,下面举出几个百度官方声明的。


   (这里注意,没放出来的页面是无法计算排名的,也就是百度中根本就搜索不到你的页面)


    影响百度搜索引擎页面排序因素的几个点!


    1,相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等


    2,权威性:用户喜欢有一定权威性网站提供的内容,相应的,百度搜索引擎也更相信优质权威站点提供的内容。


    3,时效性:时效性结果指的是新出现的网页,且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。


    4,重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度


    5,丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一需求,还可以满足用户的延展需求。


    6,受欢迎程度:指该网页是不是受欢迎,用户的访问行为,停留时长,页面点击率等等。


    7、综合排序:将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等。


    好了,今天我们就讲解到这里,其实我们从搜索引擎的工作原理不难发现,只有您网站上的内容能给用户带来更好的体验,才能得到搜索引擎的亲睐,所以内容是否对用户有价值是我们终究要考虑的一个问题。


微信扫一扫赞助

    匿名评论
  • 评论
人参与,条评论