解读百度搜索引擎工作原理

解读百度搜索引擎工作原理
解读 百度 搜索引擎工作原理
在说这个话题前,我们先了解一下搜索引擎Spider抓取系统的工作机制。
上图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。
那么百度搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢,主要指标有四个:
 1,网站更新频率:更新快多来,更新慢少来,直接影响Baiduspider的来访频率
 2,网站更新质量:更新频率提高了,仅仅是吸引了Baiduspier的注意,Baiduspider对质量是有严格要求的,如果网站每天更新出的大量内容都被Baiduspider判定为低质页面,依然没有意义。
 简单介绍几种百度支持的返回码:
        1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
        2503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
        3403代表“Forbidden”,认为网页目前禁止访问。如果是新urlspider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
        4301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

 3,连通度:网站应该安全稳定、对Baiduspider保持畅通,经常给Baiduspider吃闭门羹可不是好事情
 4,站点评价:百度搜索引擎对每个站点都会有一个评价,且这个评价会根据站点情况不断变化,是百度搜索引擎对站点的一个基础打分(绝非外界所说的百度权重),是百度内部一个非常机密的数据。站点评级从不独立使用,会配合其它因子和阈值一起共同影响对网站的抓取和排序。

理论上,Baiduspider会将新页面上所有能“看到”的链接都抓取回来,那么面对众多新链接,Baiduspider根据什么判断哪个更重要呢?两方面:

第一,对用户的价值:
1
,内容独特,百度搜索引擎喜欢唯一的内容
2
,主体突出,切不要出现网页主体内容不突出而被搜索引擎误判为空短页面不抓取
3
,内容丰富
4
,广告适当

第二,链接重要程度:
1
,目录层级——浅层优先
2
,链接在站内的受欢迎程度

☆☆☆☆☆☆搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。

那么,哪些网页可以进入优质索引库呢。其实总的原则就是一个:对用户的价值。包括却不仅于:
1,有时效性且有价值的页面:在这里,时效性和价值是并列关系,缺一不可。有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的.
2,内容优质的专题页面:专题页面的内容不一定完全是原创的,即可以很好地把各方内容整合在一起,或者增加一些新鲜的内容,比如观点和评论,给用户更丰富全面的内容。
3,高价值原创内容页面:百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创。
4,重要个人页面:这里仅举一个例子,科比在新浪微博开户了,即使他不经常更新,但对于百度来说,它仍然是一个极重要的页面。

搜索引擎抓取排序机制(下图)
解读百度搜索引擎工作原理
解读百度搜索引擎工作原理
简单来说这个流程图:网站生成页面,搜索引擎蜘蛛抓取后存储到数据库里面(对应开头的那个流程图),程序对这个页面进行分析,利用切词分词技术建立外部索引。

用户输入关键词进行检索,百度搜索引擎在排序环节要做两方面的事情,第一是把相关的网页从索引库中提取出来,第二是把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括:
        1,相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等
        2,权威性:用户喜欢有一定权威性网站提供的内容,相应的,百度搜索引擎也更相信优质权威站点提供的内容。
        3,时效性:时效性结果指的是新出现的网页,且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。
        4,重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度
        5,丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一需求,还可以满足用户的延展需求。
        6,受欢迎程度:指该网页是不是受欢迎。

以上便是百度搜索引擎决定搜索结果排序时考虑的六大原则,那么六大原则的侧重点是怎样的呢?哪个原则在实际应用时占比最大呢?其实在这里没有一个确切的答案。在百度搜索引擎早期,这些阈值的确是相对固定的,比如“相关性”在整体排序中的重量可以占到七成。但随着互联网的不断发展,检索技术的进步,网页数量的爆发式增长,相关性已经不是难题。于是百度搜索引擎引入了机器学习机制,让程序自动产出计算公式,推进排序策略更加合理。

外部链接的作用:

1, 吸引蜘蛛抓取:虽然百度在挖掘新好站点方面下了很大工夫,开放了多个数据提交入口,开避了社会化发现渠道,但超链依然是发现收录链接的最重要入口。

2, 向搜索引擎传递相关性信息:百度除了通过TITLE、页面关键词、H标签等对网页内容进行判断外,还会通过锚文本进行铺助判断。使用图片作为点击入口的超链,也可以通过alt属性和title标签向百度传情达意。

3, 提升排名:百度搜索引擎虽然降低了对超链的依赖,但对超链的识别力度从未下降,制定出更加严格的优质链接、正常链接、垃圾链接和作弊链接标准。对于作弊链接,除了对链接进行过滤清理外,也对链接的受益站进行一定程度的惩罚。相应的,对优质链接,百度依然持欢迎的态度。

4, 内容分享,获取口碑:优质内容被广泛传播,网站借此获得的流量可能并不多,但如果内容做得足够,也可以树立自己的品牌效应。

本文内容来源:百度站长学院

去年今日运营文章

  1. 2024:   2024百度营销通案(0)
  2. 2024:   春日躺营露营活动策划方案.ppt(0)
  3. 2024:   Lululemon品牌营销策略分析(0)
  4. 2024:   lululemon创始人:关于成功的30条建议(0)
  5. 2024:   500强高管忠告:失业后的3个注意事项和4个不能做的事(0)

原创文章,作者:爱运营,如若转载,请注明出处:https://www.iyunying.org/seo/13778.html

(0)
爱运营的头像爱运营管理员
0 0
八张图读懂未来“互联网+”的六大趋势
上一篇 2015年5月7日 下午1:36
图谱:客户忠诚度下降的5个原因
下一篇 2015年5月8日 上午11:22

推荐资讯

  • 在百度做产品运营是怎样一种体验? 产品运营

    在百度做产品运营是怎样一种体验?

    794
    爱运营的头像 爱运营
    2016年3月25日
  • 百度搜索逐步恢复优质网站权限 互联网新闻

    百度搜索逐步恢复优质网站权限

    602
    卢松松的头像 卢松松
    2023年9月28日
  • 从百度到央视,莆田系医院如何利用媒体营销自己? 互联网新闻

    从百度到央视,莆田系医院如何利用媒体营销自己?

    791
    爱运营的头像 爱运营
    2016年5月4日
  • O2O将迎来倒闭潮?百度或拆分业务扛风险 互联网新闻

    O2O将迎来倒闭潮?百度或拆分业务扛风险

    794
    爱运营的头像 爱运营
    2015年7月23日
  • 百度度小店正式开放商家入驻 互联网新闻

    百度度小店正式开放商家入驻

    448
    卢松松的头像 卢松松
    2021年6月22日
  • 2014年“BAT”投资/并购图谱 互联网新闻

    2014年“BAT”投资/并购图谱

    682
    爱运营的头像 爱运营
    2015年1月23日
  • 刘渝民:百度一夜成名究竟是什么鬼? 互联网新闻

    刘渝民:百度一夜成名究竟是什么鬼?

    1.3K
    人人都是运营经理 人人都是运营经理
    2015年12月11日
  • 百度阿里缩减招聘:寒冬来了么? 互联网新闻

    百度阿里缩减招聘:寒冬来了么?

    650
    爱运营的头像 爱运营
    2015年10月22日
  • 百度发布搜索违规行为报告:有点吓人 互联网新闻

    百度发布搜索违规行为报告:有点吓人

    462
    卢松松的头像 卢松松
    2022年4月19日
  • 被百度判定为低质量网站了!如何整改? 互联网新闻

    被百度判定为低质量网站了!如何整改?

    1.0K
    卢松松的头像 卢松松
    2023年9月7日
  • 五分钟了解百度早期是如何做推广的 网络营销

    五分钟了解百度早期是如何做推广的

    1.1K
    爱运营的头像 爱运营
    2016年4月1日
  • 百度开放十余项目对外融资 加速O2O生态构建 互联网新闻

    百度开放十余项目对外融资 加速O2O生态构建

    729
    爱运营的头像 爱运营
    2015年7月31日
  • 百度入股百姓网,加快O2O领域的布局与进攻 互联网新闻

    百度入股百姓网,加快O2O领域的布局与进攻

    743
    爱运营的头像 爱运营
    2015年7月22日
  • 2015年Q3百度总营收达到183.83亿元 同比增长36% 数据分析资料

    2015年Q3百度总营收达到183.83亿元 同比增长36%

    713
    199it 199it
    2015年11月10日
  • 四大阵营流量入口简析:腾讯系、头条系、阿里系、百度 网络营销

    四大阵营流量入口简析:腾讯系、头条系、阿里系、百度

    1.7K
    爱运营的头像 爱运营
    2022年3月15日
  • 百度内测AI搜索框了,全员免费使用 互联网新闻

    百度内测AI搜索框了,全员免费使用

    597
    卢松松的头像 卢松松
    2023年5月11日
  • 百度:2015年搜索推广作弊市场调研 互联网新闻

    百度:2015年搜索推广作弊市场调研

    1.3K
    199it 199it
    2015年12月15日
  • 百度与携程达成协议 将获携程25%总投票权 互联网新闻

    百度与携程达成协议 将获携程25%总投票权

    739
    爱运营的头像 爱运营
    2015年10月27日
  • 关于百度,你不知道的那些有趣故事 互联网新闻

    关于百度,你不知道的那些有趣故事

    930
    爱运营的头像 爱运营
    2018年1月3日
  • 莆田系大战百度背后 新广告法将出台 互联网新闻

    莆田系大战百度背后 新广告法将出台

    1.1K
    爱运营的头像 爱运营
    2015年4月3日
  • 2016年全球最聪明50家公司 百度排第2 互联网新闻

    2016年全球最聪明50家公司 百度排第2

    624
    爱运营的头像 爱运营
    2016年7月5日
  • 百度200亿砸糯米:万亿级“互联网+”服务业风起云涌 互联网新闻

    百度200亿砸糯米:万亿级“互联网+”服务业风起云涌

    937
    爱运营的头像 爱运营
    2015年7月3日
  • 百度熊掌号新搜索指数上线 小道消息

    百度熊掌号新搜索指数上线

    2.1K
    爱运营的头像 爱运营
    2018年2月11日
  • 2016年全球媒体营收前30强 百度排名第九 互联网新闻

    2016年全球媒体营收前30强 百度排名第九

    730
    爱运营的头像 爱运营
    2016年6月2日

发表回复

登录后才能评论

最新运营文章

  • 2024年「乳品行业」小红书618高质量增长攻略
  • 直击小红书618大促:商品笔记创作指南
  • 终于!百度副总裁璩静道歉了!
  • 小红书热词数据分析!经久不衰的“仪式感”,何以成为消费必需?
  • 小红书「打工人」生存现状实录
  • 数据分析:从多巴胺到薄荷曼波,小红书夏季情绪趋势洞察
  • 2023年全国地区薪酬差异系数报告
  • 小浣熊干脆面营销策略.pptx
  • 《100个思维模型系列》076.系统回顾思维模型
  • 互联网史上最大骗局:验证码

资源下载

  • 2024年「乳品行业」小红书618高质量增长攻略
  • 小浣熊干脆面营销策略.pptx
  • 2024年「家生活行业」 618高质量增长攻略
  • 小红书电商直播推广策略解码
  • 春日躺营露营活动策划方案.ppt
  • 2024年「酒水饮料行业」 小红书618高质量增长攻略
  • 新媒体运营培训课件
  • 6张从零开始做运营知识思维导图
  • 2024商业购物中心双旦心动特别企划
  • 2024年「互联网行业」小红书618高质量增长攻略

免费资源

  • 直击小红书618大促:商品笔记创作指南
  • 2023年全国地区薪酬差异系数报告
  • 2024百度营销通案
  • 小红书电商店铺直播玩法秘籍
  • 2024线上线下混合型年会策划及实操指南
  • 新手入门:千帆笔记推广介绍
  • 小红书商品推广产品介绍
  • 美护行业玩转小红星小红盟-3.8大促高效种草助转化
  • 小红书【38节营销IP】不被定义的宝藏女孩
  • 《哈佛商业评论》种草经济专刊

运营专题

  • 免费商用图片
    免费商用图片
    这30+个免费无版权网站,你一定要知道!
  • 波旬:全年营销节点提醒
    波旬:全年营销节点提醒
    波旬:2020年7月营销节点提醒
  • 思维导图
    思维导图
    超详细《硅谷增长黑客实战笔记》思维导图
  • 职场
    职场
    一双“人字拖”的价值

热门运营词

app app运营 B站数据 Facebook O2O 互联网 产品 产品经理 产品运营 内容营销 内容运营 品牌 大数据 小红书 微信 思维导图 抖音 数据分析 新媒体运营 活动运营 用户 用户体验 用户运营 电商 社交媒体 社群运营 腾讯 营销 读书笔记 运营
分享本页
返回顶部

哆哆女性网有名的起泡酒用沐字给女孩起名字鞍山起名馆陈罗庭道长权威便利店起名大全有创意的且听凤鸣剧情釜山行下载新三国演义高清罗姓男孩起名子儿童品牌起名明日方舟公开招募计算器总裁的私宠和平大道装饰画店铺起名辛巴燕窝事件电视剧北方汉子环太平洋火山地震带周易起名大师注册机i54570景德镇起名余起名女大全avira激活码美甲美睫店起名字大全宝宝起名字典取名字典淘宝打折青岛区号晋姓男孩起名勃起药名五行属火土的男孩起名淘宝起名哪家靠谱九龙传说淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻不负春光新的一天从800个哈欠开始有个姐真把千机伞做出来了国产伟哥去年销售近13亿充个话费竟沦为间接洗钱工具重庆警方辟谣“男子杀人焚尸”男子给前妻转账 现任妻子起诉要回春分繁花正当时呼北高速交通事故已致14人死亡杨洋拄拐现身医院月嫂回应掌掴婴儿是在赶虫子男孩疑遭霸凌 家长讨说法被踢出群因自嘲式简历走红的教授更新简介网友建议重庆地铁不准乘客携带菜筐清明节放假3天调休1天郑州一火锅店爆改成麻辣烫店19岁小伙救下5人后溺亡 多方发声两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#青海通报栏杆断裂小学生跌落住进ICU代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了当地回应沈阳致3死车祸车主疑毒驾武汉大学樱花即将进入盛花期张立群任西安交通大学校长为江西彩礼“减负”的“试婚人”网友洛杉矶偶遇贾玲倪萍分享减重40斤方法男孩8年未见母亲被告知被遗忘小米汽车超级工厂正式揭幕周杰伦一审败诉网易特朗普谈“凯特王妃P图照”考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼恒大被罚41.75亿到底怎么缴男子持台球杆殴打2名女店员被抓校方回应护栏损坏小学生课间坠楼外国人感慨凌晨的中国很安全火箭最近9战8胜1负王树国3次鞠躬告别西交大师生房客欠租失踪 房东直发愁萧美琴窜访捷克 外交部回应山西省委原副书记商黎光被逮捕阿根廷将发行1万与2万面值的纸币英国王室又一合照被质疑P图男子被猫抓伤后确诊“猫抓病”

哆哆女性网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化