前言:
排名规则在百度中是很繁琐的一个环节,繁琐的算法才能保证给用户最好的信息。但是数据的处理往往占用了很大的计算资源,所以百度不断完善排名的相关规则。在17年7月 会上线的全新计算规则将会大大降低计算的部分,而是通过简单的规则判断给予排名。流程如下:
数据预处理-检索处理-索引处理-系数处理-数据包处理-行为处理
算法价值:百度核心算法,内部流出
一.数据预处理
前面的要通过站内更新和站外链接实现,在现在的环境中,百度对站内看的比较重,在爬虫爬取的同时,就会对当前页面给予一个基础分值,低于基础分值的,不收录。只有过了基础分值的才会建立词库索引。关于百度对网站判定,在不同时期有不同的参数参与其中。
T (1T 约=15 天) | 状态 | 备注 | 参考值 | 参数 |
第一周期 (1T) | 新站期 | 新站期,其实只有十五天, 在这十五天中, 网站收录的 时候开始计算, 这五天中最 重要的参考数值是文章数量 的增加 其次是对文章内容 的判定(新增部分属于绿萝) as初始值一般都为0, 也就是 说这个时期的网站, 完全靠 文章增长数量取胜。 Ut为文 章质量判断参数, 具体评断 相关内容不详, 没有相关算 法。 | 企业站:5 Cms: 20 论坛:150 图片站:3 博客:1-3 商城:200 新闻站:50 其他:2 | As+ut=3.2 As+ut=3.6 As+ut=0.7 As+ut=0.3 As+ut=4.5 As+ut=9 As+ut=5.5(0.1) 标记新闻源强制 ut值为0.1 |
第二周期 (3T) | 观察期 | 网站这段时间是最容易被百度过滤的, 这段时候除了收 录的增加, 还开始对网站加 入了初值赋予。 并在这段时 间进行减法运算, 当初始分 值扣光之后, 就会降权该网 站, 并送入沙盒中(百度没 有沙盒一说, 但是有相应的 机制,叫鬼上身) | 初始值r=30 链接作弊: -1 锚文字密度:-5 外 链 作 弊 : -10 (买卖) 文章收录:不增 长-1 友链作弊:-2 代码作弊:-1 | As= ( 100+r) / (50+R)+3.2 这 个公式是说初始 权重的变动。初 始权重=as+ut Ut为文章质量, 直接调用第一周 期的数据。 |
第三周期 (4T) | 增长期 | 这段时期开始, 百度运算加 分法则, 这个时期的加分都 是双倍加分, 是给予能过观 察期的网站的一定的扶持。 百度希望出现优质的网站。 这段时间是最好做很多词的那种大型网站的时机 | 优质文章收录:1 网站版面优化:1 网站交互改进:3 网站规模增长: 10 | 这个周期的公式 都是集合式的, 计算麻烦,as增 长的效果远远不 如ut增长的效 果,就是说这个 时期,还是网站 文章质量重要。 |
第四周期 (9T) | 平稳期 | 这个时期开始, 百度对网站 进入正常的平稳期关注, 对 于网站出现的作弊行为, 会 进行减分, 对好的方面会加 分。 平稳期最重要的会有网站分 类, 不同的分类中给予不同 | 工业行业:5 It科技行业:3 文字行业: 1 个人网站:1 政府网站:5 (有 时候会为 0) 门户网站,新闻 | 推荐度相关,缺 乏最精确的相关 资料,只大致知 道,推荐值为 1,2,3,具体数值 代表的意思不 详。但是推荐值 |
|
| 的推荐度。 相当于百度允许 这样的网站拥有合法的, 有 效的投票权。 这个时期, 会渐渐降低作弊 处罚力度。 除非是格外严重 的作弊,会被人工审核到, 有作弊行为,被发现会立即 被百度处理,即为排名下降, 流量下降。 | 源:0 垃圾站:1 (百度 对于垃圾站本身 并不封杀,原因 是站长圈的反 击。但是对于垃 圾站,百度更多 的会人工过滤) | 本身不参与到排 名计算中。 |
第五周期 (20T) | 信任期 | 进入新任期的时间提前了一 倍, 这个时期的网站会允许 作弊行为的存在。 作弊行为 不会减分, 但是总分值减到 临界值, 会一下子清算。 | 信任值:每1T 增加 1 信任值信 任值M参数计 算很复杂大致公 式 | M(as当前周期 -as上一周期)/ut 变化值。这个公 式不对,大致这 样,集合式公式 打出来很麻烦。 |
数据预处理中,百度会根据不同时期的网站执行不同的预处理手段,当然会比整理的详细复杂的多,但是元素都包含进去了。绿萝算法中提到网站文章的排版问题,还是通过代码和爱思码来的。
检索处理和索引处理,为核心的东西,原理倒是都公开的,实际计算也不难,完全靠数据说话的。这两样处理只是为了给倒排索引列表服务,对排名没有任何干涉。其中有新增加的词库匹配,会在下一批算法中过来,作用暂时不详。检索不只是包含了词库,还有时间,格式等等,是为高级索引服务的。索引过程中,有个站内索引,是为职业搜索服务的,带来的体验分值是想当的高。
二.系数处理(初始值R、推荐度、信任值)
预处理中的系数,涉及到初始值,这个每个网站都一样,只是在后面的减分中会产生差距。所以,前45天的认真程度,会很长时间关系到这个网站在百度中的好坏。
百度是有权重的,分值为20个档。0-19,只是这个权重不参与排名计算。这个权重值影 响其他系数的变动。推荐值,信任值。比如,权重19的网站信任值积累速度肯定比权重18 的快。
赋予的信任值衰减度也肯定低一些。百度考虑放出权重值供大家查询,应该在七月份 之后。
3.推荐度:推荐度的理解,就是以前老版本的权重。换链接的时候,都会考虑这个链接会不会传递权重,其实这个东西就是推荐度。具体数值为1,2,3,具体数值代表的意义不详,只 知道是类别的区分。公式为周期衰减型的微积分公式,简单的表格统计几次计算(单位传递 值1000,只统计小数点后四位):
默认为第一 周期 | 第一次传递 | 第二次传递 | 第三次传递 | 第四次传递 | 第五次传递 |
第一层级 | 1000 | 812.6346 | 656.3659 | 421.8284 | 250.1924 |
第二层级 | 971.8478 | 528.4953 | 593.1643 | 532.4725 | 461.2718 |
第三层级 | 571.4172 | 342.4583 | 380.1594 | 220.2625 | 181.4575 |
第四层级 | 332.1684 | 252.2173 | 231.4254 | 238.2546 | 109.1571 |
第五层级 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | 1.0000 |
为了计算方便,传递值默认为一千,实际每次传递值默认数值都不一样,和权重有最直接的关系,最高和最低相差悬殊几百倍都有可能,公式为著名的金字塔模型公式(也叫能量 金字塔)。我就不去计算了,百度没有做任何修改,或者有修改没公开出来。
所以,根据滞留算法中相关所得,做外链,做第二层级的外链性价比最高。一个外链,最多传递五个层级下去,当然,这里计算的是每个层级中的网站,都只有一个对外链接,就是说,第二层级,只有一个第三层级的链接。如果有五个,那么推荐值要平均除以5的。 第二周期大致为第一周期的百分之三十,第三周期大致为第一周期的百分之五。
周期为两种(自然天数四十五天,就是说,第一周期45天结束之后,自动进入第二周期)
前一周期推荐值溢出,自动进入第二周期。具体推荐值多少溢出,和网站权重有关,权重越高,推荐值上限越高,就跟游戏等级的当前经验值。只不过,推荐度满了不会升级。推荐值溢出之后剩余多少进入下个周期计算,和信任度有关前一周期结束,当前积累的推荐值计算之后,会并入第二周期中计算。这个公式有五个,太难算,且没有实际应用价值,就没有去算。这个每次并非递减,而是递增了。
推荐度激活:也叫外链激活,百度识别链接之后,在统计处理(统计当前网站和链接网站相关)之后,会自动激活推荐度的传递,激活之后,蜘蛛每爬取一次,都会传递一次,一个链接,最多传递199次。或者用户通过百度进入当前页面点击这个链接,也会激活推荐度。 这个一般在当前链接己经失去传递推荐度之后,可以这样激活一次,重新进入传递的过程。 (百度认为,你发的外链没人点,那就是浪费。会在今后的更新中,识别这种点击行为,并 统计到推荐度传递值中。暂时没有生效。)
4.传递值和推荐度的关系:两者实际没有直接的换算关系,推荐度的数值,1,2,3只是类型的分类,而推荐值是具体的分值,是加分制和衰减制的,和推荐度的1,2还是3,都没有最直 接的关系,今后会有相关的更新,暂时没有消息。推荐传递的规则:类聚和群集,并非所有链接都会产生推荐值传递行为。
推荐值对排名的影响:网站吸收过来的被推荐值数值是变动的,这个数值并不会因为有链接的导出而减少。导出多少和这个推荐值没有任何关系。变动的被推荐数值在预处理中占有很大的比重。但是在系数处理中,推荐值所能体现的作用很小,被缩小的十倍左右(公式中体现,百度使用了重力系数g=9.8)推荐度的生效时间,约18天左右。也就是说,一个有推荐度的链接,给别人的推荐值虽 然传递过去了,但是对方要生效,并进入计算,计算后并调整结果,需要18时间。这之间 主要是过滤垃圾链接,百度过滤链接的算法不是一直执行的,是周期性执行。
推荐值溢出时,会给网站增加一个单位的信任值。和推荐值不同,信任值得数值都很小,一天增加个0.1就算一个很大的数值了。推荐度能一定程度上提升网站信任度的信任值的变化,在以前,几乎是一比一的关系,到了第三代算法环境时候,百度就大大降低了这个变化。
信任值:信任值更多的是绿萝算法给予的判定标准,主要是网站质量。信任值本身不参与排名计算,但是会最直接的影响网站的稳定和观察停滞最大时间。网站降权了,有信任值的也不会恢复,需要有状态爬虫的访问,才能解除降权。信任值网站能提高状态爬虫的访问周期(不然半年一次)降权的最后审核,也是这个爬虫的作用。简单的理解为数值前面加个负号。
信任值怎么来:和收录量,收录衰减率两者有关系。
收录量,ske值为准,ske没有的,不代表没有收录,收录了没有放出来,为啥没有放出来呢,是因为当前页面存在异常,一般都是关键词异常,页面打开异常。信任值高的时候,会直接放出来,以后发现问题,会删掉。信任值不高,就会等过滤完,符合就放,不符合就不放。这里有很多过滤机制,严重的会永远不放,但是不会影响网站其他页面,也只是对当前页面生效。同样的,放出一个页面,也对排名没啥变化,只能提升一下信任值。信任值的增加和这两个参数没有具体的公式,只有一个简单的范围规则:见下表
收录量/收录信任值增加,初始值r,初始R
衰减率(这个 不是公式) | r | R | r | R | r | R | r | R | r | R |
50 | 30 | 30 | 30 | 20 | 30 | 15 | 30 | 10 | 30 | 0 |
5 | 4 | 2 | 1 | 0 | ||||||
100 | 30 | 30 | 30 | 20 | 30 | 15 | 30 | 10 | 30 | 0 |
6 | 5 | 4 | 2 | 1 | ||||||
500 | 30 | 30 | 30 | 20 | 30 | 15 | 30 | 10 | 30 | 0 |
7 | 5 | 4 | 3 | 1 | ||||||
1000 | 30 | 30 | 30 | 20 | 30 | 15 | 30 | 10 | 30 | 0 |
8 | 6 | 5 | 4 | 1 | ||||||
5000 | 30 | 30 | 30 | 20 | 30 | 15 | 30 | 10 | 30 | 0 |
10 | 8 | 6 | 5 | 1 | ||||||
10000 | 30 | 30 | 30 | 20 | 30 | 15 | 30 | 10 | 30 | 0 |
20 | 16 | 7 | 5 | 1 | ||||||
100000 | 30 | 30 | 30 | 20 | 30 | 15 | 30 | 10 | 30 | 0 |
40 | 36 | 7 | 6 | 1 | ||||||
300000 | 30 | 30 | 30 | 20 | 30 | 15 | 30 | 10 | 30 | 0 |
50 | 42 | 8 | 8 | 1 | ||||||
800000 | 30 | 30 | 30 | 20 | 30 | 15 | 30 | 10 | 30 | 0 |
80 | 60 | 30 | 10 | 1 | ||||||
1000000 | 30 | 30 | 30 | 20 | 30 | 15 | 30 | 10 | 30 | 0 |
100 | 60 | 20 | 5 | 1 | ||||||
收录衰减率 | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 |
注,r和R对网站的影响不是终身的,网站改版,更换网站主题内容,更换所有人之类的操作,都会重置这两个参数。百度对医疗类网站的态度:所有医疗类初始r都为10 信任值对词库的关系(无限模型)。
12.信任值对网站的作用:
网站作弊处理轻重(点击也属于作弊)
内页收录和内页预排名
推荐值周期溢出剩余值
词库的多少(这一条对新闻源不生效)
信任值影响网站图片收录和排名(图片排名还和alt有关)
1.信任值的高低,直接影响词库的多少,有些网站,做的很好,但是内页几乎都没有什么好排名,长尾词建设的很困难。这个时候就需要信任值分流来操作,降低首页关键词排名,提升内页关键词排名。这个过程不可逆转,因为信任值属于消耗品。
评论列表: