Baidu Spider 升级到3.0

No Comments

Baidu Spider 2.0从2010年至今一直没有升级,为了能够满足广大网民的 需要,解决百度的延迟性,百度现在做出了重大的调整,百度蜘蛛升级到3.0                                                                             6360235568407348948039293QQ截图20160624090053.png

此次调整是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,可以收录90%的网页,速度提升80%!

一、索引

索引展现时效性提升,原来是10天左右,到2-6天左右,提升40%~80%不等!

二、链接发现

如今spider每天发现的新链接在500亿左右的量级,而在百度站长平台提交链接是其中最为高效的,故需提醒大家不要过度提交链接,尤其是低质链接,这样才能达到更好更及时的收录效果。

三 、链接抓取

策略上,开发了更强大的机器学习模型,来进行链接的质量预测,对库中所有的链接进行全局排序,对有价值链接的召回率提高95%!

架构上,计算性能的强劲提升,对每天新增的数百亿模块的链接,完成实时计算,延时不到1秒;开发了更强大的存储系统,面对万亿规模的数据做到实时读写。

四、死链

全新的死链识别模型,能识别各种协议死链、内容死链、跳转死链等低质网页。

五、时效性

针对时效性资源,从原来的优先对新浪、网易等大新闻站进行抓取,扩大到覆盖全网的新闻、博客、论坛等站点进行快速抓取。另外能够对大小站能够统一对待打破老的平稳抓取模型,采用按需抓取机制,对有时效性新资源,做到秒级抓取。这对于小站来说无疑是福音,只要网站的文章质量高、原创度高,不一定竞争不过大型网站。

 

关于芜湖大部落

一家专注于跨境电子商务、高端网站建设、和网络营销的新兴网络科技公司

获取免费报价

我们提供专业的搜索引擎优化服务,帮助网站提高关键词自然搜索排名,提升网站流量。

发表评论