百度副总裁向海龙:已收录超一万亿张网页

来源:岁月联盟 编辑:exp 时间:2014-06-01

  [摘要]向海龙指出,一万亿张网页相当于5000个国家图书馆的信息量总和。

百度副总裁向海龙:已收录超一万亿张网页

  腾讯科技讯(乐天)5月29日消息,百度副总裁向海龙今日在2014年百度联盟峰会上表示,

  全球信息量呈几何式跃升,从2005年的130EB(1EB=10亿GB)到2015年的8000+EB,10年增长66倍。来自可穿戴设备、LBS、语音、网络图片、视频等数据类型越来越丰富。

  向海龙指出,百度已收录全世界超过一万亿张网页,这相当于5000个国家图书馆的信息量总和。百度还承担着每天百亿次的访问请求,可离线完成1000亿网页的处理与分析。并且,时效性网页从更新到索引只需要几十秒,真正做到在大数据量级下的低延迟和秒级响应。

  创新产品的背后是百度的计算能力。其中,超大规模的存储技术和分布式计算技术是重要的基础。百度拥有数十万台服务器、EB级别的超大数据存储和管理规模,数据处理达到100GB/s的毫秒级响应速度,并达到100PB/天的数据计算能力。

  向海龙介绍说,百度对广告特征的挖掘达到千亿级别。如以银河系的恒星来计数,这相当于两个银河系的行星数量。百度每天有PB级的样本量来训练模型,相当于10万个地球总人口的样本。最后达到分钟级的数据时效,以及上千倍高纬度特征的搜寻效率。

  向海龙还介绍了极速搜索的特点,称就是“快”比普通搜索减少80%处理时间。“人眨一次眼睛时间是0.2秒,博尔特的起跑时间是0.16秒,子弹穿过木板的时间是0.05秒,而百度极速搜索的响应时间仅仅为0.04秒。”