共计 901 个字符,预计需要花费 3 分钟才能阅读完成。
1,搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,保证存储和查询速度,保证数万台服务器内容一致的难度越来越高。google 于 03 至 06 年左右公布了三篇论文,描述了 gfs、bigtable、mapreduce 三种技术以解决这些问题。由于 google 并没有公布算法细节,因此由雅虎牵头,在 06 年左右建立了开源项目 hadoop,目的是根据 google 的三篇论文,实现一个大规模的管理计算系统。但直到 08 年,hadoop 同 google 公布的一些关键指标仍有几倍的差距。百度曾经由王选院士的一个博士带领,想基于 google 论文独立实现 (金字塔计划) 一个自己的系统,但开发难度过大项目夭折,最终也转向了 hadoop。如今,amazon、facebook、yahoo 包括百度都在大规模应用 hadoop,而 google 已经从 2010 年开始迁移到新的三驾马车 caffeine、pregel、dremel 上了。单就搜索技术而言,google 不是领先百度,而是领先全世界。
2,2009-2012 年,google 公布了世界上第一个全球化的数据库系统 spanner,这套系统将分布在全球各地的数据中心连接到一起,利用原子钟和 gps,打破了地理间隔,实现了全球规模具有一致性和实时性的数据库。在 google 之前,很多人认为这种系统不可能做出来,但 google 做到了[1]。
另外,除了搜索,google 在深度学习和机器人方面也是全球领先的,尤其是后者。尽管百度也有深度学习研究院,但在这两方面跟 google 比起来完全是空白。
事实上,让百度来和谷歌比是很不公平的,搜索只是 google 的一个部门,但却是百度一整个公司。google 的竞争对手是 apple、amazon、facebook 和 microsoft,百度的竞争对手是 360、搜狗。google 没了搜索,还有 chrome、android、motorola、youtube,百度没了搜索,那就什么都没有了。
exclusive: inside google spanner, the largest single database on earth
本文作者:kenny chao 文章来源: