Search、 Chrome、Android、YouTube、Gmail、Google Play、Maps、Drive、Photos,这些应用与图标我们再熟悉不过了,Google 这 9 个产品的用户量每个都超过 10 亿,而支撑 10 亿量级的数据处理与用户服务,Google Cloud 在其中扮演了重要的支柱角色:海量数据分析与处理能力、云上数据存储与安全保证、AI 的赋能……
这些能力正在通过 Google Cloud 向企业及开发者们开放,有了 10 亿 + 用户体量的应用服务检验,不仅是 Google 的系列新产品,面向企业拓展海外市场的需求, Google Cloud 也正是用这些硬技术保证出海无忧。
中国企业出海风潮已久,互联网技术浪潮下,游戏、电商、视频直播等企业海外布局加速,产品快速且高质量迭代升级的重要性亦是不言而喻,对云服务有高需求的出海企业来说,如何明智的选择全球扩展的技术架构?如何把应用快速部署在不同的地区?如何在海外构建一个全面的大数据分析平台以运营海外业务发展带来的大量数据?如何让机器学习、人工智能技术更好地与海外业务场景结合?这些都是需要仔细考虑的因素。
而 Google Cloud 所提供的能力正是为企业所需:
全球分布的基础架构
开放和多云
数据洞察与数据服务
AI 和机器学习能力
在企业技术架构层面,需要满足全球可扩展、高性能的特点,使得用户都能够快速跟企业建立联系,同时还要满足不同国家、地区和行业的基础架构合规要求。Google Cloud 中国工程师团队负责人连冠华对此提到:
“Google 在构建整个基础架构时遵循零风险的原则,从芯片、性能到 OS 都是定制化,这带来两个好处:第一、出现任何问题我们大家可以及时修复,而不需要等第三方。第二、所有定制化的组件都是由 Google 负责,可以部署更加安全。同时我们在全球不同国家、地区、行业获得广泛的合规认证,降低在海外部署的业务风险。“
而应企业对多云和混合云的部署需求,Google Cloud 也在做不断的转型,慢慢的变多采用基于容器化微服务架构。而且在构建多云和混合云平台的时候,不需要过多的担心厂商锁定的问题,Google Cloud 每一个层级从最底层的网络到流服务计算全部是开源的,且今年推出 Anthos 混合云服务平台,能够兼容竞争对手云服务。同时,Google 把更新的技术,比如服务网格、无服务器计算也带到 Google Cloud 平台上。
面对海外服务带来的增长数据处理需求,Google 认为对于数据分析人员只需要运行查询机制,剩下所有事情就交给后台的 Cloud 做。其推出 BigQuery 大数据平台,是企业数据仓库,可进行秒级分析结果,并且整个架构是无服务器架构,不需要担心底层参数调优,资源的分配以及非常多维护工作。
还有上面提到的如何让机器学习技术与业务结合,对于 Google Cloud 来讲,就是把人工智能技术变成人人可用的技术,所有 Google 产品都应用机器学习来提升用户的体验,Google Cloud 整个 AI 平台针对不同的用户也在推出不同的服务,比如底层基础架构计算平台、神经网络架构搜索技术、NLP 技术等。
通过云平台负载更多基础的底层的能力,Google Cloud 让出海企业“拿来即用”,节省开发运营成本,同时保证高性能及安全。
上周 Arch Summit 全球架构师峰会 Google Cloud 技术专场上,Google Cloud 工程师丁成银分享了GCP 全球基础设施与服务特色,如何保证中国企业出海无忧。从基础设施的层面更加细致地分析了 Google Cloud 的优势,以下内容主要来自丁成银的分享。
基础架构层面——网络、计算、存储、安全
“从 2016 年到 2018 年,谷歌投入在基础设施或者说投入在资本支出项目的金额大概有超过470 亿美金。”丁成银提到。
让数字来展示,Google Cloud 的基础架构建设:
Google Cloud 在全球投入服务的区域总共有20 个,另外有5个新的云服务将在明年陆续上线,最快在亚太的首尔区域,以及印度尼西亚的雅加达区域上线。
Google 是全球第一家非电信运营商企业自己独立承担构建海缆任务的公司。目前为止它在全球有投资或者独资拥有的海缆条数14条,这些海缆总共长度是112000公里。
遍布全球134个网络边缘节点,接入全球访问。
网络部分,虚拟 VPC、负载均衡、CDN、专线互联、域名解析这些大多数云都会有,体现 Google 特色的则是:全局 VPC、全球的负载均衡服务、边缘节点、BBR 算法及 QUIC 协议,这些都是谷歌不断追求低延迟和高吞吐所做的创新,这些创新正在通过 Google Cloud 服务内建的能力开放。
全局 VPC 指的是 Google 一个 VPC 可以辐射全球 20 个机房,一个子网可同时覆盖整个区域的多个地区。同时具有一点接入,全球访问的特点,Google Cloud 有 134 个边缘节点,任何一个边缘节点拿一条专线接入 Google 骨干网能够最终靠这一个点访问 Google 全球 20 个机房的网络,更加能节省硬件投资。
在 Google Cloud,所有的用户跟 Google Cloud 流量交互方式就是,用户就近通过离他最近的边缘节点进入谷歌网络,一路通过 Google 的全球网络到达他的目的地。这样做给用户带来的好处是网络质量高,而不是受限于互联网本身的质量。
Google Cloud 的负载均衡服务不仅仅运行在 20 个服务器之中,而是运行在遍布全球 134 个边缘节点。丁成银说 “无论用户是在北美加州,纽约,欧洲,还是新加坡,当他访问我们的全球负载均衡的时候,他都是就近访问离他最近的边缘节点所运行的负载均衡服务,由那个点负载均衡服务把客户请求调度到最合适的后端去。”
另外,Google 的全球负载均衡对外提供服务的时候,每一个用户都能够通过一个 IP 接入到它的全球负载均衡里面去。保证每一个用户每一个负载均衡都能用到 Google 全球 134 个边缘节点、所有的容量。带来天然的好处就是防 DDoS 能力非常强,因为 Google Cloud 本身网络带宽非常大。其次用户来的请求天然分散在全球的边缘节点里面。
Google 的全局负载均衡的内部实现有什么秘密呢?
实际上 Google Cloud 边缘节点可以分成两级,一级是 134 个离用户最近的边缘节点,接入这些边缘节点也连接全球最主要的 RSP,包括中国电信、中国联通等用户网络。还有一级边缘节点里面的负载均衡服务,包含边缘缓存,把需要缓存的内容缓存在离用户最近的地方,提供高质量的 CDN 服务。
在这些边缘节点里面同时运行着 Google CDN 缓存服务以及 Google 的专线接入服务。如果一个企业需要构建混合或者跨国网络,只要选择离他最近的 Google POP 点就能够最终靠 Google 边缘节点连接到 Google 网络里面。一级 POP 点根据全局的状态把用户的请求转发到对应选择最好的一个后端区域,在区域附近运营二级 central 边缘,再通过这个 central 转发到虚拟机或者服务器。这是 Google 全局负载均衡底层的实现过程。
除了网络本身优势,Google 在软件创新方面也有投入。
1、BBR 算法,帮助用户提升网络吞吐,传统的 TCP 的拥塞控制算法,在遇到网络丢包的时候就默认网络拥塞了,BBR 算法改变了这种假设,只对真实拥塞做出反馈,寻找链路最佳吞吐速率。
2、网络传输协议的制定,QUIC 是 Google 制定的一种基于 UDP 的低时延的互联网传输层协议。整个协议栈基于 UDP 实现,让内核只负责 UDP 包分发,剩下跟 TCP 连接控制、拥塞控制、包括请求会话的控制加密、减密。
计算部分,包含 APP Engine、Compute Engine、Kubernetes Engine、Cloud Functions、Cloud Run 几个部分的能力,多方面满足在云上部署业务的需求。
Compute Engine 可基于 Google 基础架构的大规模虚拟机运行大规模工作负载,支持自定义机型,支持用户自定义自己的 CPU 和内存的比例,一般厂商比例是 1:2、1:4、1:8,在 Google 如果需要 1:1、1:5、1:6,都能够在一定程度上帮助客户或者客户可以自助做自定义。
除了自定义,Google Cloud 专门开发了一套机器学习算法探查用户虚拟机的 CPU 和内存的使用量,给予用户建议如:应减少内存或者是增加 CPU,以达到最优效果。
GPU 方面,Google Cloud 支持 K80,P100、P4、V100、NVlink、PClex16、T4 从最老到最新的型号。Google Cloud 计算对于算力的需求远超出用 GPU 达到 Google 所需要规模的程度。所以 Google 也自研了张量处理单元(TPU),这是 Google 自己设计、自己定制、自己开发针对机器学习专用的加速器。
“单个的 GPU 不算什么,我们大家可以把 1024 多个 GPU 组成大吞吐的 GPU 集群帮助用户做计算。别人在 GPU 用 8 块 GPU 卡训练需要一个星期才能完成的事情,在这样一个 GPU 集群上只需要 76 秒就能完成同样的训练。”丁成银说。
GCE 最有特色的地方是实时迁移能力。当虚拟机运行物理机上,如果这台物理机需要给内核打补丁或者做硬件维护,可以在用户不停机、不用关机开机操作,用户业务不受影响情况下可以完成迁移的动作。Google Cloud 在 2015 年慢慢的开始支持实时迁移功能。
丁成银提到:“根据我们当时的统计,实时迁移在整个迁移过程中,时长平均下来在 50 毫秒到 300 毫秒之间,绝大部分用户的停机时长只有 300 毫秒,一般的情况下只有 50 毫秒,50 毫秒对于绝大部分客户来讲是无感知的。”
存储部分,包含 Cloud Storage、Cloud Filestore、Persistent disks、Cloud SQL 等能力。
在这部分,Google Cloud 的特色是什么呢,以 Persistent disk 云盘举例,具有支持一盘多挂,支持跨 Zone 镜像,在线扩容的特点。
云盘正在服务器使用的情况下,不需要关机能够直接进行云盘操作。跨区域镜像类似同城容灾的概念:一台服务器挂的盘,每一个数据可跨 Zone 同步复制到另外一个 Zone,如果这个 Zone 因为某种原因不可用,支持无缝切换另外一个 Zone,达到非常好的同城容灾的效果。
“另外,Cloud Storage 对象存储,除了支持普通的存储,还支持双区域和多区域。相比其他云的对象存储只能局限在一个 Region 里面,谷歌云可以放在多个 Region 里面,达到地理容灾的优势,这是我们的特色。”丁成银表示。
安全是云计算第一要务,没有安全就没有其他的一切。Google Cloud 从硬件最底层到 Boot 启动,网络、存储、运维以及使用各个层面都有健全的安全体系,除了获得各个国家和地区认证以外,Google Cloud 安全最大保障是顶尖的安全专家。
心脏流血(Heartbleed)、幽灵(Spectre)、熔断(Meltdown),三大世界范围的网络安全漏洞,让 IT 行业的开发人员们焦头烂额。
心脏流血(Heartbleed),它可从特定服务器上随机获取 64k 的工作日志,由于一台服务器的密钥也记录在其工作日志中,并且在大量数据中可被轻易辨别,大量敏感数据可能泄露,攻击者还可以破解被加密的以往流量日志。而这一安全漏洞是由 Google 工程师 NeelMehta 发现的。
幽灵(Spectre)、熔断(Meltdown)是著名的 CPU 漏洞,从个人电脑、服务器,到移动端的智能手机,都受到这两组硬件漏洞的影响。它们的发现者是 Google Project Zero。2014 年 7 月,Google 宣布了 Project Zero 计划,它由一组安全研究人员负责,唯一的目标就是追踪和修复漏洞,维护所有互联网用户的安全。
丁成银表明:“顶尖的安全专家为 Google 业务及 Google Cloud 客户保驾护航,Google Cloud 跟 Google 共享同一个云的体系。这个是 Google Cloud 安全的一个最大的保障。”
从基础设施层面上,Google Cloud 有全球网络、海量数据大吞吐的计算能力、数据库存储跨地理容灾能力、多层面的安全体系与安全专家等为企业出海保驾护航。
分享嘉宾
丁成银 ,Google Cloud Platform 工程师,负责大中华区客户的基于 Google Cloud 方案、架构的咨询,致力于 GCP 云服务在国内的应用和推广。在加入 Google 之前,丁成银曾任职于华为、腾讯云、Amazon Web Servies 等公司。
点个在看少个 bug