2016云栖大会上马云为啥只字未提阿里云?三句话为
时间 :
2016-10-18,02:44:40
访问次数 :465
马云在2016年10月杭州云栖大会的主题演讲中只字未提“阿里云”,但这并不说明阿里云不重要,而是在某种意义上说明在马云的心里,阿里云“从0到1”的阶段已经完成了。
在10月13日杭州云栖大会开幕当天,马云发表了就上一财年致股东信,信中提及阿里云承载了中国35%的网站并为之提供云计算和大数据的服务,而截至2016年3月31日的阿里财报显示阿里云拥有超过230万用户,其中云计算付费用户达50万。
从2009年2月写下阿里云的第一段代码开始,阿里云上上下下的负责人们就一直在试图解释阿里云到底是什么。终于在7年后的云栖大会上,现任阿里云首席架构师唐洪与阿里云资深技术总监李津两个人的演讲PPT里,用密密麻麻的图表清晰地解析了阿里云的逻辑。
然而,关于阿里云有最根本的三句话,却来自阿里云的创始人王坚于今年10月出版的个人著作《在线》一书。
1
三句话道破阿里云的天机
王坚于2008年9月加入阿里任阿里巴巴集团首席架构师,2009年9月创建阿里云计算公司并任总裁,领导团队自主研发了大规模分布式计算系统“飞天”(也是阿里云的核心),建立了互联网规模的通用计算平台,完成了云计算公共服务的商业化。2012年,王坚任阿里巴巴集团首席技术官,现为阿里巴巴集团技术委员会主席。
阿里巴巴集团技术委员会主席王坚
《在线》一书是王坚对于过去8年自主技术创新道路的反思与总结。从书中摘出了三句话,从根本上说清了阿里云的本质以及过去与未来:
第一句话:从某种意义上来说,“飞天”就是一个操作系统,操作系统最重要的功能就是资源管理。“飞天”的底层是数据中心,有成千上万台通用服务器,每台服务器都有CPU(中央处理器)、内存、存储,相互之间用以太网进行连接,这套系统简单说就是把所有资源抽象成一台计算机,并通过互联网提供计算服务。
第二句话:这样的底层架构与亚马逊差别很大。亚马逊对外提供的每一个服务都会直接对应一个或多个物理集群,比如A集群对于S3(亚马逊云存储服务),B集群对于EC2(亚马逊云弹性计算服务),它的功能和系统计算是垂直的。而阿里云所有的服务对应的都是同一个系统内核、同一套分布式文件系统。也就是说,无论对象存储、弹性计算、邮件、搜索等,都共用同一个底层。除阿里云外,世界上只有谷歌能够做到这一点。
第三句话:“飞天”系统是一个规模很大的有机整体。规模很大带来的最大挑战在于这台“超级计算机”每天都可能发生故障——硬盘会坏、风扇会坏、内存会坏,“可能自己买一台笔记本电脑用了5年之后依旧完好无损,但是在成千上万台服务器的‘飞天’集群里面,硬件故障时时刻刻都会发生。”
把这三段话再精炼总结一下:如果把全世界的计算资源看成是一台庞大的虚拟计算机的话,阿里云的核心“飞天”就是这台虚拟计算机的操作系统,而“内存”、“硬盘”、“显卡”等都是由巨大的通用服务器集群组成。阿里云除了核心“飞天”操作系统外,还向上提供云服务版本的中间件、安全、文件系统、数据库以及面向应用的通用API等高级服务。用户使用阿里云的方法却很简单,只需要通用浏览器或通用API简单调用即可。除了谷歌外,微软云也是同样的思路。
阿里云就是这样一个永远在线的软硬一体的虚拟计算机,这个虚拟计算机庞大到了每个人都生活在其中却感觉不到它的存在——当然,这是阿里云的终极梦想,也是亚马逊云、谷歌云、微软云等三大巨头的终极梦想。现在,阿里云正与这三朵国际云展开终极竞争。
2
百万级服务器、单集群1万台的有机体
关于阿里云的三句话中,最后一句说的是阿里云“飞天”系统已经是一个规模很大的有机整体。这个有机体目前到底有多大?综合本次2016杭州云栖大会阿里云提供的各种资料,可以初步描绘出这个有机体的规模:
百万台级服务器的连接能力,单集群可达1万台的规模,10万个进程达毫秒级响应;十亿级文件数,EB级别存储空间;全球15个数据中心区域;“飞天”全球用户数达到230万,遍布全球200多个国家和地区;提供面向22个行业的108个解决方案。
简单的对比,亚马逊云与微软云目前都是百万台服务器级别的规模,亚马逊云在全球有17个数据中心区域、35个可用区域(AZ),微软云有34个数据中心区域,而谷歌虽然自身达千万台服务器级别但只有一小部分对外提供公有云服务。因此,按阿里云资深技术总监李津在本届杭州云栖大会上的说法,阿里云与亚马逊云已经没有多大的差距。
飞天系统与PC系统的逻辑对比
所以,在过去的7年时间里,阿里云一直在发布这个庞大体系的不同组件,并且在把不同的组件连接起来形成一个有机体,当这个有机体大到一定程度的时候,它其实在某种程度上就具有了“生命”。因为传统操作系统在升级硬件的时候需要重启系统,而阿里云在升级飞天的时候却不能重启。这个很好理解,阿里云已经与社会经济息息相连,必须7*24小时不间断在线。
这样的一个有“生命”的有机是怎么自我调节、自我平衡、部分组织自我重生的呢?唐洪介绍了阿里云的生命机理,这就是阿里云的自动化运维系统“天基”。在“天基”看来,系统里每一台机器都无时无刻地处在部署、升级、迁移以及各个状态的转换中,“天基”在整个系统运行中精准地控制每个进程、每个组件的状态,从而控制每个系统的状态。
“天基”采用了一个面向恢复的计算模型。每台由“天基”管理的机器上会定期向“天基”发送自己的状态,而“天基”还维护一个系统预期的状态,“天基”会定期地比较预期状态和当前状态,根据其差别来制定出详细的执行计划并下发到“天基”的执行AGENT机器上,通过这样的过程迭代使得整个系统的状态逐步逼近到预期状态。
而在离线应用与在线应用的系统资源混合管理方面,阿里云会将离线应用和在线应用放在同一个集群上,当在线应用比较空闲时就将资源分配调度离线应用,当在线应用的负载比较高时就将资源从离线应用“抢占”过来。这样既可以保证整个系统资源的利用率,也可以确保在线服务的质量。通过这两个策略,可以将集群中日常资源的使用率从5%提升至54%、将集群峰值的利用率从22%提升至64%。
以上只是从大方面来看阿里云的“生命机制”,而作为一朵从无到有、从小到大的新生云,为了保证用户业务的不间断以及阿里云的组织更新,阿里云甚至创造了全球首例整体机房带业务热搬迁,也就是整个机房带着用户不停顿的业务搬迁到新址,形象的说法就是开着汽车换轮子、开着飞机换引擎。
然而,一旦阿里云的所有必要组件全部都对外发布出来而且已经彼此互连成合体的话,这个有机整体就可以脱离人工的管理,而由机器自治。李津介绍说,目前已经把深度学习等人工智能算法用于阿里云基础设施的自我管理,由机器自己探测并自动修复故障。
3
与社会化应用协同进化的逻辑
回观过去7年阿里云的成长,还有一个重要的逻辑,就是不断用真实世界的应用来刺激阿里云的生长。
阿里云的早期阶段,由于大量用户把自己的应用架设到阿里云上,但早期的阿里云因为经常宕机而导致一片骂声,可以说阿里云就是被“炮轰”长大的,甚至有一个博客网站专门记录阿里云的各种问题。《在线》这本书里也收录了不少“炮轰”阿里云的报道,包括阿里集团内部也一度因为是否要把核心应用搬到阿里云上而爆发激烈争吵。
当然,今天的阿里云依然会出现问题,但出现问题的几率已经大幅降低。而阿里的核心应用,甚至双11这样的高难度挑战,也都逐渐迁移到了阿里云上。正是因为有了现实应用的试验与实验,以及真实用户和真实场景的不断反馈,才能让阿里云在中国这样一个缺乏操作系统、数据库和中间件等高级计算技术人才的地方,从无到小、从小到大。
所以,一旦当阿里云达到一定规模,产生了巨大的规模经济效益后,阿里云也不断通过降低和开源的方式回馈社会。本届杭州云栖大会上,阿里云宣布中国区云产品全线下调,包括云服务器ECS、云数据库RDS、云存储OSS及云安全产品等购买时间越长折扣越高,两年七折、三年五折。阿里云表示,此次降价空间来自于规模效应和今年飞天操作系统的大规模技术升级。阿里巴巴集团2016财报显示,过去一年里阿里云曾17次下调价格。
在开源方面,本次杭州云栖大会上AliSQL正式开放了源代码的下载。AliSQL是阿里巴巴基于开源数据库MySQL官方版本的一个分支,应用于阿里巴巴集团业务以及阿里云数据库服务,目前由阿里云数据库团队维护。阿里云在AliSQL上进行了300多个改进,比如针对电商秒杀、物联网大数据压缩、金融数据安全等场景提供个性化解决方案。而阿里巴巴是国内开源界的最大贡献者之一,已经对开源社区贡献了115项开源技术。
王坚介绍杭州城市大脑项目
随着阿里云在技术上的成熟,现有的阿里内部应用以及社会上的应用已经不能满足进一步“刺激”阿里云的未来成长的作用。因此,阿里云开始选用社会化的极限挑战,杭州“城市大脑”项目就是其中之一。“城市大脑”主要是把人工智能用于城市治理,成为整个城市的人工智能中枢,让城市能够自我调节、与人类更好的互动,交通道路优化与管理是第一个挑战的课题。
“城市大脑”由五大系统组成——超大规模计算平台、数据采集系统、数据交换中心、开放算法平台、数据应用平台。城市大脑计算平台采用飞天操作系统,杭州“城市大脑”涉及的数据量巨大,仅视频摄像头就有5万多路。阿里云的人工智能引擎ET还为“城市大脑”其它四大系统提供人工智能内核。
2016年3月开始,杭州交警、城管、建委等11个政府部门和西湖区,以及阿里巴巴、华三通信、富士康等13家企业的上百名人员,聚集在云栖小镇进行研发。9月,在杭州萧山区部分路段的初步试验中,城市大脑通过智能调节红绿灯,车辆通行速度最高提升了11%。
除了用人工智能优化和管理城市外,阿里云还在着力解决全社会物流挑战。菜鸟网络CTO王文彬指出,未来物流行业的竞争力已经走出单纯依靠规模和价格的竞争,技术竞争将成为关键,物流云应该成为行业的基础设施。
根据预测,未来的几年内中国日均包裹量很快突破1个亿,无法再依靠传统的人力劳动模式去送递包括,必须使用物流云来保证物流网络高效运转。2015年底,菜鸟网络已经与阿里云合作推出了中国首个物流云平台菜鸟物流云。2016年10月14日,双方再度联合宣布推出物流加速上云行动“鲲鹏计划”,加速物流云的应用。
正是这些终极社会挑战,“刺激”着阿里云更好的内向与外向生长。对内,阿里云与英特尔合作了深度定制CPU的云服务器,与AMD合作了GPU集群公共云,通过对芯片底层的深度优化来提升阿里云的技术实力。对外,阿里云也加强了与云生态合作的广度,通过提供一站式开发平台、通用API、数据服务市场等提升云上开发者、独立软件开发商的生意机会。
马云一首《海阔天空》唱出了阿里云的未来
目前阿里云上已经出现了单个ISV的年营收过千万人民币水平,李津则希望能在不远的将来出现过亿元营收水平的软件企业。而现在正是企业级软件与服务创业的好机会,由于阿里云的成熟和230万使用者,再加上淘宝与天猫上数以亿计的活跃商户,任何SaaS软件都有机会触达这些潜在小企业用户,因此在未来很有可能出现中国自己的企业级软件巨头。
阿里云总裁胡晓明在2016杭州云栖大会上的演讲主题是:“计算,探索未知的价值。”当云计算成为了一个有机整体的时候,它就脱离了人的想象和控制而自由发展,虽然前面的挑战未知,却也海阔天空。马云在2016杭州云栖大会音乐节上,唱的正是这首《海阔天空》。