❶ 云计算基础架构
云计算到目前为止架构主要可分为四层,
首先:显示层,多数据中心云计算架构这层主要是用于以友好的方式展现用户所需的内容,并会利用到下面中间件层提供的多种服务,主要有五种技术:
HTML:标准的Web页面技术,现在主要以HTML4为主,但是将要推出的HTML5会在很多方面推动Web页面的发展,比如视频[1]和本地存储等方面。
JavaScript:一种用于Web页面的动态语言,通过JavaScript,能够极大地丰富Web页面的功能。
CSS:主要用于控制Web页面的外观,而且能使页面的内容与其表现形式之间进行优雅地分离。
Flash[2]:业界最常用的RIA(Rich Internet Applications)技术,能够在现阶段提供HTML等技术所无法提供的基于Web的富应用,而且在用户体验[3]方面,非常不错。
Silverlight:来自业界巨擎微软[4]的RIA技术,虽然其现在市场占有率稍逊于Flash,但由于其可以使用C#[5]来进行编程,所以对开发者非常友好。
其次:中间层这层是承上启下的,它在下面的基础设施层所提供资源的基础上提供了多种服务,比如缓存服务和REST服务等,而且这些服务即可用于支撑显示层,也可以直接让户调用,并主要有五种技术;
REST:通过REST技术,能够非常方便和优雅地将中间件层所支撑的部分服务提供给调用者。
多租户:就是能让一个单独的应用实例可以为多个组织服务,而且保持良好的隔离性和安全性,并且通过这种技术,能有效地降低应用的购置和维护成本。
并行处理:为了处理海量的数据,需要利用庞大的X86集群进行规模巨大的并行处理,Google的MapRece是这方面的代表之作。
应用服务器:在原有的应用服务器的基础上为云计算做了一定程度的优化,比如用于Google App Engine的Jetty应用服务器。
分布式缓存:通过分布式缓存技术,不仅能有效地降低对后台服务器的压力,而且还能加快相应的反应速度,最着名的分布式缓存例子莫过于Memcached。
再有:基础设施层这层作用是为给上面的中间件层或者用户准备其所需的计算和存储等资源,主要有四种技术:
虚拟化:也可以理解它为基础设施层的“多租户”,因为通过虚拟化技术,能够在一个物理服务器上生成多个虚拟 机,并且能在这些虚拟机之间能实现全面的隔离,这样不仅能减低服务器的购置成本,而且还能同时降低服务器的运维成本,成熟的X86虚拟化技术有 VMware的ESX和开源的Xen。
分布式存储:为了承载海量的数据,同时也要保证这些数据的可管理性,所以需要一整套分布式的存储系统。
关系型数据库:基本是在原有的关系型数据库的基础上做了扩展和管理等方面的优化,使其在云中更适应。
NoSQL:为了满足一些关系数据库所无法满足的目标,比如支撑海量的数据等,一些公司特地设计一批不是基于关系模型的数据库。
最后:管理层这层是为横向的三层服务的,并给这三层提供多种管理和维护等方面的技术,主要有下面这六个方面:
帐号管理:通过良好的帐号管理技术,能够在安全的条件下方便用户地登录,并方便管理员对帐号的管理。
SLA监控:对各个层次运行的虚拟机,服务和应用等进行性能方面的监控,以使它们都能在满足预先设定的SLA(Service Level Agreement)的情况下运行。
计费管理:也就是对每个用户所消耗的资源等进行统计,来准确地向用户索取费用。
安全管理:对数据,应用和帐号等IT[6]资源采取全面地保护,使其免受犯罪分子和恶意程序[7]的侵害。
负载均衡:通过将流量分发给一个应用或者服务的多个实例来应对突发情况。
运维管理:主要是使运维操作尽可能地专业和自动化,从而降低云计算中心的运维成本。
云计算架构其中有三层是横向的,分别是显示层、中间件层和基础设施层,通过这三层技术能够提供非常丰富的云计算能力和友好的用户界面,云计算架构还有一层是纵向的,称为管理层,是为了更好地管理和维护横向的三层而存在的。
❷ 什么是云计算
云计算,大数据,人工智能,区块链热门词汇经常被媒体提起,是否大家都理解他们之间的联系和作用,下面我们用通俗点的说法介绍云计算。
云计算当初的设计目的是为了通过虚拟化技术实现IT资源的管理,管理的主要是计算资源、网络资源、存储资源三个方面。
你去选笔记本电脑或台式电脑,肯定都会看最主要的配置:CPU,内存,硬盘,网卡。计算资源就是CPU和内存,有线或无线网卡和你家里上网的路由器就组成网络资源,硬盘就是存储资源。
各大互联网公司的数据中心管的最主要的东西就上面4个,选一块偏远的地造一个很大很大的机房,里面放置成千上万台服务器提供7*24小时不间断服务。数据中心的管理就像你选电脑配置,管好上面的资源。
很多小公司在创业初期,没有服务器,没有机房,就找到这些有大型数据中心的互联网公司想租用他们机房的设备。在物理设备时期,这个管数据中心的公司就买一台物理设备安装到机房通过网络分配给这些小公司收取费用。
这种模式在规模小的时候看不出问题,但很多小公司突发的需求和时效,这个数据中心的互联网公司就满足不了了。还有小公司可能只要一个小规格的服务器,但数据中心只有大型规格的服务器分配,小公司就不干了,这是让我多花冤枉钱啊。
物理设备的极度不灵活造成了各种资源的浪费和制约数据中心的规模化发展。
有人就想办法了。第一个办法就是虚拟化。用户不是只要一个很小的服务器么?
数据中心的物理设备都很强大,我可以从物理的 CPU、内存、硬盘中虚拟出一小块来给客户,同时也可以虚拟出一小块来给其他客户。每个客户只能看到自己的那一小块,但其实每个客户用的是整个大的设备上的一小块。
虚拟化的技术使得不同客户的服务器看起来是隔离的。也就是我看着好像这块盘就是我的,你看着这块盘就是你的,但实际祥竖森情况可能我的这个100G 和你的这个 100G 是落在同样一个很大很大的存储上。而且如果事先物理设备都准备好,虚拟化软件虚拟出一个电脑是非常快的,基本上几分钟就能解决。所以在任何一个云上要谨亩创建一台服务器,一点几分钟就出来了,就是这个道理。
这样空间灵活性和时间灵活性就基本解决了。
在虚拟化初期阶段,最牛的公司是 VMware。它是实现虚拟化技术比较早的一家公司,可以实现计算、网络、存储的虚拟化。
这家公司很牛,性能做得非常好,虚拟化软件卖得也非常好,赚了好多的钱,后来让 EMC(世界五百强,存储厂商第一品牌)给收购了。但这个世界上还是有很多有情怀的人的,尤其是程序员里面。有情怀的人喜欢做什么事情?开源。
这个世界上很多软件都是有闭源就有开源,源就是源代码。也就是说,某个软件做的好,所有人都爱用,但这个软件的代码被我封闭起来,只有我公司知道,其他人不知道。
如果其他人想用这个软件,就要向我付钱,这就叫闭源。但世界上总有一些极客和大牛看不惯这些人垄断的情况。大牛们觉得,这个技术你会我也会;你能开发出来,我也能。
我开发出来就是不收钱,把代码拿出来分享给大家,全世界谁用都可以,所有的人都可以享受到好处,这个叫做开源。
我们每天接触最多的开源就是WWW,万维网,是由蒂姆·伯纳斯·李免费开放代码。2017 年,他因“发明万维网、第一个浏览器和使万维网得以扩展的基本协议和算法”而获得 2016 年度的计算机里的诺贝尔奖-图灵奖。
我们现在在网上的所有行为都应该感谢他的功劳,如果他将这个技术拿来收钱,应该和比尔盖茨差不多有钱。
开源和闭源的例子有很多:例如在闭源的世界里有 Windows,大家用 Windows 都得给微软付钱;开源的世界里面就出现了 Linux。比尔盖茨靠 Windows、Office 这些闭源的软件赚了很多钱,成为世界纤孝首富,就有大牛开发了另外一种开源操作系统 Linux。可能不懂IT的人没有听说过 Linux,很多后台的服务器上跑的程序都是 Linux 上的,比如每年的双十一,无论是淘宝、天猫、京东、考拉……支撑双十一抢购的系统都是跑在 Linux 上的。
再如有 Apple 就有安卓。Apple 市值很高,但是苹果系统的代码我们是看不到的,于是谷歌里就有大牛写了安卓手机操作系统把开源代码免费开放。所以大家可以看到几乎所有的其他手机厂商,里面都装安卓系统。原因就是苹果系统不开源,而安卓系统大家都可以用。
在虚拟化世界也一样,有了 VMware,这个软件非常贵。那就有大牛写了两个开源的虚拟化软件,一个叫做 Xen,一个叫做 KVM。
要说虚拟化软件解决了灵活性问题,其实并不全对。因为虚拟化软件一般创建一台虚拟的电脑,是需要人工指定这台虚拟电脑放在哪台物理机上的。这一过程可能还需要比较复杂的人工配置,做这个工作的人专业化程度很高,所以仅仅凭虚拟化软件所能管理的物理机的集群规模都不是特别大,一般在十几台、几十台、最多百台这么一个规模。
这一方面会影响时间灵活性:虽然虚拟出一台电脑的时间很短,但是随着集群规模的扩大,人工配置的过程越来越复杂,越来越耗时。
另一方面也影响空间灵活性:当用户数量多时,这点集群规模,还远达不到想要多少要多少的程度,很可能这点资源很快就用完了,还得去采购。
所以随着集群的规模越来越大,基本都是千台起步,动辄上万台、甚至几十上百万台。如果去查一下 BAT,包括网易、谷歌、亚马逊,服务器数目都大的吓人。
这么多机器要靠人去选一个位置放这台虚拟化的电脑并做相应的配置,几乎是不可能的事情,还是需要机器去做这个事情。
人们就发明了各种各样的算法来做这个事情,算法的名字叫做调度(Scheler)。
通俗一点说,就是有一个调度中心,几千台机器都在一个池子里面,无论用户需要多少 CPU、内存、硬盘的虚拟电脑,调度中心会自动在大池子里面找一个能够满足用户需求的地方,把虚拟电脑启动起来做好配置,用户就直接能用了。
这个阶段我们称为池化或者云化,到了这个阶段,才可以称为云计算,在这之前都只能叫虚拟化,别TM扯上云化的关系。
云计算大致分两种:一个是私有云,一个是公有云,还有人把私有云和公有云连接起来称为混合云。
私有云:把虚拟化和云化的这套软件部署在别人的数据中心里面。使用私有云的用户往往很有钱,自己买地建机房、自己买服务器,然后让云厂商部署在自己这里。
VMware 后来除了虚拟化,也推出了云计算的产品,并且在私有云市场大赚特赚。
公有云:把虚拟化和云化软件部署在云厂商自己数据中心里面的,用户不需要很大的投入,只要注册一个账号,就能在一个网页上点一下创建一台虚拟电脑。
例如 AWS 即亚马逊的公有云;国内的阿里云、腾讯云、网易云等。
亚马逊为什么要做公有云呢?我们知道亚马逊原来是国外比较大的一个电商,它做电商时也肯定会遇到类似双十一的场景:在某一个时刻大家都冲上来买东西,访问量暴增。
当大家都冲上买东西时,就特别需要云的时间灵活性和空间灵活性。因为它不能时刻准备好所有的资源,那样太浪费了。但也不能什么都不准备,看着双十一这么多用户想买东西登不上去。
所以需要双十一时,就创建一大批虚拟电脑来支撑电商应用,过了双十一再把这些资源都释放掉去干别的。因此亚马逊是需要一个云平台的,然而商用的虚拟化软件实在是太贵了,亚马逊总不能把自己在电商赚的钱全部给了虚拟化厂商。
于是亚马逊基于开源的虚拟化技术,开发了一套自适应的云化软件。没想到亚马逊后来电商越做越牛,云平台也越做越牛。
由于它的云平台需要支撑自己的电商应用;而传统的云计算厂商多为 IT 厂商出身,几乎没有自己的应用,所以亚马逊的云平台对应用更加友好,迅速发展成为云计算的第一品牌,赚了很多钱。
公有云的第一名亚马逊过得很爽,排第二的 Rackspace 过得就很凄惨了。互联网行业的天然的壁垒铸就其残酷性,胜者为王的模式,压根没人听过老二是谁。
老二就不忿了,我干不过老大怎么办呢?开源啊。如上所述,亚马逊虽然使用了开源的虚拟化技术,但云化的代码是闭源的。很多想做又做不了云化平台的公司,只能眼巴巴的看着亚马逊挣大钱。Rackspace 把源代码一公开,整个行业就可以一起把这个平台越做越好,兄弟们大家一起上,和老大拼了。
于是 Rackspace 和美国航空航天局合作创办了开源软件 OpenStack,如上图所示 OpenStack 的架构图,图中三个关键词:Compute 计算、Networking 网络、Storage 存储,就是一个计算、网络、存储的云化管理平台。
当然第二名的技术也是非常棒棒的,有了 OpenStack 之后,果真像 Rackspace 想的一样,所有想做云的大企业都疯了,个个豪强都疯了似的蜂拥而入,你能想象到的所有如雷贯耳的大型 IT 企业:IBM、惠普、戴尔、华为、联想等。
原来云平台大家都想做,看着亚马逊和 VMware 赚了这么多钱,眼巴巴看着没办法,想自己做一个好像难度还挺大。现在好了,有了这样一个开源的云平台 OpenStack,所有的 IT 厂商都加入到这个社区中来,对这个云平台进行贡献,包装成自己的产品,连同自己的硬件设备一起卖。
有的做了私有云,有的做了公有云,OpenStack 已经成为开源云平台的事实标准。
到了这个阶段,云计算基本上实现了时间灵活性和空间灵活性;实现了计算、网络、存储资源的弹性。
计算、网络、存储我们常称为基础设施 Infranstracture, 因而这个阶段的弹性称为资源层面的弹性。
计算资源已经变成了如日常的水电一般,人们可随意调用。