作为数据中心行业的老兵,在16年的从业时间里,阿塔云副总裁卞亮,从小机房到今天的大型数据中心,基本都经历过了。他所看到的,他所经历的,他能感受到的,有很多很有意思的事。各种复杂的需求、各种各样的气候条件、千奇百怪的方案、无法预知的状况,千锤百炼出了今天的技术领军人。
在卞亮看来,不论是数据中心行业从业者的成长过程,还是整个行业的发展演变,都是不断实践、总结、深化、提高的过程,周而复始,螺旋式上升。
最早卞亮在世纪互联,那时候做的机房都是老旧厂房改造的,房间非常小,用很传统的空调。PUE的概念当时还没有,“可以认为是3以上吧”,卞亮半开玩笑地说。
那时候大家用量小,用能也小,没有考虑节能。随着互联网蓬勃发展,客户的算力和存储需求越来越大,尤其是后来“BAT”大厂的用量不断增长,对怎么样高效用能、高可靠用电,都提出了需求。节能方面也有了相应的国标出台。
上海阿塔云科技有限公司副总裁卞亮
最早的机房里,北京皂君庙机房、兆维机房、联通的土城机房基本都是开放民办式的送风。兆维机房用的不是机柜,是托架,里面的气流组织会是什么样的可想而知。里面精密空调有管道上送风的,也有侧送风的。两侧的精密空调,一侧是吹,一侧是吸,导致机房一半很冷一半又很热。机房里有两家用户的服务器,两家用户为此常有矛盾,为了“你抢了我的冷了”。归根到底都是能源的浪费,气流组织根本没有规划。
后来逐步改进和升级,先让服务器头对头、尾对尾摆放,把供冷和供热相对集中一下;又做了盲板加冷区门;架空地板上送风模式;等等。再后来出现了液冷。再后来阿里数据中心去了张北,百度数据中心去了呼和浩特,都是为了利用自然冷源。
西北地区缺水,风沙比较大,要用内循环加风冷间接蒸发或者热管来解决;华东、南方水比较多,就用风冷间接加喷雾、喷水;深圳一带要用热管跟风冷间接蒸发,水冷作为辅助。人口越密集的地区,算力和存储的需求量越大,数据中心的规模也越大,设计、建设和运维都越复杂。
从用户的角度,首先要稳定,在可靠的基础上能够更大利用率地使用机房。设计、产品技术提供方各家有各家的长处,吸取各家之长,从使用的角度就会有新的设计出来,达到前所未有的效果,也是件很有意思的事,这也是数据中心设计、建设的过程里,魅力之所在。
在百度的时候,有很长一段时间卞亮主要负责南方区百度租用机房选址评估、建设项目技术架构审核、机房建设项目管理工作。
那段时间,卞亮跑过很多城市,以苏州为起点,昆山、杭州、南京、上海、宁波、广州,一路南下,做的都是大节点城市的数据中心方案。全国各地气候和温湿状况不同,遇到各种各样的房屋结构,各个运营商设计要求不同,各种不同的设计院,还有各种不同需求的合作方,导致数据中心的方案千奇百怪。
有了这些实践以后,卞亮总结出,数据中心最终要实现的目标,首先设计上要保障没有单点故障点,在可靠性的基础之上考虑节能。2015年在广州,他把PUE做到了 1.3~1.4,当时业内对PUE的要求普遍是1.6。
从业16年,卞亮管理过的数据中心,T3以上的机房没有出过大的事故。非常规状况出现过,也都有惊无险,化险为夷了。比如大面积停电、雷击,都迅速做了恢复,没出现大的纰漏。“遇到非常规故障,一是考验运维者的经验和心里素质,另外也是考验系统的容错能力。一个数据中心对非常规故障的反应能力是从设计之初就开始的,而不是在故障出现的那一刻才开始的。”卞亮说。
(左右滑动查看更多数据中心运维的实践与前瞻)
关于数据中心的运维,卞亮牵头整理出过一份详尽的运维大纲,是业内数据中心运维由实践摸索出来的重要理论基础。在卞亮看来不论数据中心的设计、建设、运维、节能都是不断实践、总结、深化、提高,周而复始、循环往复的,在这个过程里整个行业不断前行。
数据中心是一个相对窄众的圈子。今天的阿塔云CEO徐彪和卞亮很早的时候就互相听到过对方的名字,了解对方的经历和声望。偶然的一次遇见,是在一次喝茶的时候,两人聊得很投机。他们对数据中心理念的理解惊人的一致,在技术上都有不折不扣较真儿的劲头,从此埋下了卞亮与阿塔云的渊源。
2020年卞亮应徐彪邀请加入了阿塔云。除了对数据中心理念的一致,卞亮觉得阿塔云的规模也更适合自己。对卞亮来说,建设和管理数据中心,要有相应的规模和体量,才能够发挥自己的特长。阿塔云的数据中心项目规模都很大,5000、10000个机柜的规模起步。“这样才有机会跟行业同步,否则跟前端技术发展接触就会越来越少,知识量和信息量达不到,就不会再有新点子产出。”
在阿塔云,卞亮负责设计、研发、运维。他是个踏实做事的人,就是要做最好的数据中心,给用户最好的运维服务。数据中心从设计之初就体现绿色、创新的理念。让能源效率最大化,符合国际节能建筑LEED金牌认证的要求。这个标准不仅达到国内数据中心A级标准,同时满足国际标准。
管理体系要标准化。阿塔云数据中心在运营体系、质控体系、安全体系等方面采用标准化管理。多地数据中心按不同规模进行分类,优化资源和管理配置,使全国数据中心形成一张相关互联的管理网络。
卞亮对服务专业化的要求很高。阿塔云数据中心提供从机柜托管、专属单元托管、定制模块托管到整体机房托管的不同层级服务,同时可满足客户快速交付、深度定制、合规审计的多方面需求。
运维的智能化也能减少人为因素导致的纰漏。关于未来无人值守机房的设想,“最关键的在于系统是容错级别的,其次,它要有高度的智能监控系统来实时把信息传给远端值守中心或者相应的关键人。虽然数据中心里面没有人,但是,我们有待机的维修团队7×24小时待命,一旦有智能监控系统需要人员做相应的处理,会把信息发到相关人员的终端上,及时去处理和维护。智能化手段是无缝的监控,没有任何断点去监控机房运行的状态。阿塔云目前也在开发相应的软件。”卞亮说,“阿塔云目前的人工智能团队,聘请的顾问有人工智能、算力算法方面的顶级院士,正在进行的研发项目与麻省理工学院有密切的合作。”
今天,不论国家还是企业,综合实力的较量归根到底是人才的竞争。阿塔云团队核心人员均为国内最早期数据中心行业领军人物,在数据中心、云计算和人工智能行业积累了大量的最佳实践,拥有丰富的行业运营管理经验,具备全产业链整合及经营管理能力。他们主持、参与的很多项目成为了行业标杆项目。
新基建给数据中心发展带来了新的机遇。 “这给我们更大的发展空间,让大家有机会参与其中,” 卞亮说, “让我们能够按照自己的想法来建造国内或者国际上最先进的数据中心。”2020年卞亮以其丰富的从业经验、主持过的标杆项目、为整个行业发展所做的贡献,获得了“云计算中心科技奖人才奖“。