导读:1月15日,首届OCP中国技术研讨会在深圳召开,本次会议是由腾讯云和OCP国际社区合办。在大会现场,腾讯专家工程师蔡克文在OCP技术研讨会上发表名为《腾讯云T-Flex 2.0服务器框架》的演讲,以下为演讲全文。蔡克文,负责腾讯服务器的架构设计和规划,结合业务需求与部件/系统/数据中心等方面的技术发展,进行趋势研究和产品规划。
服务器的研发周期很长,普通机架服务器的系统开发往往需要1年以上的时间,才可能达到量产交付的程度. 后期不可避免会导入新兴部件, 乃至主要功能模块的迭代, 例如: 主板升级, 高密度微服务器模组, 全高全长板卡,高密度SSD模组等. 基于空间和能耗的变化, 都可能会导致服务器主体设计的变更和重构, 影响服务器的引入时效. 如何对空间进行有效规划, 支持未来模块化迭代和灵活组合, 正是T-Flex 2.0服务器框架要去着眼解决的。
我们先回顾一下T-Flex1.0服务器系统,沿用了腾讯运营规格,2U19英寸机架式服务器,80cm深度能满足全量腾讯机房的部署要求。6个6056规格的风扇,有效支撑在35摄氏度和3000米海拔工况下,多个配置的5+1散热冗余。结构上能支持32个RSSD或者24个U.2 NVMe SSD, 同时还能支持4张全高全长的双宽插卡和2张Low Profile插卡。
T-Flex1.0服务器系统的设计以PCIe交换为核心,对存量和增量服务器进行弹性配置扩容或升级。2块Mcirosemi 8536/8546 PCIe芯片提供了192 PCIe Gen3通道能力,灵活对SSD/GPU/网卡/微服务器等模块进行配置管理和组合。通过与其他通用服务器的PCIe互连,具备硬件资源的解耦和重构能力。
T-Flex1.0着重于几台服务器之间的能力组合,而T-Flex2.0聚焦于自身功能的聚合和迭代。T-Flex2.0在机箱内部划分为3个功能区域:A/B/C。每个区域可以按照自身的可用空间,放置不同功能模块来完成A+B+C,实现服务器的主体功能。举个例子,B区可以容纳一块主流2路主板,或者一块定制4路主板,A区可以放置一个RSSD模组,C区可以扩展出4张全高全长的双宽插卡位和2张Low Profile插卡位,一台强计算和高性能存储兼顾的硬件系统就这样组合到位了。
在2U空间,提供24块3.5“硬盘的系统形态,是T-Flex2.0框架提供的第一个具体实现。A/B区域各支持12块3.5“可热维护的硬盘,C区可以分别提供2路/1路主板也有SAS/SATA扩展板的选项,支持JBOD(Just Bunch Of Disk)功能.
下图是2U24HDD的内部结构布局,充分体现了A/B/C的3区组合特性。1路IntelXeon-D的主板算力,满足冷存业务需求。2路IntelCLX主板,结合4块NVMe SSD,能满足数据计算和混合存储业务需求。这些配置都符合云计算业务中几个典型IaaS场景的,也打破了2U12HDD这一个自2007年以来的主流形态,可以有效降低TCO。
相对于传统2路主板接近50cm的深度,2U24HDD的2路Intel CLX主板深度控制在29.5cm, 这样才能放入T-Flex2.0系统的C区空间。165W TDP的处理器规格,意味着20个硬核的高主频算力。12根内存通道可以满足384GB (32GB x 12)的容量配置,覆盖了大部分业务需求。
基于T-Flex2.0服务器框架,功能模块可以实现高复用和灵活组合。小颗粒的模块更新和迭代,也有利于系统的整合和及时交付。T-Flex 2.0不止于现有89cm系统深度的形态,也有短机箱形态,通过复用模组和设计,来满足未来边缘计算场景的需求。硬件系统的DevOps,正是T-Flex2.0的设计主线。