集群 对于不同的人有不同的含义。在本文的上下文中,集群最好定义为横向扩展(scale-out)—— 横向扩展集群一般包含大量相同类型的组件,比如 Web 场、表示场和高性能计......
大型横向扩展集群的主要麻烦是瓶颈。大多数横向扩展集群管理员使用 TFTP 执行网络引导或安装大量计算机。任何有经验的横向扩展集群管理员都会告诉您,TFTP 不可靠而且不可伸缩。如果没有适当的远程硬件控制,那么只要发生一次大规模的 TFTP 故障,管理员就不得不从椅子里跳起来,直奔数据中心,复位每台计算机(够他忙的)!即使有适当的远程硬件控制,管理员也必须长时间停止玩 WoW,因为必须一次又一次向集群中的节点发送复位命令(这也不轻松)。
只需提前做一点计划管理,就可以避免瓶颈(比如下面的瓶颈)。
瓶颈 1:供应服务
DHCP、TFTP、HTTP、NFS 和 DNS 是集群最常用的服务。它们都会形成瓶颈 —— 在集群扩展时,TFTP 是最糟糕的。幸运的是,很容易通过复制它们来帮助伸缩。
提示:把 DHCP 和 TFTP 隔离在另一个 NIC 中,这会极大地提高可伸缩性。例如,如果与其他供应服务共享 NIC,我们度量出的 TFTP 伸缩比是 40:1;如果不共享或者采用无状态引导,结果是 80:1。
瓶颈 2:网络
网络常常是设计中最容易被忽视的部分。这里说的网络是指用于管理的 GigE 网络,而不是专门用于应用程序通信的高性能网络。尽管在许多情况下只有一个网络必须是共享的(用于数据和管理),但是这可能导致许多伸缩问题。
在设计层次化网络时,一定要注意,不要太保守。如果要求节点与服务节点比例达到 80:1,那么要确保在整个结构中保持或超过此比例。
瓶颈 3:不要贪多嚼不烂
在设计大型横向扩展集群时,我们采取 “集群的集群” 方式。每个子集群(即可伸缩单元,SU)是一个构造块,其本身可以针对所有集群操作(例如,安装、网络引导、BIOS 更新、监视等)扩展。每个 SU 有一个或多个服务节点(数量取决于 SU 的规模),它们提供对 SU 中所有节点进行控制、监视和供应所需的服务。为了进一步帮助可伸缩管理,每个 SU 有自己的广播域(路由 SU-to-SU 和 SU-to-World 通信 —— 检查瓶颈)。
中心管理节点和服务节点有一个私有的物理或虚拟网络,因此从服务节点发送出的信息和发送到服务节点的数据不会干扰其他集群的通信流。我们把此网络、管理节点和服务节点称为层次化管理云 (hierarchal management cloud, HMC)。它的设置和操作只在管理员的域中进行。
4/14 首页 上一页 2 3 4 5 6 7 下一页 尾页 |