Zookeeper - 概述
ZooKeeper 是一种分布式协调服务,用于管理大量主机。在分布式环境中协调和管理服务是一个复杂的过程。ZooKeeper 以其简单的架构和 API 解决了这个问题。ZooKeeper 允许开发人员专注于核心应用程序逻辑,而无需担心应用程序的分布式特性。
ZooKeeper 框架最初是在“Yahoo!”构建的。以简单而可靠的方式访问他们的应用程序。后来,Apache ZooKeeper 成为 Hadoop、HBase 和其他分布式框架使用的有组织服务的标准。例如,Apache HBase 使用 ZooKeeper 来跟踪分布式数据的状态。
在进一步讨论之前,我们对分布式应用程序了解一两件事很重要。因此,让我们从分布式应用程序的快速概述开始讨论。
分布式应用
分布式应用程序可以在给定时间(同时)在网络中的多个系统上运行,通过它们之间的协调来快速有效地完成特定任务。通常,非分布式应用程序(在单个系统中运行)需要数小时才能完成的复杂且耗时的任务,可以通过分布式应用程序利用所有相关系统的计算能力在几分钟内完成。
通过将分布式应用程序配置为在更多系统上运行,可以进一步减少完成任务的时间。运行分布式应用程序的一组系统称为集群,集群中运行的每台机器称为节点。
分布式应用程序有两部分,服务器和客户端应用程序。服务器应用程序实际上是分布式的,并且具有公共接口,以便客户端可以连接到集群中的任何服务器并获得相同的结果。客户端应用程序是与分布式应用程序交互的工具。
分布式应用程序的好处
可靠性- 单个或几个系统的故障不会导致整个系统故障。
可扩展性- 可以在需要时通过添加更多机器来提高性能,只需对应用程序的配置进行较小的更改,无需停机。
透明度- 隐藏系统的复杂性并将其自身显示为单个实体/应用程序。
分布式应用的挑战
竞争条件- 两台或多台机器尝试执行特定任务,实际上在任何给定时间只需要由一台机器完成。例如,共享资源在任何给定时间只能由一台机器修改。
死锁- 两个或多个操作无限期地等待彼此完成。
不一致- 数据部分失败。
Apache ZooKeeper 的用途是什么?
Apache ZooKeeper 是集群(节点组)使用的一项服务,用于在它们之间进行协调并通过强大的同步技术维护共享数据。ZooKeeper本身是一个分布式应用程序,为编写分布式应用程序提供服务。
ZooKeeper 提供的常见服务如下:
命名服务- 通过名称识别集群中的节点。它与 DNS 类似,但针对的是节点。
配置管理- 加入节点的系统的最新配置信息。
集群管理- 集群中节点的加入/离开以及实时节点状态。
领导者选举- 选举一个节点作为领导者以进行协调。
锁定和同步服务- 在修改数据时锁定数据。此机制可帮助您在连接其他分布式应用程序(例如 Apache HBase)时进行自动故障恢复。
高度可靠的数据注册- 即使一个或几个节点发生故障,数据也可用。
分布式应用程序提供了很多好处,但它们也带来了一些复杂且难以解决的挑战。ZooKeeper框架提供了一个完整的机制来克服所有的挑战。使用故障安全同步方法处理竞争条件和死锁。另一个主要缺点是数据不一致,ZooKeeper 通过Atomics性解决了这个问题。
ZooKeeper 的优点
以下是使用 ZooKeeper 的好处 -
简单的分布式协调流程
同步- 服务器进程之间的相互排斥和合作。此过程有助于 Apache HBase 中的配置管理。
有序消息
序列化- 根据特定规则对数据进行编码。确保您的应用程序持续运行。这种方法可以在 MapReduce 中使用来协调队列来执行正在运行的线程。
可靠性
Atomics性- 数据传输要么成功,要么完全失败,但没有事务是部分的。