本文出自明月工作室:大数据平台CDH、HDP、CDP的区别 – 明月工作室
部署一套大数据架构是相当麻烦的事情,各种组件、服务配置相当多而杂,由此诞生了能简化各种服务部署和配置的的工具,也就是大数据平台框架。
CDH ( Cloudera Distribution Hadoop )是 Cloudera 公司提供的包含 Apache Hadoop 及其相关项目的软件发行版本。还有一种说法是 CDH 是 Cloudera Distribution including Apache Hadoop 的缩写。
CDH 的所有组件都是 100% 开源的(Apache License),是唯一提供统一批处理、交互式 SQL、交互式搜索以及基于角色的访问控制的 Hadoop 解决方案。通过将 Hadoop 与十几个其他关键开源项目集成,Cloudera 创建了一个功能先进的系统,可以帮忙你执行端到端的大数据工作流。
CDH 特性
灵活性:存储任何类型的数据,并使用各种不同的计算框架进行操作,包括批处理、交互式SQL、文本搜索、机器学习和统计计算。
集成:在完整的 Hadoop 平台上快速启动和运行,该平台可与广泛的硬件和软件解决方案配合使用。
安全性:处理和控制敏感数据。
可扩展性:启用广泛的应用程序,并根据要求进行扩容扩展。
高可用性:能够胜任关键地方的业务任务。
兼容性:利用现有的 IT 基础设施和资产。
CDH 6.3 是 CDH 的最后一个主要版本。CDH是Apache hadoop和相关项目中最完整、最稳定、最流行的发行版。
CDH 6.3.2 对应的各组件版本号——
Apache Avro 1.8.2
Apache Flume 1.9.0
Apache Hadoop 3.0.0
Apache HBase 2.1.4
HBase Indexer 1.5
Apache Hive 2.1.1
Hue 4.3.0
Apache Impala 3.2.0
Apache Kafka 2.2.1
Kite SDK 1.0.0
Apache Kudu 1.10.0
Apache Solr 7.4.0
Apache Oozie 5.1.0
Apache Parquet 1.9.0
Parquet-format 2.4.0
Apache Pig 0.17.0
Apache Sentry 2.1.0
Apache Spark 2.4.0
Apache Sqoop 1.4.7
Apache ZooKeeper 3.4.5
HDP是Hortonworks公司的代表产品,是一个企业级的Hadoop发行版。
其他区别:
CDP(Cloudera Data Platform)是 CDH 的继任者。CDP 是面向企业的云计算平台。它提供集成的多功能自助服务工具,以分析和集中数据。它在企业层面带来了安全和治理,所有这些都托管在公共、私有和多云部署上。
如果启动一项新项目,建议从 CDP 开始,因为这是 Cloudera 最新一代的技术。根据其官方网站,CDP 可以做到:
CDP私有云的部署依赖ClouderaManager。
CDP是原先两个最好的企业级数据分析平台CDH和HDP融合在一起,同时增加一些新的功能,形成的一个新平台。这个平台有40多个组件,是可以提供更多功能的企业级分析平台。这个平台集合了CDH和HDP的精华来创建,把一些过时的技术淘汰掉,再融合新的技术,把双方差异性的技术保留下来,同时升级共享一些技术得到最新版本。
值得一提的是,前两年官方已经声明,会逐渐停止对CDH和HDP的升级和维护。现在估计已经完全停了。