| 分类 |
名称 |
描述 |
风险 |
措施 |
观察项目 |
| Cloudera Manager |
修改CDH依赖的数据库密码 |
该操作会影响集群的管理维护 |
中 |
修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常 |
| 数据库升级 |
该操作会重启Manager和整个集群,影响集群的管理维护和业务 |
中 |
修改时确保同一时间无其它管理维护操作 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 |
|
| 修改IP |
该操作会重启Manager和整个集群,影响集群的管理维护和业务 |
中 |
修改时确保同一时间无其它管理维护操作,且修改的IP填写正确无误 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 |
|
| 更换管理控制节点 |
更换节点会导致重启数据库各进程,影响集群的管理维护 |
中 |
更换前确认操作的必要性,更换时确保同一时间无其它管理维护操作 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 |
|
| 重启服务时,如果勾选同时重启关联服务 |
该操作可能会导致业务中断,影响集群的管理维护和业务 |
中高 |
操作前确认操作的必要性,操作时确保同一时间无其它管理维护操作 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 |
|
| 修改数据库端口 |
修改该参数时,可能会导致进程重启和会影响业务运行 |
高 |
操作前确认操作的必要性,操作时确保同一时间无其它管理维护操作 |
无 |
|
| 重装主机 |
该操作会对指定主机上的软件进行重新安装,并可能因清理数据目录造成数据丢失 |
高 |
操作前请确认重新安装的必要性,并谨慎选择清理数据选项 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 |
|
| 修改节点SSH默认端口 |
修改默认端口(22)将导致创建集群、添加服务/实例、添加主机、重装主机等功能无法正常使用。 |
中 |
执行相关操作前将SSH端口改回默认值 |
无 |
|
| 系统下电、上电 |
非标准化下电、上电操作,会导致系统再次上电后,集群启动异常,如Ldap数据不同步 |
中高 |
请参考系统上下电进行标准的系统下电、上电操作 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 |
|
| HBase |
修改加密的相关配置项hbase.regionserver.wal.encryptionhbase.crypto.keyprovider.parameters.urihbase.crypto.keyprovider.parameters.encryptedtext |
导致服务启动异常 |
中高 |
修改相关配置项时请严格按照提示描述,加密相关配置项是有关联的,确保修改后的值有效 |
观察服务能否正常启动 |
| 已使用加密的情况下关闭或者切换加密算法,关闭主要指修改hbase.regionserver.wal.encryption为false,切换主要指AES和SMS4的切换 |
导致服务启动失败,数据丢失 |
中高 |
加密HFile和WAL内容的时候,如果已经使用一种加密算法加密并且已经建表,请不要随意关闭或者切换加密算法未建加密表(ENCRYPTION=>AES/SMS4)的情况下可以切换,否则禁止操作 |
无 |
|
| 使用OfflineMetaRepair工具 |
导致服务启动异常 |
高 |
必须在HBase下线的情况下才可以使用该命令,而且不能在数据迁移的场景中使用该命令 |
观察HBase服务是否可以正常启动。 |
|
| Yarn |
删除或者修改数据目录yarn.nodemanager.local-dirs和yarn.nodemanager.log-dirs |
该操作将会导致业务信息丢失 |
高 |
请勿手动删除数据目录 |
观察数据目录是否正常 |
| Spark&Spark2x |
配置项的修改(spark.yarn.queue、spark.driver.extraJavaOptions) |
导致服务启动异常 |
中低 |
修改相关配置项时请严格按照提示描述,确保修改后的值有效 |
观察服务能否正常启动 |
| 配置项的修改(SPARK_DAEMON_JAVA) |
导致服务启动异常 |
中低 |
修改相关配置项时请严格按照提示描述,确保修改后的值有效 |
观察服务能否正常启动 |
|
| 删除或修改HDFS上的/user/spark/lib/6.5.1/spark-assembly-1.5.1-hadoop3.1.1.zip |
导致JDBCServer启动异常及业务功能异常 |
中 |
删除/user/spark/lib/6.5.1/spark-assembly-1.5.1-hadoop3.1.1.zip,等待10-15分钟,zip包自动恢复 |
观察服务能否正常启动 |
|
| ZooKeeper |
删除或者修改ZooKeeper的数据目录 |
该操作将会导致业务信息丢失 |
中 |
修改ZooKeeper目录时候,严格按照扩容指导操作 |
观察服务能否正常启动,关联组件能否正常启动 |
| 设置ZooKeeper中znode的ACL信息 |
修改ZooKeeper中znode的权限,可能会导致其他用户无权限访问该znode,导致系统功能异常 |
高 |
修改相关配置项时请严格按照《业务操作指南》的“ZooKeeper权限设置指南”章节操作,确保修改ACL信息,不会影响其他组件正常使用ZooKeeper |
观察项目观察其他依赖ZooKeeper的组件能否正常启动,并提供服务 |
|
| HDFS |
修改HDFS的NameNode的数据存储目录dfs.namenode.name.dir、DataNode的数据配置目录dfs.datanode.data.dir |
导致服务启动异常 |
高 |
修改相关配置项时请严格按照提示描述,确保修改后的值有效 |
观察服务能否正常启动 |
| 执行hadoop distcp命令时,使用-delete参数 |
Distcp拷贝时,源集群没有而目的集群存在的文件,会在目的集群删除。 |
高 |
在使用Distcp的时候,确保是否保留目的集群多余的文件,谨慎使用-delete参数。 |
Distcp数据拷贝后,查看目的的数据是否按照参数配置保留或删除。 |
|
| 修改HDFS实例的启动参数HADOOP_HEAPSIZE和GC_PROFILE |
导致服务启动异常 |
高 |
修改相关配置项时请严格按照提示描述,确保修改后的值有效,且GC_OPTS与HADOOP_HEAPSIZE参数值无冲突 |
观察服务能否正常启动 |
|
| 修改HDFS的副本数目dfs.replication,将默认值由3改为1 |
导致:存储可靠性下降,磁盘故障时,会发生数据丢失NameNode重启失败,HDFS服务不可用 |
中高 |
修改相关配置项时,请仔细查看参数说明。保证数据存储的副本数不低于2 |
观察默认的副本值是否不为1,HDFS服务是否可以正常提供服务 |
|
| 修改Hadoop中各模块的RPC通道的加密方式hadoop.rpc.protection |
导致服务故障及业务异常 |
高 |
修改相关配置项时请严格按照提示描述,确保修改后的值有效 |
观察HDFS及其他依赖HDFS的服务能否正常启动,并提供服务 |
|
| Flume |
修改Flume实例的启动参数 |
导致服务启动异常 |
中 |
修改相关配置项时请严格按照提示描述,确保修改后的值有效 |
观察服务能否正常启动 |
| 修改HDFS的副本数目dfs.replication,将默认值由3改为1 |
导致:存储可靠性下降,磁盘故障时,会发生数据丢失NameNode重启失败,HDFS服务不可用 |
中高 |
修改相关配置项时,请仔细查看参数说明。保证数据存储的副本数不低于2 |
观察默认的副本值是否不为1,HDFS服务是否可以正常提供服务 |
|
| Solr |
修改Solr实例的端口参数:SOLR_PORTSOLR_CONTROL_PORT |
操作不当会导致实例启动、停止异常 |
中低 |
修改相关配置项时请严格按照提示描述,确保修改后的值有效 |
观察服务实例能否正常启动、停止 |
| 修改Solr参数:INDEX_STORED_ON_HDFS |
若Collection对应配置集solrconfig.xml配置为:<directoryFactory name=""DirectoryFactory"" class=""${solr.directoryFactory:solr.NRTCachingDirectoryFactory}"">,当修改INDEX_STORED_ON_HDFS参数时,采用此配置的Collection索引存储位置发生变化,需要重新索引。原始的存储位置上的索引数据不会自动删除。若Collection对应配置集solrconfig.xml配置为:<directoryFactory name=""DirectoryFactory"" class=""solr.NRTCachingDirectoryFactory"">,采用此配置的Collection索引不受INDEX_STORED_ON_HDFS参数修改的影响。 |
高 |
修改该参数时,需要确认受影响的Collection。如果不想受该参数影响,则将Collection的solrconfig.xml中<directoryFactory name=""DirectoryFactory"" class=""${solr.directoryFactory:solr.NRTCachingDirectoryFactory}"">修改为<directoryFactory name=""DirectoryFactory"" class=""solr.NRTCachingDirectoryFactory"">。重新索引受影响的Collection。 |
无 |
|
| Kafka |
删除Topic |
该操作将会删除已有的主题和数据 |
中 |
采用Kerberos认证,保证合法用户具有操作权限,并确保主题名称正确 |
观察主题是否正常处理 |
| 删除数据目录 |
该操作将会导致业务信息丢失 |
中 |
请勿手动删除数据目录 |
观察数据目录是否正常 |
|
| 修改数据目录下内容(创建文件、文件夹) |
该操作将会导致该节点上的Broker实例故障 |
中 |
请勿手动在数据目录下创建或修改文件及文件夹 |
观察数据目录是否正常 |
|
| 修改数据目录“log.dirs”配置 |
该配置不正确将会导致进程故障 |
中 |
确保所修改或者添加的数据目录为空目录,且权限正确 |
观察数据目录是否正常 |
|
| 单独启停基础组件 |
该操作将会影响服务的一些基础功能导致业务失败 |
中 |
请勿单独启停ZooKeeper/Kerberos/LDAP等基础组件,启停基础组件请勾选关联服务 |
观察服务状态是否正常 |
|
| 重启/停止服务 |
该操作将会导致业务中断 |
中低 |
确保在必要时重启/停止服务 |
观察服务是否运行正常 |
|
| 修改配置参数 |
该操作将需要重启服务使得配置生效 |
中低 |
确保在必要时修改配置 |
观察服务是否运行正常 |
|
| 删除/修改元数据 |
修改或者删除ZooKeeper上Kafka的元数据可能导致Topic或者Kafka服务不可用 |
中 |
请勿删除或者修改Kafka在ZooKeeper上保存的元数据信息 |
观察Topic或者Kafka服务是否可用 |
|
| Hive |
修改Hive实例的启动参数GC |
修改该参数可能会导致Hive实例无法启动 |
中低 |
修改相关配置项时请严格按照提示描述,确保修改后的值有效 |
观察服务能否正常启动 |
| 删除MetaStore所有实例 |
Hive元数据丢失,Hive无法提供服务 |
中 |
除非确定丢弃Hive所有表信息,否则不要执行该操作 |
观察服务能否正常启动 |
|
| 使用HDFS文件系统接口或者HBase接口删除或修改Hive表对应的文件 |
该操作会导致Hive业务数据丢失或被篡改 |
中 |
除非确定丢弃这些数据,或者确保该修改操作符合业务需求,否则不要执行该操作 |
观察Hive数据是否完整 |
|
| 使用HDFS文件系统接口或者HBase接口修改Hive表对应的文件或目录访问权限 |
该操作可能会导致相关业务场景不可用 |
中高 |
请勿执行该操作 |
观察相关业务操作是否正常 |
|
| 导出表数据覆盖写入本地目录,例如将t1表中数据导出,覆盖到“/opt/dir”路径下 |
该操作会删除目标目录,如果设置错误,会导致软件或者操作系统无法启动 |
高 |
确认需要写入的路径下不要包含任何文件;或者不要使用overwrite关键字 |
观察目标路径是否有文件丢失 |
|
| 将不同的数据库、表或分区文件指定至相同路径,例如默认仓库路径“/user/hive/warehouse”。 |
执行创建操作后数据可能会紊乱,如果删除其中一个数据库、表或分区,会导致其他对象数据丢失。 |
高 |
请勿执行该操作 |
观察目标路径是否有文件丢失 |
|
| Flink |
修改日志级别 |
如果修改为DEBUG,会影响任务运行性能 |
中 |
修改前确认操作的必要性,并及时修改回默认设定 |
无 |
| 修改文件权限 |
该操作可能导致任务运行失败 |
中 |
修改前确认操作的必要性 |
观察相关业务操作是否正常 |
|