大数据开发（Hadoop面试真题-卷五）

大数据开发（Hadoop面试真题）

1、HDFS的块默认大小，64M和128是在哪个版本更换的？怎么修改默认块大小？
2、HDFS HA怎么实现？
3、导入大文件到HDFS时如何自定义分片？
4、HDFS的Mapper和Reducer的个数如何确定？Reducer的个数依据是什么？
5、HDFS中向DataNode写数据失败了怎么办？
6、Hadoop2.x的HDFS快照
7、HDFS使用NameNode的好处？
8、HDFS中DataNode怎么存储数据的？
9、直接将数据文件上传到HDFS的表目录中，如何在表中查询到该数据？
10、MapReduce哪个阶段最费时间？

1、HDFS的块默认大小，64M和128是在哪个版本更换的？怎么修改默认块大小？

HDFS的块默认大小是128M。在Hadoop 2.3版本中，将HDFS的块默认大小从64M更改为128M。

要修改HDFS的默认块大小，可以按照以下步骤进行操作：

打开HDFS的配置文件hdfs-site.xml。
在该文件中找到或添加以下属性：dfs.blocksize。
将属性值设置为所需的块大小，单位为字节。例如，如果要将块大小设置为256M，则属性值为268435456。
保持并关闭配置文件。
重启HDFS集群，以使配置更改生效。

2、HDFS HA怎么实现？

配置基本参数：需要在HDFS配置文件中定义HA相关的参数，包括NameNodes的地址、故障切换的时间间隔等。
启动和配置ZooKeeper：ZooKeeper是用于协调和管理集群中各个组件的分布式协调服务。需要启动ZooKeeper并配置它作为HDFS HA的协调服务。
启动NameNodes：在配置文件中指定两个NameNodes的地址，并将它们分别启动。
NameNode状态切换：一开始，其中一个NameNode会被指定为Active状态，另一个是Standby状态。Active NameNode处理所有的客户端请求，同时将元数据操作的日志记录到共享存储（如共享的编辑日志）。Standby NameNode会监控Active NameNode的状态。
故障切换：如果Active NameNode发生故障，Standby NameNode会检测到，并自动切换为Active状态，接管客户端的请求。这一切换过程是无缝的，客户端不需要进行额外的配置或操作。

3、导入大文件到HDFS时如何自定义分片？

在导入大文件到HDFS时，可以通过自定义分片来更好地管理和利用存储空间。以下是几种常见的自定义分片方法：

使用Hadoop Archive（HAR）文件：HAR文件是将多个小文件打包成一个大文件的一种方式。可以使用Hadoop提供的’hadoop archive’命令将多个小文件打包成HAR文件。这样可以减少NameNode的元数据开销，并提高文件读取效率。
使用SequenceFile：SequenceFile是一种二进制文件格式，可以将多个小文件合并成一个大文件，并保留原始文件的键值对关系。使用SequenceFile可以手动控制每个分片的大小，以适应特定的需求。
自定义InputFormat：Hadoop提供了自定义InputFormat的接口，可以自定义数据输入的格式和分片方式。通过实现自定义InputFormat，可以根据特定的规则将大文件切分为多个分片。
使用MapReduce的自定义分片器：在MapReduce作业中，可以通过自定义分片器（如’FileInputFormat.setMinInputSplitSize()‘和’FileInputFormat.setMaxInputSplitSize()’）来控制输入文件的分片方式。可以根据文件大小、行数或其它规则来自定义分片策略。

4、HDFS的Mapper和Reducer的个数如何确定？Reducer的个数依据是什么？

HDFS是一种用于存储和处理大数据的分布式文件系统，而Mapper和Reducer是Hadoop框架用于分布式计算的关键组件。

Mapper和Reducer的个数可以根据以下因素进行确定：

数据量：Mapper的个数通常由输入数据的分片数决定。HDFS将输入数据分为多个块，每个块由一个Mapper进行处理。因此，输入数据越大，Mapper的个数就越多。
硬件资源：在确定Reducer的个数时，需要考虑集群中可用的硬件资源，如计算节点的数量和处理能力。一般来说，Reducer的个数不应超过集群中可用的计算节点数。
任务的性质：根据任务的性质和目标，可用适当调整Mapper和Reducer的个数。例如，对于计算密集型任务，可以增加Reducer的个数以提高计算速度。而对于I/O密集型任务，可以增加Mapper的个数以加快数据处理速度。

Reducer的个数依据主要有两个方面：

数据倾斜：如果输入数据在某个键上分布不均衡，即某个键的数据量远大于其它键，可以增加Reducer的个数来实现更好的负载均衡。这样可以确保每个Reducer处理的数据量更均衡，提高整体任务的执行效率。
目标输出：Reducer的个数通常与期望的输出结果有关。如果需要生成特定数量的输出文件或者进行特定聚合操作，可以调整Reducer的个数以满足需求。例如，如果需要生成10个输出文件，可以设置10个Reducer。

5、HDFS中向DataNode写数据失败了怎么办？

检查网络连接：首先，确保HDFS集群的网络连接正常。可能是由于网络故障导致写入失败，可以通过检查网络连接或者尝试重新连接来解决问题。
检查DataNode状态：检查DataNode的状态是否正常。可能是由于DataNode的故障或者过载导致写入失败。可以通过查看DataNode的日志或者使用HDFS管理工具来确定DataNode的状态，并采取相应的措施。
检查磁盘空间：检查DataNode上的磁盘空间是否足够。如果磁盘空间不足，写入操作将失败。可以通过清理磁盘空间或者添加额外的存储来解决问题。
检查配置文件：检查HDFS的配置文件是否正确配置。可能是由于配置错误导入写入失败。可以检查配置文件中的桉树，并进行必要的修正。
重启服务：如果上述方法都无法解决问题，可以尝试重启相关的HDFS服务。有时候，服务的重新启动可以解决一些临时的问题。

6、Hadoop2.x的HDFS快照

Hadoop2.x的HDFS快照是一种用于创建文件系统快照的功能。它允许在不影响正在运行的作业和任务的情况下，对文件系统的特点时间点进行拍摄和恢复。
快照是目录或文件系统的只读副本。当创建快照时，系统会记录文件的当前状态，并创建一个指向该状态的只读指针。这意味着快照可以提供文件系统在特定时间点的视图，以便进行数据分析、备份和恢复等操作。

以下是一些Hadoop2.x的HDFS快照的重要事实和功能：

快照是只读的：快照创建后，它们是只读的，这意味着不能对快照进行修改。只有在进行恢复操作时，才能将快照还原到文件系统中。
快照与原始文件系统之间的共享：快照与原始文件系统共享存储空间，因此它们不会占用额外的磁盘空间。这使得快照的创建和管理变得高效。
多个快照：HDFS支持创建多个快照，因此可以在不同的时间点创建和管理多个快照。
创建和删除快照：可以使用HDFS shell命令或HDFS Java API来创建和删除快照。创建快照时，可以指定一个名称来标识快照，并可以选择在特定目录下创建快照。
快照恢复：可以使用HDFS shell命令或HDFS Java API来恢复快照。恢复快照会将文件系统还原到快照创建时的状态。

7、HDFS使用NameNode的好处？

元数据管理：NameNode负责管理HDFS中所有文件和目录的元数据，包括文件的位置、块大小、副本数等信息。它维护了一个文件系统树的结构，并记录了每个文件的块信息。这样，用户可以通过NameNode快速定位和访问文件。
故障恢复：NameNode保存了整个文件系统的元数据，包括文件的块分布和副本位置等信息。当某个数据节点（DataNode）出现故障或文件损坏时，NameNode可以快速识别并恢复数据。它会监控DataNode的状态，并在需要时重新复制丢失的块。
块分配：NameNode负责为新写入的文件分配块，并决定每个块的副本数。它会根据集群的状态和策略，选择合适的DataNode进行块的复制。这种集中式的块分配策略可以帮助优化数据的存储和访问效率。
简化客户端操作：客户端在访问HDFS时，只需要与NameNode进行通信，获取文件的元数据和块信息。这样，客户端可以通过与NameNode的交互，快速定位并直接访问所需的数据块，而无需与多个DataNode进行通信。这样可以降低网络开销和延迟。
高可用性：NameNode可以配置为高可用模式，通过使用多台机器组成的Active-Standby集群，实现故障切换和冗余备份。当Active NameNode出现故障时，Standby NameNode会自动接管工作，从而保证HDFS的持续可用性。

8、HDFS中DataNode怎么存储数据的？

DataNode是Hadoop分布式文件系统（HDFS）中的一个组件，负责存储实际的数据块。下面是DataNode存储数据的过程：

客户端通过HDFS的API将文件切分成数据块，并将这些数据块发送给NameNode，同时记录数据块的副本数量。
NameNode接收到数据块后，将数据块的副本位置信息返回给客户端。
客户端根据副本位置信息，将数据块发送给对应的DataNode。
DataNode接收到数据块后，将数据块存储在本地磁盘上。每个DataNode都有一个默认的数据存储目录，可用在HDFS配置中进行设置。
DataNode在存储数据块时，会在本地磁盘上创建一个临时文件，将数据块写入该文件中。一旦数据块完全写入，DataNode会将该临时文件转换为永久文件。
DataNode会周期性地向NameNode汇报存储的数据块信息，包括块的ID、位置、存储路径等。
当客户端需要读取数据时，根据文件的块位置信息，向对应的DataNode发送读取请求。

9、直接将数据文件上传到HDFS的表目录中，如何在表中查询到该数据？

要在表中查询到直接上传到HDFS表目录中的数据，可以按照以下步骤进行操作：

确保数据文件已经上传到HDFS的表目录中，例如，将数据文件上传到’/user/hive/warehouse/table_name’目录下。
进入Hive命令行或使用Hive客户端，连接到Hive数据块。
创建一个外部表（External Table），该表与HDFS表目录中的数据文件进行映射，可以使用如下Hive语句创建表：

CREATE EXTERNAL TABLE table_name (
column1 datatype1,
column2 datatype2,
...
)
LOCATION '/user/hive/warehouse/table_name';

在上述语句中，'table_name’表示表的名称，‘column1’，'column2’表示表的列名和对应的数据类型，'LOCATION’指定了表的数据存储位置为HDFS表目录。
4. 完成表的创建后，可以使用Hive的查询语句进行数据查询，例如：

SELECT * FROM table_name;

上述语句将查询并返回表中的所有数据。

10、MapReduce哪个阶段最费时间？

在MapReduce中，最费时间的阶段往往是Reduce阶段。这是因为在Map阶段中，数据被划分并分发给各个Map任务进行处理，这些任务可以并行执行。而在Reduce阶段中，所有的Map任务的输出结果需要通过网络传输到Reduce任务进行合并和计算。这个过程可能涉及大量的数据传输和磁盘读写操作，因此需要较长的时间来完成。此外，Reduce阶段中还需要进行排序和归并操作，进一步增加了时间消耗。因此，Reduce阶段通常是整个MapReduce过程中最费时间的阶段。