Hadoop大数据处理平台-学习猿地 -成就自己的只需一套精品-IT在线教育平台

Hadoop大数据处理平台收藏

579人加入学习

更新时间

2026-02-4

课程价格

￥256 ￥128会员免费

课程任务

7 个

课程节数

34 个

课程时长

12课时

java

可靠的，可扩展的分布式计算开发开源软件. Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。 HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。 MapReduce是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。学完此阶段能够掌握Hadoop分布式集群的配置、搭建、运维,掌握HDFS分布式文件系统的应用、原理、数据流的读写,掌握MapReduce分布式并行计算框架的应用开发。

java

应知应会：

java

1. 大数据概论

2. 访问HDFS

3. HDFS接口

4. HDFS分布式文件系统的运行机制

5. Hadoop I/O详解

6. MapReduce编程模型

7. MapReduce的工作机制与YARN平台

java

项目实战：

java

日志数据分析系统

java

主要知识点：

java
☑ 认识大数据基本概念

☑ 认识大数据生态圈

☑ 认识大数据行业落地案例

☑ 搭建Hadoop分布式集群

☑ 掌握HDFS的特性

☑ 理解HDFS的设计目标

☑ 掌握HDFS的体系结构

☑ 理解数据块基本概念

☑ 掌握数据块复制原理

☑ 掌握HDFS安全模式

☑ 理解HDFS心跳机制

☑ 掌握HDFS核心架构

☑ 掌握HDFS常用的命令行操作接口

☑ 学会查看HDFS文件列表

☑ 掌握文件的上传、下载、删除

☑ 掌握HDFS的Java访问接口

☑ 利用命令行和Java接口访问HDFS分布式文件系统

☑ 掌握HDFS中的数据流读写

☑ 掌握RPC的实现流程及模型

☑ 掌握文件的读取、写入及文件的一致性模型

☑ 掌握HA高可靠机制

☑ 熟悉HDFS的Federation机制

☑ 搭建HA应用开发平台

☑ 理解HDFS的数据完整性

☑ 掌握HDFS的数据压缩算法

☑ 掌握HDFS序列化接口

☑ 掌握Hadoop数据结构

☑ 理解SequenceFile存储

☑ 利用HDFS序列化Writable接口实现SequenceFile的写入

☑ 掌握MapReduce编程模型

☑ 编写WordCount事例

☑ 掌握HadoopMapReduce架构

☑ 配置MapReduce应用编程开发环境

☑ 掌握MapReduce程序设计思路

☑ 掌握Mapper和Reducer的编写

☑ 掌握集群上运行作业

☑ 熟练作业的的状态查看与检测

☑ 掌握MapReduce作业的调试

☑ 掌握常见的MapReduce的输入输出的格式

☑ 开发MapReduce分布式并行程序

☑ 掌握MapReduce作业的运行过程

☑ 掌握Shuffle的运行过程和原理

☑ 掌握Map段shuffle与Reduce段shuffle的原理

☑ 理解YARN平台的工作原理及架构

☑ 掌握ResouceManager的资源分配

☑ 掌握NodeManager的工作原理

☑ 掌握ApplicationMaster的工作原理

☑ 理解Container容器的工作原理

☑ 掌握作业的调度

☑ 刨析MapReduce作业的Shuffle过程

java

学习基础：

java

大数据开发需要好的技术辅助，掌握这些玩大数据才顺手。除了要有Java基础之外，做大数开发还需要一些通用的技术，需要掌握Linux技术，包括Linux安装部署、Linux常用命令、Linux用户和权限、能够编写简单Linux Shell脚本。还需要掌握数据库，例数据库的设计、使用、优化、编程，熟练使用Java访问数据库。也需要前端H5、CSS3前端技术应用和开发，熟练进行前端界面设计。也要掌握JavaWeb常见组件Servlet、JSP，熟练搭建Tomcat服务器和JavaWeb环境。

java