专属服务器_阿里云飞天六部_稳定性好

安全 虚拟云 浏览

小编:在google"Hadoop"中输入一个单词,你会得到很多结果。很难决定先读什么,怎么去读。Hadoop有三条主要的路径要走。 要走这些路径中的任何一条,你都必须知道一些基本的东西,比如什

在google"Hadoop"中输入一个单词,云服务器组,你会得到很多结果。很难决定先读什么,怎么去读。Hadoop有三条主要的路径要走。

要走这些路径中的任何一条,你都必须知道一些基本的东西,比如什么是Hadoop,为什么是Hadoop,以及Hadoop是怎样的。在这里,我试图捕捉一些非常基本的东西,这些东西将护送您从Hadoop开始。

什么是Hadoop?

Apache Hadoop是一个用JAVA编写的开放源码软件框架,用于分布式存储和分布式处理基于商品硬件的计算机集群上的超大数据集。

为什么选择Hadoop?

挑战:数据存储在一台计算机上太大

Hadoop解决方案:数据存储在多台计算机上。

挑战:非常高端的机器非常昂贵

Hadoop解决方案:在商品硬件上运行

挑战:商品硬件将失败。

Hadoop解决方案:软件足够智能,可以处理硬件故障。

挑战:硬件失败可能导致数据丢失

Hadoop解决方案:复制(复制)数据

挑战:分布式节点如何协调它们之间的关系

Hadoop解决方案:有一个主节点协调所有工作节点

3 V属性用于描述大数据问题。

-体积:体积反映了大量的数据需要处理的数据。随着不同的数据集叠加在一起,数据量也随之增加。

-多样性:多样性反映了不同的数据源。它可以从Web服务器日志到数据库中的结构化数据,再到社交媒体中的非结构化数据都有变化。

-速度:速度反映了随着时间不断累积的数据量。

Hadoop和RDBMS有什么区别?

Hadoop生态系统:

Hadoop是Apache的一个开源项目,已经迅速发展成为一个重大的技术运动。它已经成为处理大量数据的最佳方式,不仅包括结构化数据,还包括复杂的非结构化数据。

它的流行部分是由于它能够跨商品硬件集群快速、经济高效地存储、分析和访问大量数据。Hadoop实际上并不是一个单一的产品,而是多个组件的集合。

Pig:

Pig是一个分析大型数据集的平台,它由一种高级语言组成,用于表达数据分析程序,再加上用于评估这些程序的基础设施。目前,Pig的基础结构层由一个编译器组成,该编译器生成Map-Reduce程序序列。

Pig的语言层目前由一种称为Pig-Latin的文本语言组成,该语言易于使用、优化和扩展。Pig最初是[3]在Yahoo Research于2006年左右开发的。

Hive:

Hive是一个用于Hadoop的数据仓库系统,它可以方便地进行数据摘要、即席查询和分析存储在Hadoop兼容文件系统中的大型数据集。它提供了一种将结构投射到数据上的机制,sql数据库,并使用类似SQL的语言HiveQL查询数据。

Pig和hive都位于map reduce层。在Pig和hive上编写的代码被转换成map reduce作业,然后在hdfs上运行。

HBase:

HBase(Hadoop数据库)是一个分布式的、面向列的数据库。HBase使用HDFS作为底层存储。它支持使用MapReduce和点查询(随机读取)的批式计算。

HBase的主要组件如下:

–HBase Master负责协商所有区域服务器的负载平衡,并维护集群的状态。它不是实际数据存储或检索路径的一部分。

–RegionServer部署在每台机器上,承载数据并处理I/O请求。

Apache Zookeeper:

Zookeeper是一个集中服务,用于维护配置信息、命名、提供分布式同步,以及提供对各种分布式系统非常有用的组服务。没有ZooKeeper,HBase就无法运行。

Apache Oozie:

Apache Oozie是一个管理Hadoop作业的工作流/协调系统。

Apache Sqoop:

Apache Sqoop是一个设计用于在Hadoop和结构化数据存储(如关系数据库)之间高效传输大量数据的工具。

Flume:

Apache Flume是一种用于收集、聚合和移动大量日志数据。基于流式数据流的体系结构简单灵活,

Flume用于将数据注入hadoop系统,

它有三个实体。来源:,通道和接收器。

源是数据进入Flume的实体。

接收器是将数据传送到目的地的实体。

源将事件摄取到通道中,接收器将通道排出。

为了方便数据进出Hadoop,使用sqoop/Flume。

色调:

色调提供Web应用程序Apache Hadoop接口。它支持文件浏览器、Hive、Pig、Oozie、HBase等。

为了方便数据进出Hadoop,使用sqoop/flume。

HDFS–Hadoop分布式文件系统:

主/辅设计:

在HDFS设计中有一个主节点和多个辅节点。

主节点命名为名称节点(NN),辅节点命名为名称节点作为数据节点(DN)。

主节点保存所有关于HDFS和数据节点的元数据信息。主节点负责文件系统(如创建文件、用户权限等)。没有它,集群节点将不可用。

数据节点是以数据块的形式保存用户数据的从属/工作节点。Hadoop集群中可以有任意数量的数据节点。

数据块:

一个数据块可以被视为存储在HDFS中的数据或文件的标准单位。

每个传入的文件默认分为64MB。(当前大小已更改为128MB)

任何大于64MB的数据块被分为64MB的数据块。

所有构成HDFS的数据块一个特定的文件大小相同(64MB),除了最后一个块可能小于64MB,这取决于文件的大小。

在商品硬件上运行:

当前网址:http://vmchk.cooou.com/secaidapei/2021/0908/101210.html

 
你可能喜欢的: