hadoop是什么(hadoop的功能作用是什么)
7月3日 壹世缘投稿 Hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),
其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(lowcost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
Hadoop由许多元素构成。其最底部是HadoopDistributedFileSystem(HDFS),它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。发行版本
Hadoop有三大发行版本:Apache、Cloudera、HortonworksApache最基础的版本apache版Cloudera企业中使用最多的版本(收费)cdh版Hortonworks文档较好优势高可用Hadoop底层维护了多个数据副本,即使某个计算元素或者存储出现故障,也不会导致数据的丢失高扩展在集群间分配任务数据,可方便的扩展数以千计的节点高效性Hadoop并行工作,加快任务处理速度高容错性可以自动将失败的任务重新分配配置
配置文件在hadoop下etc目录下,有几个重要的配置文件coresite。xml
这是hadoop的核心配置文件