Hadoopはどぅーぷ

・正式名称: Hadoop

概要

Hadoopとは、巨大なデータを複数のサーバに分散して並列処理を行うためのオープンソースのソフトウェアフレームワークのこと。Google社が論文公開した、分散ファイルシステム(GFS)と分散処理技術であるGoogle MapReduce技術をベースに、オープンソースのソフトウェアプロジェクトを支援する非営利団体Apacheソフトウェア財団のプロジェクトとして現在も開発が続けられている。

特徴

Hadoopは、専用のハードウェアや特定のスペックを必要としないため、市販のサーバを利用でき構築費用を抑えることができる。また、故障発生を前提とした設計のため、あるサーバが故障してもシステム全体として問題なく動作することができ、リソース不足でサーバを追加する際にもサービスを継続したまま追加作業を行うことができる。

Hadoopは、分散ファイルシステムのHDFS(Hadoop Distributed File System)と分散処理フレームワークのHadoop MapReduceで構成されている。
HDFSは、分散ファイルシステムのメタ情報を管理するNameNode(マスターノード)と、データの実体を保存するDataNode(スレーブノード)で構成される。故障発生を前提としていることから、DataNodeが故障しデータが消失する可能性を考慮し、複数のDataNodeにレブリカ(複製)を保存する。

Hadoop MapReduceは、分散処理のためのファイル操作や情報共有の通信など複雑な実装を意識せずに処理の定義を行い実行することができる。

利用されるシーン・解決できる課題

ビッグデータが注目される現在、企業内で保有する巨大データを業務に活用するための分析基盤としてHadoopの利用が考えられる。日本ではNTTデータなどの導入支援サービスを利用し複数の大手企業がHadoopを活用している。

HDFSはNameNode(マスターノード)とDataNode(スレーブノード)で構成され、NameNodeが分散ファイルシステムのメタ情報を管理し、DataNodeがデータの実体を保存している。このとき任意のDataNodeが故障しデータが消失することを考慮し、複数のDataNodeにレブリカ(複製)を保存する。