近年では、多くの企業がビジネスでデータ分析を活用しています。正しくデータ分析を行うためには、目的や規模に応じたデータ分析基盤の構築が欠かせません。今回の記事では、AWSでデータ分析基盤を構築することを想定し、AWSが提供する各種サービスおよびユースケースを紹介していきます。
目次
データ分析基盤にはAWSがおすすめ
データ分析基盤を提供しているサービスは数多くありますが、データ分析基盤を構築する際にはAWSを利用することをおすすめします。なぜ、AWSでデータ分析基盤を構築するべきなのか、まずはそのメリットについてご紹介します。
簡単に一気通貫のシステムを構築できる
データ分析においてネックになりやすいのが、システム間のデータ移動です。複数のソリューションを連携させるシステムを構築する場合「連携がうまくいかない、余計にコストがかかる」といった問題が起こりえます。
AWSを利用した場合、サービス間のデータ移動もスムーズに行えます。そのため、各部署のシステムが連携されず業務効率の低下を招く、いわゆるデータのサイロ化問題※も解消できます。また、データ収集から抽出・分析までをAWS上で、一気通貫で実施できるため、ユーザーが使いやすいシステムになるというメリットもあります。
- ※ データのサイロ化問題:企業のある部署・グループによって保有されるデータのうち、他の部署・グループからは容易にまたは全くアクセスできないデータのこと。
サービスが多彩で、ニーズに合ったシステムを構築できる
AWSは、データ分析基盤の構築・運用をサポートする、さまざまなサービスを提供しています。例えば、分析結果をわかりやすく可視化できる「Amazon QuickSight」や、標準SQLでS3内にあるデータを分析できる「Amazon Athena」、ビッグデータ処理の基盤に適した「Amazon EMR」など、さまざまなニーズに対応したサービスが展開されています。用途に応じてうまく使い分ければ、コストを抑えつつ効率的にデータ分析を行うことも可能です。
AWSが提供しているデータレイクツールとデータウェアハウスツール
では、データ分析に関して、AWSは具体的にどのようなサービスを提供しているのでしょうか。ここからは、AWSが提供するデータレイクツール、およびデータウェアハウスツールを紹介していきます。
AWSデータレイクツール
まず、AWSでデータレイクを構築する際に、役に立つツールを3つ紹介します。
Amazon S3
Amazon S3は、AWSが提供するオブジェクトストレージサービスです。業種や規模を問わず多くの企業で利用されており、ストレージサービスとしてウェブサイトやアプリケーションなどのデータバックアップ、および復元やアーカイブなど、ユーザーのさまざまなニーズに対応しています。高可用性・高耐久性を誇り、非構造化データもそのまま格納できることから、データレイク先としても利用可能です。
AWS Lake Formation
AWS Lake Formationは、簡単にデータレイクを構築できるツールです。通常データレイクを構築するには複雑な設定が必要で、時間がかかります。しかしAWS Lake Formationを利用すれば、データの置き場所とデータアクセス、セキュリティポリシーの設定をするだけでデータレイクの構築が可能です。そのため、最短数日でデータレイク環境を構築できます。
AWS Glue
AWS Glueは、データのETL(抽出・変換・書き出し)を行ってくれるフルマネージド型サービスです。データ統合時に必要なさまざまな作業を自動化できるほか、サーバーレスのためサーバー管理コストがかからないというメリットもあります。ETLジョブを並べ、ワークフローを組んでおけば自動化もできるため、新しいデータが入ったらすぐETL処理が実行されるような設定も実現可能です。
AWSデータウェアハウスツール
続いて、AWSでデータウェアハウスを構築する際に便利なサービスを紹介します。
AWS Redshift
AWS Redshiftは、AWSが提供するクラウドデータウェアハウスサービスです。「MPP(Massively Parallel Processing)」と呼ばれる超並列処理を採用しており、複数のノードで分散処理を行うことで、高速処理を実現しているのが特長です。そのおかげで、膨大なデータの分析や、複雑なクエリの実行もスムーズに行えます。
ユースケース
最後に、AWSを利用して実際にデータレイク・データウェアハウスを構築し、データ分析を行うことを想定した3つのユースケースを紹介します。
AWS上でデータレイクをスピーディーに構築したい場合
AWS上でスピーディーにデータレイクを構築したい場合は、さきほどご紹介したAWS Lake Formationを活用します。AWS Lake Formationで対象となるデータソースを指定後、データ加工・カタログ用のデータベースを作成し、ユーザーにアクセス権限を付与するだけでデータレイクに最低限必要な環境の構築が完了します。AWS Glueのジョブ設定やデータ分析に使用する他のAWSツールの設定を含めても、およそ数日でデータレイク環境を構築可能です。
なお、AWS Lake Formationを使用せずにAWS上で一からデータレイクを構築する場合、AWS IAM(Identity and Access Management)と呼ばれる、AWSの利用権限設定などを行う必要があります。IAMの権限設定の仕組みは複雑なため、専門的な知識が求められます。AWS Lake Formationを利用すれば、ツールの知識は必要になるものの、多くのケースでIAMによる複雑な権限設定から解放されるというメリットもあります。
新しいデータがS3に入ってきたら自動でETL処理を実行する仕組みを実現する場合
AWS Glueを使えば、S3に新しいデータが入ってきたことをトリガーにし、自動でETL処理を実行させる仕組みを実現できます。手順は簡単で、AWS GlueでETLジョブを作成した後、Lambda関数を使用します。「AWS S3上で新しく利用可能になったデータがあった場合、ETLジョブが実行される」というワークフローを構築するだけです。
また同時に、新たなデータセットをAWS Glueのデータカタログに自動で登録することも可能です。データカタログに登録しておけば、Amazon AthenaやAmazon EMRでの検索で利用できるようになります。
ちなみにAWSではAWS Glue Studioという、AWS Glueのジョブの作成やモニタリングを視覚的に行える「GUI(グラフィカルインターフェース)」のツールを提供しています。AWS Glue Studioを活用すれば、ほとんどコーディングなしでワークフローの構築・実行・監視を行うことができます。
突発的なトラフィックの急増に対応できる、サーバーレスのデータウェアハウスを構築する場合
サーバーレスのデータウェアハウスを構築する際は、Amazon Redshift Serverlessが役に立ちます。Amazon Redshift Serverlessを活用すれば、データウェアハウス(DWH)のインフラ管理は不要になります。トラフィック状況を監視し、必要に応じて自動でキャパシティーをスケーリングしてくれるため、余計なコストがかからない仕組みになっています。データ分析で起こりうる突発的なトラフィックの急増があっても、自動でスケールアップしてくれるので、コストを抑えつつも常に高いパフォーマンスで運用することが可能です。
なお、Amazon Redshiftにはクラスターと呼ばれる概念があり、Amazon Redshiftを用いてデータウェアハウスを構築する場合、利用規模に応じたインスタンスを選ぶ必要があります。Amazon Redshift Serverlessなら、クエリの実行時に自動でプロビジョニングを行い、必要に応じてスケールアップ・ダウンをしてくれるため、利用規模を気にせず気軽に利用できるというメリットもあります。
まとめ
このように、AWSが提供している各種サービスを組み合わせれば、自社のニーズに合った分析基盤システムを構築できます。しかしそれを実現し運用していくには、AWSに関する専門的な知識を持った人材が必要不可欠です。TOKAIコミュニケーションズでは、AWSを活用したデータ分析のサービスも提供しています。興味がある方はお気軽にご相談ください。
関連サービス
おすすめ記事
-
2020.06.23
Amazon Connectで在宅勤務でも対応できる問合せ窓口を立ち上げてみた
-
2020.08.17
Datadogで実現するモニタリングとオペレーションのオートメーション化
-
2020.04.27
Amazon FSx for Windows ファイルサーバーへの移行と活用方法
-
2020.06.11
Amazon WorkSpacesとは?その特長をまとめてみた
-
2020.06.23
AWSのDevOpsサービスと当社マネージドサービスを活用したDevOpsの実装①~概念編~