Event / Seminar イベント・セミナー

次世代データ基盤『レイクハウス』とAmazon SageMaker Unified Studio 受付終了
  • ビジネス
  • テクノロジー
  • データドリブン経営
  • データ活用
  • ソリューション

NTT DATA Next Gen Future vol.53

次世代データ基盤『レイクハウス』とAmazon SageMaker Unified Studio

  • オンライン
  • 無料

データ活用が急速に進化する中、最適なデータ基盤の構築と高度なデータ・AI活用は、企業の競争力を左右する重要な要素となっています。本講演では、最先端のデータプラットフォームの動向を交えながら、次世代データプラットフォームである「レイクハウス」と、これを支えるAWSの最新サービス「Amazon SageMaker Unified Studio」の導入メリットについて詳しく解説します。さらに、Amazon SageMaker Unified Studioを活用した実践的なユースケースやデモを通じて、データ集積・蓄積から機械学習によるAI開発までのEnd to Endのプロセスを通じ、データ活用の可能性をご紹介します。データ活用・AI導入を加速させたい企業の皆様は、ぜひご参加ください。

このような方におすすめ

  • データ・AIの利活用を検討されている方
  • データ・AIプラットフォームの最新動向に関心にある方

NTTデータ ソリューション事業本部 齋藤 祐希  ※同時出演者:小見山 玖嘉

データ分析基盤、AI推論基盤などデータ・AIの利活用に関わるシステム開発に長年従事。いち早く「データレイクハウス」に注目し、BIだけでなく、AI・生成AIによるデータの価値を高めるべく、AWSやDatabricksといったソリューションを推進。Japan AWS Top Engieer、Databricks

セミナーレポート

従来のデータ基盤の課題とデータレイクハウスの台頭

近年、企業におけるデータ活用の幅が急激に広がっています。統計解析やBIに加え、現在では生成AIの活用も当たり前になりつつあります。このような背景のもと、システム管理者、データエンジニア、データサイエンティストに加えて、生成AIエンジニアなど、多様なロールの方がデータを活用するようになっています。 

その結果、データ分析基盤に求められる要件も高度化・多様化しています。従来はETLツール、DWH、データレイク、BIツール、機械学習、生成AIといった個別のサービスを組み合わせ、ビルディングブロックで構築していました。ユースケースの増加に伴い、組み合わせるサービスも増え、いくつか課題が浮上しています  

  • 複数サービス/UIの使いこなしの難しさと生産性の低下

たとえば、データエンジニアが構造化データをAWS Glueで分析し、非構造化データをGlueで処理し、Amazon Quicksightで可視化し、さらにAWS Step Functionsでパイプライン化する、といった煩雑な操作が求められます。難易度が高いだけではなく、複数サービスを行き来するため生産性が低下します。 

  • 複数サービスを横断する構成管理の難しさ

類似の言語(例:SQLPython)を使うツールが混在するため、スクリプトの管理も多重管理になりがちであり複雑化します。 

  • 管理者のシステム構築・運用の負担増加

管理者視点でも、サービスが増えるほど設計や構築の難易度が高まります。IAMVPCなどのセキュリティ・ネットワーク設計・構築はサービスごとに異なり、共通ポリシーを設計するには個々のサービスについて高度な知識が求められます。さらに、サービスごとの運用(バージョンアップ、リソース管理、性能チューニング、コスト管理)も検討する必要があります。 

  • 複数サービスのデータのサイロ化

DWHは独自のフォーマットでデータを保存し、データレイクはオープンフォーマットでデータを格納します。データ分析では、これら異なる形式のデータを横断的に扱う必要があり、データの移動や同期が必要になりますしかし、データ量が増加する現在、これらの処理は複雑かつコストも高く、データの重複や整合性の問題が発生しやすくなっています。 

  • 複数サービスのアクセス制御の難しさ

DWHはテーブルベースで細かなアクセス制御が可能ですが、データレイクではファイルやディレクトリへのアクセス制御が主流です。セキュリティモデルが異なるため、データ移動時に機密情報が誤って公開されたりしないよう注意する必要もあります。

Slide1.jpg

こうした課題に解決するために、複数のユースケース(データエンジニアリング、BIAI、生成AI)を1箇所で管理できるよう「データレイクハウス」アーキテクチャと呼ばれるオールインワンのプラットフォームが登場してきました。 

データレイクハウスは、データウェアハウスとデータレイクを組み合わせた造語です。DWHのデータ管理やACIDトランザクション機能と、データレイクの柔軟性、経済性、スケーラビリティを取り入れた新しいデータ基盤です。データレイクハウス・オールインワンはDatabricks社が提唱しはじめたもので、NTTデータはいち早くパートナー契約を結び20251月には出資も行うなど強固なアライアンスを築いています。 

Slide2.jpg

今回ご紹介するAmazon SageMaker Unified Studioは、AWSのデータレイクハウスアーキテクチャのオールインワンプラットフォームです。S3上にIceberg形式でデータを一元管理し、複数のユースケースにワンプラットフォームで対応します。UI1つに統合され効率的に分析を行えます。  

データレイクハウスの導入事例

Databricksを用いた事例をご紹介します。とあるお客様では、DWHを中心に据えたデータ分析基盤を運用し、BIでのデータ活用に成功していました。しかしAI活用が始まると、新たな課題が発生しました。 

AIに必要なデータは通常、ファイル形式であり、DWHでのSQL処理だけでは対応しきれません。結果として、データサイエンティストがデータをローカルにダウンロードし、加工・学習を行う必要が生じ、データ転送時間やディスク容量の増加、学習処理ではハイスペックなローカル環境が必要、ダウンロードによりデータガバナンスが失われる、といった課題に直面していきました。 

これを回避するために、Amazon AthenaAmazon SageMakerAIを組み合わせることも試みましたが、データのバケツリレーが発生して効率が悪い、習熟が難しいといった課題が残りました。これらの悩みを解決できるのが、データレイクハウス オールインワンプラットフォームでした。BIからAIにユースケース拡張を考えられているお客様は採用を検討されることをおすすめします。 

Slide3.jpg

Amazon SageMaker Unified Studioに関する取り組み

我々のチームは「Trusted Data Foundation」というブランド名で、長年にわたりデータ分析を構築するソリューションを提供してきました。しかしお客様の課題をすべて解消できないという悩みを持っていたところに、データレイクハウスを知り、普及活動を加速させてきました。そしてAWS様からデータレイクハウスサービスがリリースされるということで、意見交換をしながらクォートの寄稿AWS様と共同での技術検証記事などの執筆などを行っております。 

Slide4.jpg

Amazon SageMaker Unified Studioのデモ

機械学習モデル開発における一連の流れをAmazon SageMaker 

Unified Studioを使ってどのように効率化できるか、デモを交えてご紹介します。 

これまでAWSを使った機械学習モデルの開発では、システム管理者・データエンジニア・データサイエンティストがそれぞれ異なるサービスを用いて作業する必要があり、非常に煩雑でした。たとえば、アクセス制御にはIAMWS Lake Formation 

を利用し、さらにVPCなどでインフラ構築をする必要がありました。またデータサイエンティストはAthenaAWSGlue、機械学習モデル開発にはAmazon SageMaker AIを使い、パイプライン化にはAmazon MWAAなどのワークフローツール、といった具合で、組み合わせるサービスが増えるほど認証方式やアクセス制御などの設計が必要になり、複雑な運用とセキュリティ対策が求められてきました。 

この複雑さを解消するために登場したのがAmaozn SageMakeUnified Studioです。システム管理者はすべての機能を1度に構築可能で運用や管理が容易になり、利用者にとっては統一的なUIで利用のハードルが低いというメリットもあります。 

まず、環境構築ではシステム管理者が「プロジェクト」という単位で機械学習環境を払い出しします。これまでは都度、分析者の依頼に基づき個別対応が必要でしたが、Unified Studioでは数クリックで環境を作成可能です。プロジェクトテンプレートを選ぶだけで必要なAWSリソースが自動的に構築されるため、迅速な立ち上げが可能になります。 

Slide5.jpg

続いて、データエンジニアが行うデータ探索についてです。Unified Studioでは統合されたデータカタログ機能を使うことで、キーワード検索で横断的にデータを発見・確認できます。メタデータを使った検索も可能です。これまではAmazon 

Amazonなどに分散したデータにアクセスするのに複数のサービスを横断する必要がありましたが、これらのデータを1つの画面から探索できるようになりました。またデータの可視化もクリック操作で可能です。 

次はデータ加工プロセスです。Unified Studioではノートブック上でGlueを使ったコーディングを実施するとデータ加工処理の開発が可能です。Amazon RedshiftAmazon EMRを活用した加工処理も1つの画面で行えます。これまで分散していたコードが1つの場所に集約され、利用しやすくなります。 

データサイエンティストによる機械学習モデルの開発も、同じノートブック上で、Unified Studioに統合されたAmazon SageMakerAIを利用して行います。  

学習結果の管理はTraining Jobを使い、学習したモデルはエンドポイント機能を用いて2クリックでAPI化され、機械学習モデルを業務アプリケーションに組み込むことができます。 

そしてパイプライン化ですが、学習モデルはデータの変化に対応するために定期的に再学習させる必要があり、再学習を自動化するためのパイプライン化を行います。Unified Studioではデータサイエンティスト自らパイプライン開発が行えます。 

まとめ

Amazon SageMakerUnified Studioはデータ管理、BI、機械学習など多様なユースケースに対応し、従来のビルディングブロックの煩雑な構成を大きく簡素化します。とくに、BIからAIへと活用を拡張しようとするお客様にとって、ご利用をぜひご検討いただければと思います。 

ただしUnified Studioはあくまでツールであり、実際に使いこなすにはデータマネジメントやMLOpsといった専門知識が欠かせません。NTTデータではそうした領域への支援も行っておりますので、ご関心があればぜひお問い合わせください。 

Slide6.jpg

Event to be held

近日開催予定のセミナー

Related events

過去のセミナー

セミナーレポート一覧へ