Event / Seminar イベント・セミナー

次世代データ基盤『レイクハウス』とAmazon SageMaker Unified Studio

受付終了

ビジネス
テクノロジー
データドリブン経営
データ活用
ソリューション

NTT DATA Next Gen Future vol.53

次世代データ基盤『レイクハウス』とAmazon SageMaker Unified Studio

開催日時：2025/03/27(木) 12:00 - 12:30

オンライン
無料

データ活用が急速に進化する中、最適なデータ基盤の構築と高度なデータ・AI活用は、企業の競争力を左右する重要な要素となっています。本講演では、最先端のデータプラットフォームの動向を交えながら、次世代データプラットフォームである「レイクハウス」と、これを支えるAWSの最新サービス「Amazon SageMaker Unified Studio」の導入メリットについて詳しく解説します。さらに、Amazon SageMaker Unified Studioを活用した実践的なユースケースやデモを通じて、データ集積・蓄積から機械学習によるAI開発までのEnd to Endのプロセスを通じ、データ活用の可能性をご紹介します。データ活用・AI導入を加速させたい企業の皆様は、ぜひご参加ください。

このような方におすすめ

・データ・AIの利活用を検討されている方
・データ・AIプラットフォームの最新動向に関心にある方

NTTデータ　ソリューション事業本部齋藤　祐希　　※同時出演者：小見山　玖嘉

データ分析基盤、AI推論基盤などデータ・AIの利活用に関わるシステム開発に長年従事。いち早く「データレイクハウス」に注目し、BIだけでなく、AI・生成AIによるデータの価値を高めるべく、AWSやDatabricksといったソリューションを推進。Japan AWS Top Engieer、Databricks

従来のデータ基盤の課題とデータレイクハウスの台頭

近年、企業におけるデータ活用の幅が急激に広がっています。統計解析やBIに加え、現在では生成AIの活用も当たり前になりつつあります。このような背景のもと、システム管理者、データエンジニア、データサイエンティストに加えて、生成AIエンジニアなど、多様なロールの方がデータを活用するようになっています。

その結果、データ分析基盤に求められる要件も高度化・多様化しています。従来はETLツール、DWH、データレイク、BIツール、機械学習、生成AIといった個別のサービスを組み合わせ、ビルディングブロックで構築していました。ユースケースの増加に伴い、組み合わせるサービスも増え、いくつか課題が浮上しています

複数サービス/UIの使いこなしの難しさと生産性の低下

たとえば、データエンジニアが構造化データをAWS Glueで分析し、非構造化データをGlueで処理し、Amazon Quicksightで可視化し、さらにAWS Step Functionsでパイプライン化する、といった煩雑な操作が求められます。難易度が高いだけではなく、複数サービスを行き来するため生産性が低下します。

複数サービスを横断する構成管理の難しさ

類似の言語（例：SQLとPython）を使うツールが混在するため、スクリプトの管理も多重管理になりがちであり複雑化します。

管理者のシステム構築・運用の負担増加

管理者視点でも、サービスが増えるほど設計や構築の難易度が高まります。IAMやVPCなどのセキュリティ・ネットワーク設計・構築はサービスごとに異なり、共通ポリシーを設計するには個々のサービスについて高度な知識が求められます。さらに、サービスごとの運用（バージョンアップ、リソース管理、性能チューニング、コスト管理）も検討する必要があります。

複数サービスのデータのサイロ化

DWHは独自のフォーマットでデータを保存し、データレイクはオープンフォーマットでデータを格納します。データ分析では、これら異なる形式のデータを横断的に扱う必要があり、データの移動や同期が必要になりますしかし、データ量が増加する現在、これらの処理は複雑かつコストも高く、データの重複や整合性の問題が発生しやすくなっています。

複数サービスのアクセス制御の難しさ

DWHはテーブルベースで細かなアクセス制御が可能ですが、データレイクではファイルやディレクトリへのアクセス制御が主流です。セキュリティモデルが異なるため、データ移動時に機密情報が誤って公開されたりしないよう注意する必要もあります。

こうした課題に解決するために、複数のユースケース(データエンジニアリング、BI、AI、生成AI)を1箇所で管理できるよう「データレイクハウス」アーキテクチャと呼ばれるオールインワンのプラットフォームが登場してきました。

データレイクハウスは、データウェアハウスとデータレイクを組み合わせた造語です。DWHのデータ管理やACIDトランザクション機能と、データレイクの柔軟性、経済性、スケーラビリティを取り入れた新しいデータ基盤です。データレイクハウス・オールインワンはDatabricks社が提唱しはじめたもので、NTTデータはいち早くパートナー契約を結び2025年1月には出資も行うなど強固なアライアンスを築いています。

今回ご紹介するAmazon SageMaker Unified Studioは、AWSのデータレイクハウスアーキテクチャのオールインワンプラットフォームです。S3上にIceberg形式でデータを一元管理し、複数のユースケースにワンプラットフォームで対応します。UIも1つに統合され効率的に分析を行えます。

データレイクハウスの導入事例

Databricksを用いた事例をご紹介します。とあるお客様では、DWHを中心に据えたデータ分析基盤を運用し、BIでのデータ活用に成功していました。しかしAI活用が始まると、新たな課題が発生しました。

AIに必要なデータは通常、ファイル形式であり、DWHでのSQL処理だけでは対応しきれません。結果として、データサイエンティストがデータをローカルにダウンロードし、加工・学習を行う必要が生じ、データ転送時間やディスク容量の増加、学習処理ではハイスペックなローカル環境が必要、ダウンロードによりデータガバナンスが失われる、といった課題に直面していきました。

これを回避するために、Amazon AthenaやAmazon SageMakerAIを組み合わせることも試みましたが、データのバケツリレーが発生して効率が悪い、習熟が難しいといった課題が残りました。これらの悩みを解決できるのが、データレイクハウスオールインワンプラットフォームでした。BIからAIにユースケース拡張を考えられているお客様は採用を検討されることをおすすめします。

Amazon SageMaker Unified Studioに関する取り組み

我々のチームは「Trusted Data Foundation」というブランド名で、長年にわたりデータ分析を構築するソリューションを提供してきました。しかしお客様の課題をすべて解消できないという悩みを持っていたところに、データレイクハウスを知り、普及活動を加速させてきました。そしてAWS様からデータレイクハウスサービスがリリースされるということで、意見交換をしながらクォートの寄稿、AWS様と共同での技術検証記事などの執筆などを行っております。

Amazon SageMaker Unified Studioのデモ

機械学習モデル開発における一連の流れをAmazon SageMaker

Unified Studioを使ってどのように効率化できるか、デモを交えてご紹介します。

これまでAWSを使った機械学習モデルの開発では、システム管理者・データエンジニア・データサイエンティストがそれぞれ異なるサービスを用いて作業する必要があり、非常に煩雑でした。たとえば、アクセス制御にはIAMやWS Lake Formation

を利用し、さらにVPCなどでインフラ構築をする必要がありました。またデータサイエンティストはAthenaやAWSGlue、機械学習モデル開発にはAmazon SageMaker AIを使い、パイプライン化にはAmazon MWAAなどのワークフローツール、といった具合で、組み合わせるサービスが増えるほど認証方式やアクセス制御などの設計が必要になり、複雑な運用とセキュリティ対策が求められてきました。

この複雑さを解消するために登場したのがAmaozn SageMakeUnified Studioです。システム管理者はすべての機能を1度に構築可能で運用や管理が容易になり、利用者にとっては統一的なUIで利用のハードルが低いというメリットもあります。

まず、環境構築ではシステム管理者が「プロジェクト」という単位で機械学習環境を払い出しします。これまでは都度、分析者の依頼に基づき個別対応が必要でしたが、Unified Studioでは数クリックで環境を作成可能です。プロジェクトテンプレートを選ぶだけで必要なAWSリソースが自動的に構築されるため、迅速な立ち上げが可能になります。

続いて、データエンジニアが行うデータ探索についてです。Unified Studioでは統合されたデータカタログ機能を使うことで、キーワード検索で横断的にデータを発見・確認できます。メタデータを使った検索も可能です。これまではAmazon

やAmazonなどに分散したデータにアクセスするのに複数のサービスを横断する必要がありましたが、これらのデータを1つの画面から探索できるようになりました。またデータの可視化もクリック操作で可能です。

次はデータ加工プロセスです。Unified Studioではノートブック上でGlueを使ったコーディングを実施するとデータ加工処理の開発が可能です。Amazon RedshiftやAmazon EMRを活用した加工処理も1つの画面で行えます。これまで分散していたコードが1つの場所に集約され、利用しやすくなります。

データサイエンティストによる機械学習モデルの開発も、同じノートブック上で、Unified Studioに統合されたAmazon SageMakerAIを利用して行います。

学習結果の管理はTraining Jobを使い、学習したモデルはエンドポイント機能を用いて2クリックでAPI化され、機械学習モデルを業務アプリケーションに組み込むことができます。

そしてパイプライン化ですが、学習モデルはデータの変化に対応するために定期的に再学習させる必要があり、再学習を自動化するためのパイプライン化を行います。Unified Studioではデータサイエンティスト自らパイプライン開発が行えます。

まとめ

Amazon SageMakerUnified Studioはデータ管理、BI、機械学習など多様なユースケースに対応し、従来のビルディングブロックの煩雑な構成を大きく簡素化します。とくに、BIからAIへと活用を拡張しようとするお客様にとって、ご利用をぜひご検討いただければと思います。

ただしUnified Studioはあくまでツールであり、実際に使いこなすにはデータマネジメントやMLOpsといった専門知識が欠かせません。NTTデータではそうした領域への支援も行っておりますので、ご関心があればぜひお問い合わせください。

お問い合わせはこちら
お問い合わせはこちら
本セミナーのアーカイブ動画を
ご視聴いただけます
動画視聴のお申し込みはこちら

セミナーレポート一覧へ

近日開催予定のセミナー

受付中
レガシーからAIまで　ー激変するデータセンターにおける課題とこれからのアプローチー
開催日時：2025/09/03(水) 12:00 - 12:30
お申し込み受付中
受付中
SAP Business Data Cloudの最大活用～予知経営を支える次世代データ基盤の使い方～
開催日時：2025/09/25(木) 12:00 - 13:00
セミナーレポートを見る

Related events

過去のセミナー

受付終了 Finished
LITRON® Sales最新動向・事例紹介　～セールス領域における生成AIによる飛躍的成果創出のカギ
開催日時：2025/07/31(木) 12:00 - 12:30
セミナーレポート準備中
受付終了 Finished
日本のモノづくりDNAとグローバル技術革新が拓く未来のスマートファクトリー
開催日時：2025/06/19(木) 12:00 - 13:20
セミナーレポート準備中
受付終了 Finished
- ビジネス
生産領域における業務・情報のサイロ化を解決!製薬業界における品質保証業務の最適化
開催日時：2023/09/08(金) 12:00 - 12:30
セミナーレポートを見る

セミナーレポート一覧へ

Event / Seminar イベント・セミナー

次世代データ基盤『レイクハウス』とAmazon SageMaker Unified Studio

このような方におすすめ

NTTデータ　ソリューション事業本部齋藤　祐希　　※同時出演者：小見山　玖嘉

セミナー内容

従来のデータ基盤の課題とデータレイクハウスの台頭

データレイクハウスの導入事例

Amazon SageMaker Unified Studioに関する取り組み

Amazon SageMaker Unified Studioのデモ

まとめ

お問い合わせはこちら

本セミナーのアーカイブ動画を
ご視聴いただけます

関連サービス

Trusted Data Foundation®についてはこちら

AI・データの民主化を促進するデータ分析基盤の提供を開始についてはこちら

近日開催予定のセミナー

レガシーからAIまで　ー激変するデータセンターにおける課題とこれからのアプローチー

SAP Business Data Cloudの最大活用～予知経営を支える次世代データ基盤の使い方～

過去のセミナー

LITRON® Sales最新動向・事例紹介　～セールス領域における生成AIによる飛躍的成果創出のカギ

日本のモノづくりDNAとグローバル技術革新が拓く未来のスマートファクトリー

生産領域における業務・情報のサイロ化を解決!製薬業界における品質保証業務の最適化

Event / Seminar イベント・セミナー

次世代データ基盤『レイクハウス』とAmazon SageMaker Unified Studio

このような方におすすめ

NTTデータ ソリューション事業本部 齋藤 祐希 ※同時出演者：小見山 玖嘉

セミナー内容

従来のデータ基盤の課題とデータレイクハウスの台頭

データレイクハウスの導入事例

Amazon SageMaker Unified Studioに関する取り組み

Amazon SageMaker Unified Studioのデモ

まとめ

お問い合わせはこちら

本セミナーのアーカイブ動画をご視聴いただけます

関連サービス

Trusted Data Foundation®についてはこちら

AI・データの民主化を促進するデータ分析基盤の提供を開始についてはこちら

近日開催予定のセミナー

レガシーからAIまで ー激変するデータセンターにおける課題とこれからのアプローチー

SAP Business Data Cloudの最大活用 ～予知経営を支える次世代データ基盤の使い方～

過去のセミナー

LITRON® Sales最新動向・事例紹介 ～セールス領域における生成AIによる飛躍的成果創出のカギ

日本のモノづくりDNAとグローバル技術革新が拓く未来のスマートファクトリー

生産領域における業務・情報のサイロ化を解決!製薬業界における品質保証業務の最適化

NTTデータ　ソリューション事業本部齋藤　祐希　　※同時出演者：小見山　玖嘉

本セミナーのアーカイブ動画を
ご視聴いただけます

レガシーからAIまで　ー激変するデータセンターにおける課題とこれからのアプローチー

SAP Business Data Cloudの最大活用～予知経営を支える次世代データ基盤の使い方～

LITRON® Sales最新動向・事例紹介　～セールス領域における生成AIによる飛躍的成果創出のカギ