aws analytics services宿泊施設のマーケット価格についてリアルタイム分析を...
TRANSCRIPT
Amazon Web Services Japan, K. K.
AWS Analytics Services
Analytics に関して求められる事柄
データの種類やボリュームはどんどん増え続ける
多くのお客さまが,アクセス権限や運用手順を確立した上で,社員の誰もがデータを活用できるようにしたいと考えている
セキュリティとコストが,データを扱う上で非常に重要
定期レポートがリアルタイムに,そして未来予測を行えるように,といった形で分析に対するニーズが増してきている
お客さまは音声や映像の活用,さらに IoT との連携といった取り組みを行いたいと考えている
これまでの典型的な分析基盤のアーキテクチャ
OLTP ERP CRM LOB
Data Warehouse
Business Intelligence
リレーショナルなデータ
TBs-PBs のスケール
データをロードする前にスキーマが定義されている
定常的なレポートとアドホック分析
大きな設備投資 + TB あたり100-500万円の追加費用
用途に応じた処理手段の選択
Right tool for the right job
目的に合わせた基盤の構築
S3
Glue
Snowball Kinesis
Data Streams
Snowmobile Kinesis
Data Firehose
Redshift
EMR
Athena
Kinesis
Elasticsearch
Service
Data Lakes on AWS
SageMaker
Comprehend
Rekognition
耐久性も可用性も高く,EB スケール
セキュリティ & コンプライアンス,監査
オブジェクトレベルの詳細なアクセスコントロール
データの一部のみにアクセスすることで高速に処理
データを取り込む様々な方法をサポート
非常に多くのパートナーさまと連携
多岐にわたる分析・機械学習のサービス群
Data Lakes extend the traditional approach
OLTP ERP CRM LOB
Data Warehouse
Business
Intelligence
Data Lake
1001100001001010111001
0101011100101010000101
1111011010
0011110010110010110
0100011000010
Devices Web Sensors Social
Catalog
Machine
Learning
DW
Queries
Big data
processing
Interactive
analysis
Real-time
insights
リレーショナル + 非リレーショナルなデータ
TBs-EBs スケール
分析を行う際にスキーマが定義される
インサイトを得るための様々な種類の分析エンジン
低コストなデータの保存と分析
AWS Analytics Services
Insights
Analytics
Data Lake
Data Movement
QuickSight SageMaker
Glue(ETL & Data Catalog)
S3/Glacier(Storage)
Redshift EMR Athena
Elasticsearch Service Kinesis Data Analytics
Database Migration Service | Snowball | Snowmobile | Kinesis Data Firehose | Kinesis Data Streams
Real-time
Comprehend
DW Big data processing Interactive
Rekognition
Amazon Kinesis Dataフルマネージド型リアルタイム大規模ストリーミング処理
KDS: ストリームデータを処理・分析するためのデータを格納
KDF: S3, Redshift, ES, Splunk に,より簡単にストリームデータを格納
KDA: ストリームデータを標準的な SQL クエリで分析
Amazon Kinesis
Data StreamsAmazon Kinesis
Data Firehose
Amazon Kinesis
Data Analytics
AWS Glue完全マネージド型 ETL サービス
クローラーを走らせることで,データソースのスキーマを自動登録・更新
Python/Scala の Spark スクリプトを記述するだけでジョブを実行
データ管理も ETL ジョブ実行も,サーバレスで行うことが可能
Amazon Elasticsearch Serviceフルマネージドで信頼性の高いスケーラブルな Elasticsearch サービス
Elasticsarchクラスタを数分で立ち上げ,API コールで簡単にスケール
Logstash と Kibana が統合されており,Kinesis データを取得して可視化
ストリームデータをモニタリング・検索する用途に最適
Amazon EMRフルマネージドでスケーラブルな Hadoop クラスタ
Hadoop クラスタを数分で立ち上げ,API コールで簡単にスケール
S3 上のデータを読み込んでジョブを実行し,結果を S3 に出力
Spark, Hive, Presto, HBase などのミドルウェアを利用可能
Amazon Redshiftスケーラブルで高速なデータウェアハウス
MPP アーキテクチャと列指向データによるスケーラブルで高速なクエリ
最大 2PB までデータを腹持ちし,Spectrum で S3 上のデータも処理
堅牢なセキュリティと権限管理により分析の中心的存在に
Leader Node
Compute Nodes
SQL Client
BI Tools JDBC / ODBC
Driver
Spectrum Layer
Amazon Athenaサーバーレスでシンプルなインタラクティブクエリサービス
Glue カタログで登録した S3 上のテーブルを利用可能
あとは標準 SQL のクエリを投げるだけで,裏で Presto が処理を実行
スキャンデータ量のぶんだけ課金*
* 1TB スキャンにつき 5$ の料金.S3 上にデータが圧縮して置かれている場合,圧縮データサイズに対して課金
Amazon QuickSight高速な SPICE エンジンと直感的な操作,専門家不要の BI
AWS 内外のさまざまなデータソースと簡単に連携
利用ユーザー数を気にすることなく,GUI で高速な可視化を実行可能
SPICE*にデータを取り込むことで,より高速な動作
• Super-fast, Parallel, In-memory, Calculation Engine の略で,QuickSight内部に腹持ちするデータストアのこと
Data Lakes, Analytics, and IoT Portfolio from AWS
ストレージアーカイブデータカタログ
Machine Learning Analytics Internet of Things
マネージドML サービス
Deep Learning AMIs
画像・動画認識
対話インターフェース
ディープラーニングビデオカメラ
自然言語処理
言語翻訳
音声認識
音声合成
インタラクティブな分析
Hadoop & Spark
データウェアハウス
全文詮索
リアルタイム分析
ダッシュボードと可視化
AWS と接続されたデバイス
デバイスのローカル上で処理の実行
IoT デバイス向けの分析
エッジデバイス用のOS
デバイスに対する 1クリックのトリガー
クラウドのプログラマブルなボタン
マネージドなデバイスとの連携サービス
IoT デバイスのセキュリティ管理
Data Lake on AWS
Data Lakes, Analytics, and IoT Portfolio from AWS
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS IoT Core
AWS Greengrass
AWS IoT Analytics
Amazon FreeRTOS
AWS IoT 1-Click
AWS IoT Button
AWS IoT Device Management
AWS IoT Device Defender
Machine Learning Analytics Internet of Things
Amazon S3
Amazon Glacier
AWS Glue
Data Lake on AWS
セキュリティ & コンプライアンス
コンプライアンスセキュリティ 権限管理 暗号化
AWS Artifact
Amazon Inspector
Amazon Cloud HSM
Amazon Cognito
AWS CloudTrail
Amazon GuardDuty
AWS Shield
AWS WAF
Amazon Macie
VPC
AWS IAM
AWS SSO
Amazon Cloud
Directory
AWS Directory
Service
AWS Organizations
AWS Certification Manager
AWS Key
Management
Service
Encryption at rest
Encryption in
transit
Bring your own
keys, HSM support
さまざまな認証
CSACloud Security
Alliance Controls
ISO 9001Global Quality
Standard
ISO 27001Security Management
Controls
ISO 27017Cloud Specific
Controls
ISO 27018Personal Data
Protection
PCI DSS Level 1Payment Card
Standards
SOC 1Audit Controls
Report
SOC 2Security, Availability, &
Confidentiality Report
SOC 3General Controls
Report
Global United States
CJISCriminal Justice
Information Services
DoD SRGDoD Data P
rocessing
FedRAMPGovernment Data
Standards
FERPAEducational
Privacy Act
FIPSGovernment Security
Standards
FISMAFederal Information
Security Management
GxPQuality Guidelines
and Regulations
ISO FFIECFinancial Institutions
Regulation
HIPPAProtected Health
Information
ITARInternational Arms
Regulations
MPAAProtected Media
Content
NISTNational Institute of
Standards and Technology
SEC Rule 17a-4(f)Financial Data
Standards
VPAT/Section 508Accountability
Standards
Asia Pacific
FISC [Japan]Financial Industry
Information Systems
IRAP [Australia]Australian Security
Standards
K-ISMS [Korea]Korean Information
Security
MTCS Tier 3 [Singapore]Multi-Tier Cloud
Security Standard
My Number Act [Japan]Personal Information
Protection
Europe
C5 [Germany]Operational Security
Attestation
Cyber Essentials Plus [UK]Cyber Threat
Protection
G-Cloud [UK]UK Government
Standards
IT-Grundschutz
[Germany]Baseline Protection
MethodologyX P
G
AWS の基盤を活用いただいているお客さま
宿泊施設のマーケット価格についてリアルタイム分析を行っている.レガシーな SQL サーバーによる分析環境ではデータセットを作成するのに 24-46 時間かかっていた
Aurora, Redshift, Kinesis そして ElastiCacheによるアーキテクチャへとマイグレーションを実施
EC2
Aurora
ElastiCache(Redis)
Redshift
Kinesis
FirehoseS3
2 年ぶんの過去データに対する分析クエリ
リアルタイムデータに対する定常クエリ
ニアリアルタイムデータの配置
イベントの結合や比較
宿泊マーケットのストリームデータ
複数のストリームをインジェスト
オンプレミスにある参照データ
リアルタイム分析
複数のシステムから大量のデータを取得しており,オンプレミスのエンタープライズ DWH を運用し続けるコストが莫大になってしまっていた
オンプレミスの環境をクラウドに移行し,Redshift,
S3, EMR そして Athena による分析基盤を構築した
ETL process Redshift
データの前準備複数のソースからデータを取得
S3マーケティングデータ
その他のシステム
整形後データ
S3
Redshift
Athena
EMR
データレイクでの分析
FINRA のレガシーシステムはスケールしない構成だった
毎日 750 件のデータを処理する必要があった
複雑な監視目的のクエリを 20PB 以上のデータに実行
オンプレミスのアプライアンスから S3 データレイクに移行
EMR をデータのインジェストと処理の基盤として使用
RDBMS を RDS に移行し,Aurora を検証中
Exchange Data
• 12 の株式市場• 4 のオプション市場
SIP Data
• SIP trade
• SIP NBBO
• OPRA
Broker Dealer data
• 4000 以上の機関
Third Party Data
• ブルームバーグ• トムソン・ロイター• DTCC
• OCC
Management
Amazon S3 Amazon
Glacier
データ管理
データリネージュ
データの正規化
データの検証
Analytics
Amazon Redshift
Amazon EMR
Machine Learning
API API
RDS
IAM
KMS
利用状況
• 1 日あたり 33000
以上の Amazon
EC2 ノードを使用93% は EMR によるもの
• 20PB以上のストレージ(Amazon S3,
Amazon Glacier)
Structured and unstructured data
Millions of documents
25K data checks daily
Normalization
33,000 servers daily
Centralized data
Normalized data
Integrated data
Discoverable
Direct data query
ML/AI platforms
Applications/Visualizations
Turbo Tax というソフトウェアにおいて,アカウント乗っ取りや個人情報盗難などの不正なトランザクションを,ニアリアルタイムで検知したい
不正取引を検知する機械学習モデルを,オフラインで構築し,本番環境でオンラインで検知できるようにする
Amazon S3EMRKafkaAmazon
SageMakerTurbo Tax
ストリーミングデータ 特徴量の計算 –データの読み込み,整形,処理
特徴量の保存 –
学習データと参照データモデルの学習とホスティング リスクスコア
$