Kinesis Data StreamsとKinesis Data Firehoseの使い分け |【ウェブログ】独学でも大丈夫!AWS資格合格までのリアルな学習プロセス日記

現代ビジネスにおいて、リアルタイムのデータ処理は競争優位性を確立する上で不可欠です。IoTデバイス、クリックストリーム、アプリケーションログ、センサーデータなど、常に生成され続ける膨大なストリーミングデータをいかに効率的に収集・処理し、分析基盤へ届けるか。この課題を解決するために、AWSはAmazon Kinesisファミリーという強力なサービス群を提供しています。

その中でも特に利用頻度が高いのが、Amazon Kinesis Data Streams (KDS) と Amazon Kinesis Data Firehose (KDF) の二つです。これらはどちらもストリーミングデータを扱うサービスですが、その役割と得意分野は大きく異なります。KDSがデータの「流れる血管」として詳細な制御と多様な処理を可能にするのに対し、KDFはデータの「高速輸送パイプライン」として、特定の目的地へのデータ配信をシンプルかつ効率的に行います。

しかし、この違いを理解せずにどちらか一方を選んでしまうと、パフォーマンスのボトルネックや不必要なコスト増につながる可能性があります。本記事では、Amazon Kinesis Data StreamsとAmazon Kinesis Data Firehose、それぞれの基本的な概念から、そのアーキテクチャ上の決定的な違い、メリット、そして具体的な使い分けの指針までを分かりやすく解説します。あなたのリアルタイムデータ処理パイプラインを最適化するための、賢い選択基準を探求しましょう！

ストリーミングデータ処理の複雑性とKinesisの役割

リアルタイムのストリーミングデータを扱うシステムには、以下のような特有の課題が存在します。

高スループットと低レイテンシでの取り込み

瞬間的に増大するデータ量を高い信頼性で取り込む必要があります。

スケーラビリティ

データ量の急激な変動に柔軟に対応できる必要があります。

耐久性と可用性

データが失われることなく、常に利用可能な状態を維持する必要があります。

多様な処理ニーズ

リアルタイム分析、長期保存、機械学習への入力など、同じデータでも異なる処理が求められる場合があります。

複雑なインフラ管理

これらを実現するためのサーバーやクラスタの運用は、専門知識と労力を必要とします。

Amazon Kinesisファミリーは、これらの課題をAWSがフルマネージドで解決し、開発者がデータ処理ロジックに集中できる環境を提供します。

Amazon Kinesis Data Streams (KDS): データレイクの「流れる血管」

Kinesis Data Streamsは、秒間数メガバイトからテラバイトものデータを継続的に取り込み、保存し、複数のアプリケーションで並行して処理できるストリーミングデータ収集・処理の中心的なサービスです。データの永続性、厳密な順序保証、そして複数のコンシューマ（消費者）による並列処理を重視する場合に最適です。

主な特徴

シャードベースのスループット

ストリームは1つ以上の「シャード」で構成され、各シャードが書き込み（1MB/s または 1,000レコード/s）と読み込み（2MB/s）のスループット容量を提供します。必要なスループットに応じてシャード数をスケールアウト・インできます。

データの順序保証

同じパーティションキーを持つデータは常に同じシャードにルーティングされ、そのシャード内では厳密な順序が保証されます。

データ保持期間

データはデフォルトで24時間、最大で1年間保持されます。これにより、コンシューマが一時的にオフラインになった場合でもデータを再処理できます。

低レイテンシのプロデューサー/コンシューマAPI

KPL (Kinesis Producer Library) や KCL (Kinesis Client Library) を利用して、高効率なデータ書き込み・読み込みアプリケーションを構築できます。

複数のコンシューマ

同じストリームから、最大20個の異なるコンシューマアプリケーションが独立してデータを読み取ることができます。強化されたファンアウト (Enhanced Fan-Out) を利用すれば、各コンシューマが専用のスループットを得られます。

リアルタイム処理の基盤

AWS Lambda、Kinesis Data Analytics (SQL/Apache Flink)、EC2上のカスタムアプリケーションなどと連携し、複雑なリアルタイム分析や変換処理を構築できます。

得意なこと

データの順序が厳密に重要な場合。
複数のアプリケーションが同じストリームデータを異なる目的で並行して処理する必要がある場合。
データの変換や集計、フィルタリングなど、複雑なリアルタイム処理ロジックを適用したい場合。
データ保持期間を利用して、コンシューマが一時的に停止した場合のリカバリが必要な場合。

Amazon Kinesis Data Firehose (KDF): データの「高速輸送パイプライン」

Kinesis Data Firehoseは、ストリーミングデータを特定の宛先（Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Splunk, HTTPエンドポイントなど）に効率的に配信するためのフルマネージドサービスです。データの永続的な保存や複雑なリアルタイム処理よりも、簡潔なETLと確実なデータロードに焦点を当てています。

主な特徴

サーバーレスで自動スケーリング

インフラ管理は不要で、データ量に応じて自動的にスケーリングします。

簡単なセットアップ

数クリックでデータソースと宛先を指定するだけで、すぐに利用を開始できます。

宛先への直接配信

KDSのように明示的なコンシューマアプリケーションを開発する必要なく、設定した宛先にデータを直接配信します。

データ変換とバッチ処理

オプションでAWS Lambdaを利用したデータ変換（例：JSONからCSVへ、不要なフィールドの削除）をサポートします。

指定されたバッファサイズ（MB）またはバッファ時間（秒）に基づいてデータをバッチ処理し、まとめて宛先に書き込むことで、宛先サービスの負荷を軽減し、効率的なストレージを実現します。

圧縮と暗号化

S3への配信時に、Gzip、Snappy、ZIPなどの形式でデータを圧縮し、KMS (Key Management Service) を使用して暗号化できます。

エラーハンドリングとリトライ

配信エラーが発生した場合のリトライや、配信できないデータをS3にバックアップする機能を提供します。

得意なこと

ストリーミングデータをデータレイク (S3) やデータウェアハウス (Redshift)、検索サービス (OpenSearch Service) などにシンプルかつ効率的にロードしたい場合。
アプリケーションのログやメトリクスをほぼリアルタイムで分析ツールに取り込みたい場合。
データの前処理（変換、圧縮、暗号化）を簡単に実現したい場合。
データ量に応じて自動的にスケーリングする、運用負担の少ないサービスを求めている場合。

Kinesis Data Streams と Kinesis Data Firehose の比較と使い分け

特徴	Amazon Kinesis Data Streams (KDS)	Amazon Kinesis Data Firehose (KDF)
主な目的	リアルタイムデータの収集、永続的な保存、並列処理の基盤	ストリーミングデータの特定の宛先へのシンプルで効率的な配信
スケーリング	シャード数を手動またはAuto Scalingで調整	データ量に応じて完全に自動スケーリング
データ保持	24時間～1年 (デフォルト24時間)	なし (データはバッファリング後、すぐに宛先に配信される)
順序保証	シャード内で厳密に保証される	配信先での順序は保証されない（バッチ処理のため）
複数コンシューマ	複数の独立したアプリケーションが同じデータを読み込み可能	1つのFirehoseストリームは1つの宛先にデータを配信（ただし、S3に格納後、複数のサービスで利用可能）
データ変換	KCL/Lambda/KDA (Kinesis Data Analytics) でカスタムロジックを実装	オプションでLambdaを利用したシンプルな変換をサポート
API/開発	プロデューサー/コンシューマアプリケーションの開発が必要	APIでデータ投入、配信は自動。アプリケーション開発は不要な場合が多い
課金モデル	シャード時間 + PUTペイロードユニット	転送データ量 + Lambda変換処理時間
複雑度	やや高い（シャード管理、コンシューマ開発）	低い（設定ベース）

賢い使い分けのシナリオ

どちらのサービスを選ぶべきかは、あなたのストリーミングデータ処理の要件によって決まります。

KDSが最適なシナリオ

リアルタイムアドホック分析

データを取り込んだ後、様々なツール（Kinesis Data Analytics、Lambdaなど）でリアルタイムに集計・分析を行いたい。

複雑なリアルタイム処理

データに対して、リアルタイムで機械学習モデルを実行したり、複雑な変換ロジックを適用したりする必要がある。

厳密な順序保証が必要

イベントの発生順序がビジネスロジックにとって極めて重要である。

複数のダウンストリームアプリケーション

同じデータを、異なる目的で複数のサービス（例：リアルタイムダッシュボード、バッチ分析、MLモデルの再学習）に利用したい。

KDFが最適なシナリオ

シンプルにS3にロードしたい

ログデータやセンサーデータなどを、追加のリアルタイム処理をほとんど行わずにS3のデータレイクに格納したい。

運用を最小限に抑えたい

サーバーレスで自動スケーリングするソリューションを求めており、インフラ管理やコンシューマアプリケーション開発の負担を避けたい。

バッチでの効率的な格納

データウェアハウス（Redshift）や検索サービス（OpenSearch Service）など、バッチでデータをまとめてロードする方が効率的な宛先がある。

簡単なデータ変換

配信前にJSON形式をCSVに変換するなど、シンプルな前処理で十分な場合。

KDSとKDFの連携：両者の強みを活かす

多くの場合、KDSとKDFは排他的な選択ではなく、組み合わせて利用することでそれぞれの強みを最大限に引き出すことができます。例:

1 プロデューサー → Kinesis Data Streams (KDS)

KDSで、リアルタイムの異常検知やダッシュボード用のリアルタイム処理を行う

（Kinesis Data AnalyticsやLambdaで消費）。

同時に、KDSからKinesis Data Firehose (KDF) へデータを流す。

2 Kinesis Data Firehose (KDF) → Amazon S3

KDFがKDSから受け取ったデータをバッファリングし、圧縮してS3のデータレイクに効率的に格納する（長期保存やバッチ分析用）。

このアーキテクチャにより、リアルタイムの洞察と、長期的な分析のためのデータ格納の両方を、それぞれに最適な方法で実現できます。

まとめと今後のステップ

Amazon Kinesis Data StreamsとAmazon Kinesis Data Firehoseは、AWSにおけるストリーミングデータ処理の異なるレイヤーを担う、補完的なサービスです。KDSは「流れる血管」として、順序保証と多様なリアルタイム処理を可能にする柔軟な基盤を提供し、KDFは「高速輸送パイプライン」として、運用負担を最小限に抑えつつデータを効率的に宛先に配信します。あなたのストリーミングデータ処理パイプラインの要件を明確にし、KDSとKDFそれぞれの特性を理解することで、最適なサービスを選択し、または両者を効果的に組み合わせて活用することが可能になります。これにより、データからリアルタイムで価値を引き出し、ビジネスの競争力を強化できるでしょう。

Kinesis Data StreamsとKinesis Data Firehoseの使い分け