AWS Data Pipeline

Nov 4, 2020

--

AWS 資料匯入、匯出 Data Pipeline

按照 activity 以及條件頻率來進行計費, 例如: 高頻 (每6小時或者每12小時執行一次等)；低頻 ( 1 天執行一次抑或是更少次數)

匯入資料

ps: 先將 csv 檔案上傳至 s3, 然後再透過 data pipeline 將資料從 s3 匯至 dynamodb, 在中間會先建立一台 EMR, 流程圖如下

創建 pipeline
輸入 pipeline 名稱以及選擇來源

3. 有一些 source, Export DynamoDB table to S3

4. 可以設定 pipeline logging (需設定)

5 接著案 edit architect 會看到以下畫面

6. 因為我們上面使用 import DynamoDB backup from S3, 所以 activity 會是 EMR Activity , 我們先將此改為 HiveActivity 以及相關配置, 如下圖

ps: Output 到 DynamoDB
ps: Input 是從 S3InputDataNode
ps: Hive Script: 從 input 抓取資料 overwrite 資料調 DynamoDB

7. 接著看一下 DataNode

ps: Region 記得選 DynamoDB 的 region
ps 這邊的 #{myDDBTableName} 是讀取這個名稱的變數, 等等在 Parameter 會看到
ps: 且要定義輸出的資料格式 DefaultDynamoDBDataFormat

ps: 設定 DirectoryPath 讀取 #{myInputS3Loc} 變數
ps: 設定 DataFormat 為 DefaultDataFormat1 所設定的資料欄位

8. 設定 EMR Resource

ps: 設定核心數等以及地區甚至是多久後將此機器關閉

9. 設定 DynamoDB 的 data format

ps: 設定 DynamoDB 資料欄位

10. 剛剛在前面設定的 s3 log 會在這邊看到

11. 設定 S3 Dataformat

12. 而有些參數可以在 Parameters 看到

13. 儲存後可以立馬 Activiate

14. 可以在此看到跑的情況

可能在執行 Pipeline 會需要點時間

參考資料:

AWS Data Pipeline 定價 - 受管 ETL 服務 - Amazon Web Services

AWS Data Pipeline 是按照活動和先決條件排程的執行頻率和位置 (AWS 或現場部署) 計費。高頻活動是排定在一天執行多次的活動，例如，排定每小時或每 12…

aws.amazon.com

使用 AWS Data Pipeline 匯出和匯入 DynamoDB 資料

若我們提供該指南英語版本的翻譯，在有任何牴觸的狀況下請以英文版本的指南為主。其透過機器翻譯提供翻譯。您可以使用 AWS Data Pipeline 將 DynamoDB 資料表中的資料匯出至 Amazon S3…

docs.aws.amazon.com

使用AWS Data Pipeline处理数据_aws0to1的博客-CSDN博客

Data Pipeline的主角是数据。 AWS上提供了多种服务来存储、处理数据，S3，EMR，Redshift，RDS，DynamoDB。 Pipeline就是帮用户在这么多种数据源上进行处理。…

blog.csdn.net

amazon-archives/data-pipeline-samples

This repository hosts sample pipelines. Contribute to amazon-archives/data-pipeline-samples development by creating an…

github.com

使用 AWS Data Pipeline 导出和导入 DynamoDB

如果我们为英文版本指南提供翻译，那么如果存在任何冲突，将以英文版本指南为准。在提供翻译时使用机器翻译。您可以使用 AWS Data Pipeline 将 DynamoDB 表中的数据导出到 Amazon S3…

docs.aws.amazon.com

Written by Gary Ng

軟體工程師、後端工程師

No responses yet

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams