AWS Glue에 대해 몰랐던 사실

Amazon Glue는 많은 회사에서 관리형 데이터 통합 ​​서비스를 사용하기 시작했기 때문에 인기를 얻고 있습니다.

ETL은 소스 데이터베이스에서 데이터 웨어하우스로 데이터를 전송하는 프로세스입니다. ETL은 복잡하기 때문에 모든 엔터프라이즈 데이터에 대해 복잡하고 구현하기 어렵습니다. Amazon은 이 문제를 해결하기 위해 AWS Glu를 도입했습니다.

ETL 개발자와 데이터 엔지니어는 Glue를 사용하여 ETL 워크플로를 구축, 모니터링 및 실행합니다.

AWS Glue란 무엇입니까?

서버리스 데이터 통합 ​​서비스인 AWS Glue를 사용하면 여러 소스에서 데이터를 쉽게 찾고, 준비하고, 이동하고, 통합할 수 있습니다. 이는 머신 러닝(ML) 및 분석에 유용합니다.

분석을 위해 데이터를 준비하는 데 필요한 시간을 크게 단축합니다. 자동으로 데이터를 찾아 나열하고 소스에서 데이터를 전송하기 위해 Scala 또는 Python 코드를 생성하고 시간 제한 이벤트에 따라 작업을 로드 및 변환합니다.

이는 유연한 일정을 허용하고 대상 데이터 로드에 맞게 확장할 수 있는 Apache Spark 환경을 만듭니다. 또한 AWS Glue는 복잡한 데이터 스트림 모니터링 및 변경을 제공합니다. AWS Glue는 애플리케이션 개발의 복잡한 작업을 단순화하는 서버리스 서비스입니다.

여러 유효한 데이터를 빠르게 통합할 수 있습니다. 또한 데이터를 빠르게 분해하고 인증합니다.

AWS Glu는 무엇에 사용됩니까?

Amazon Glue를 사용하기 가장 좋은 장소를 아는 것이 중요합니다. 다음은 고려해야 할 AWS Glue 사용의 몇 가지 예일 뿐입니다.

  • Glue는 Amazon S3 데이터 레이크에서 서버리스 쿼리를 실행할 수 있는 도구입니다. Amazon Glu는 시작하기에 좋은 도구입니다. 하나의 인터페이스에서 모든 데이터에 액세스할 수 있으므로 이동하지 않고도 데이터를 분석할 수 있습니다.
  • Amazon Glue를 사용하여 데이터 자산을 이해할 수 있습니다. Amazon Glu를 사용하면 데이터 카탈로그를 사용하여 다양한 AWS 데이터 세트를 쉽게 검색할 수 있습니다. 일관된 보기를 유지하면서 Data Catalog를 사용하여 여러 AWS 서비스에 걸쳐 데이터를 저장할 수도 있습니다.
  • Glue는 이벤트 기반 ETL 워크플로를 구축할 때 유용할 수 있습니다. AWS Lambda 서비스를 통해 Glue ETL 작업을 호출하여 Amazon S3에서 ETL 작업을 실행할 수 있습니다.
  • AWS Glue는 데이터 레이크 또는 웨어하우스에 저장할 데이터를 정리, 확인, 형식 지정 및 구성하는 데 사용할 수도 있습니다.

AWS Glue의 구성 요소는 무엇입니까?

다음은 AWS Glue의 주요 구성 요소입니다.

  • 데이터 카탈로그: 이 데이터 카탈로그에는 메타데이터와 데이터 구조가 포함되어 있습니다.
  • 데이터베이스: 소스 및 대상에 대한 데이터베이스에 액세스하고 생성하기 위한 키입니다.
  • 테이블: 대상과 소스 모두에서 사용할 수 있는 하나 이상의 테이블을 데이터베이스에 생성합니다.
  • 크롤러 및 분류기: 크롤러는 기본 제공 또는 사용자 정의 분류를 사용하여 소스에서 데이터를 검색합니다. 데이터 카탈로그에 미리 정의된 메타데이터 테이블을 생성/사용합니다.
  • 작업: ETL 작업을 수행하는 비즈니스 로직의 작업입니다. 이 비즈니스 로직은 Python 및 스칼라 언어를 사용하여 Apache Spark에서 내부적으로 작성되었습니다.
  • 트리거: ETL 트리거는 요청 시 또는 특정 시간에 ETL 작업 실행을 시작하는 장치입니다.
  • 개발을 위한 끝점: ETL 작업 스크립트가 테스트, 개발 및 디버깅되는 환경을 만듭니다.
  참여 및 수익 증대를 위한 11가지 디지털 마케팅 도구

AWS Glue의 이점

직장이나 조직 내에서 사용할 때의 이점입니다.

  • AWS Glue는 크롤러에서 사용 가능한 모든 데이터를 스캔합니다.
  • 최종 처리된 데이터는 여러 위치(Amazon RDS 및 Amazon Redshift, Amazon S3 등)에 저장할 수 있습니다.
  • 클라우드 기반 서비스입니다. 온프레미스 인프라에 돈을 쓸 필요가 없습니다.
  • 서버리스 ETL이기 때문에 비용 효율적인 선택입니다.
  • 빠릅니다. 즉시 Python/Scala ETL 코드를 제공합니다.

AWS Glue의 주요 기능은 무엇입니까?

Amazon Glue에는 데이터를 통합하는 데 필요한 모든 기능이 있으므로 더 나은 통찰력을 얻고 지식을 사용하여 몇 달이 아닌 몇 분 만에 새로운 발전을 이룰 수 있습니다. 다음은 알아야 할 몇 가지 기능입니다.

  • 끌어서 놓기 인터페이스: 끌어서 놓기 작업 편집기를 사용하면 ETL 프로세스를 만들 수 있습니다. AWS Glue는 데이터를 추출, 변환 및 업로드하는 데 필요한 코드를 즉시 빌드합니다.
  • 자동 스키마 검색: 다른 데이터 소스에 연결하는 크롤러를 생성하기 위해 Glue 서비스를 사용할 수 있습니다. 데이터를 구성하고 관련 정보를 추출합니다. 그런 다음 이러한 데이터를 사용하여 ETL 작업별로 ETL 프로세스를 모니터링할 수 있습니다.
  • 작업 예약: 접착제는 주문형 또는 예약된 일정에 따라 사용할 수 있습니다. 스케줄러를 사용하여 복잡한 ETL 파이프라인을 구축하고 작업 간의 종속성을 설정할 수 있습니다.
  • 코드 생성: Glue Elastic Views를 사용하면 독점 코드를 작성할 필요 없이 다양한 데이터 소스의 데이터를 결합하고 복제하는 구체화된 보기를 쉽게 생성할 수 있습니다.
  • 내장된 기계 학습: Glue에는 “FindMatches”라는 기계 학습 기능이 내장되어 있습니다. 서로 완벽한 사본이 아닌 레코드를 중복 제거합니다.
  • 개발자 끝점: ETL 코드를 적극적으로 개발하려는 경우 Glue는 생성한 코드를 수정, 디버그 및 테스트할 수 있는 개발자 끝점을 제공합니다.
  • Glue DataBrew: 데이터 분석가와 데이터 과학자가 데이터를 정리하고 정규화하는 데 사용할 수 있는 데이터 준비 도구입니다. Glue DataBrew의 활성 및 시각적 인터페이스를 사용합니다.

AWS Glue 요금은 어떻게 적용됩니까?

AWS Glue는 시간당 요금을 부과하며 크롤러(데이터 검색) 및 ETL 작업(데이터 처리 및 로드)에 대해 초당 청구됩니다. AWS Glue 데이터 카탈로그의 메타데이터에 액세스하고 저장하는 데는 간단한 월별 요금이 부과됩니다.

  Alexa, 직원들이 내 데이터를 보는 이유는 무엇입니까?

Amazon Glue는 $0.44부터 시작합니다. 다음 4가지 플랜 중에서 선택할 수 있습니다.

  • ETL 작업, 개발 엔드포인트 및 기타 ETL 작업은 $0.44에 사용할 수 있습니다.
  • Crawlers 대화형 세션은 $0.44에 이용 가능합니다.
  • DataBrew 작업은 $0.48부터 시작합니다.
  • 데이터 카탈로그에 대한 월별 스토리지 및 요청 비용은 $1.00입니다.

AWS는 무료 Glu 플랜을 제공하지 않습니다. 시간당 비용은 DPU당 $0.44입니다. 평균적으로 하루에 $21의 비용이 듭니다. 가격은 거주 지역에 따라 다를 수 있습니다.

AWS Glue 설정 단계

데이터 카탈로그를 사용하면 데이터를 이동할 필요 없이 여러 AWS 데이터 세트를 빠르게 찾고 검색할 수 있습니다. 데이터가 카탈로그화된 후 Amazon Athena 및 Amazon EMR을 사용하여 쿼리 및 검색에 즉시 사용할 수 있습니다.

참조: https://aws.amazon.com/glue/

  • Amazon Redshift, Amazon S3, Amazon RDS 및 Amazon EC2의 데이터베이스 – 데이터 검색, 메타데이터 저장, AWS Glue 데이터 카탈로그를 사용하여 검색
  • AWS Glue 데이터 카탈로그 – 메타데이터의 중앙 리포지토리 역할을 하는 데이터 카탈로그로 데이터 관리
  • AWS Glue ETL – 데이터 카탈로그에 대한 메타데이터 읽기 및 쓰기
  • Amazon Athena 및 Amazon Redshift, Amazon EMR, Amazon ETL – ETL, 분석 등에 대한 데이터 카탈로그를 가져옵니다.

AWS Glue를 설정하는 방법은 무엇입니까?

먼저 AWS Management Console에 로그인하고 IAM 콘솔을 엽니다. 역할 만들기를 클릭합니다. 그런 다음 역할 유형으로 Glue를 찾고 권한을 선택합니다.

일반 AWS Glue Studio 및 AWS Glue 권한에는 AWSGlueServiceRole을 선택하고 Amazon S3 리소스에 액세스하려면 AWS 관리형 정책 AmazonS3FullAccess를 선택합니다.

역할 이름을 입력합니다.

역할 만들기를 클릭합니다.

Amazon S3 버킷을 생성합니다.

S3 버킷 내부에 폴더를 생성합니다.

업로드할 파일을 선택합니다.

마지막으로 버킷에 파일을 업로드합니다.

그런 다음 AWS 관리 콘솔에서 AWS Glue를 열고 데이터베이스를 생성합니다.

이제 AWS Glue에 데이터베이스가 있으므로 크롤러를 생성합니다.

데이터 원본에서 생성한 S3 버킷을 선택합니다.

그런 다음 처음에 생성한 AWS Glue에 대한 IaM 역할을 선택합니다.

마지막으로 출력에서 ​​생성한 gluedb를 선택합니다.

모든 설정을 검토하고 크롤러를 만듭니다.

크롤러가 생성되면 선택하고 실행을 클릭합니다. 잠시 후 상태가 준비됩니다.

크롤러를 실행하면 데이터베이스는 CSV 파일의 모든 데이터가 포함된 테이블을 가져옵니다.

데이터 보기를 클릭하면 Amazon Athena(쿼리 편집기)로 이동합니다. 쿼리를 실행하면 테이블 데이터를 볼 수 있습니다.

이제 모든 ETL 작업에서 이 AWS Glue 크롤러를 성공적으로 사용할 수 있습니다.

AWS Glue Databrew란 무엇입니까?

AWS Glue DataBrew를 사용하면 사용자가 코드를 작성하지 않고도 데이터를 정규화하고 정리할 수 있습니다. DataBrew는 맞춤형 개발 데이터 준비에 비해 기계 학습 및 분석을 위해 데이터를 준비하는 데 필요한 시간을 최대 80%까지 줄일 수 있습니다.

이상 필터링, 잘못된 값 수정, 데이터를 표준 형식으로 변환과 같은 데이터 준비 작업을 자동화하는 데 사용할 수 있는 250개 이상의 미리 만들어진 데이터 변환이 있습니다.

  더 빠른 앱 개발을 위한 8가지 최고의 모바일 DevOps 플랫폼

DataBrew를 사용하면 데이터 과학자, 비즈니스 분석가 및 엔지니어가 원시 데이터에서 통찰력을 추출하기 위해 더 쉽게 협업할 수 있습니다. DataBrew는 서버리스이므로 테라바이트급의 원시 데이터를 탐색하고 변환하기 위해 인프라를 관리하거나 클러스터를 생성할 필요가 없습니다.

기업용 DataBrew 기능

시각화된 데이터 준비

DataBrew는 일반적으로 열 데이터베이스에서 영숫자 숫자로 표시되는 데이터를 보는 다른 방법입니다. DataBrew는 로드된 모든 데이터 소스를 시각화하여 데이터 관계 및 계층 구조를 이해하는 데 도움을 줍니다.

250개 이상의 데이터 준비 자동화

데이터 과학자는 업무의 일부로 반복 가능하고 격리된 다양한 워크플로를 따라야 합니다. 이러한 워크플로 및 프로세스는 AWS에서 언어 및 데이터에 구애받지 않는 모듈 모듈로 모델링했습니다. 이 라이브러리에는 최종 사용자가 사용할 수 있는 작업이 포함되어 있습니다.

데이터 계보

IT 네트워크의 IT 네트워크에서 고객 활동을 추적하는 데 사용되는 감사 로그와 유사하게 데이터 계보를 사용하면 AWS DataBrew 내에서 데이터 변환 활동을 추적할 수 있습니다. 이 정보에는 데이터 원본, 적용된 변환 및 대상 위치를 포함한 데이터 출력이 포함됩니다.

데이터 매핑

Databrew를 사용하면 두 데이터 원본에서 일치하는 필드를 찾을 수 있습니다. 일치하는 필드가 식별되면 스키마에 로드할 수 있습니다.

AWS Glue DataBrew: 이점

다음은 AWS Glue DataBrew의 기능입니다.

  • 데이터 준비를 위한 진입 장벽 낮추기
  • 자동화된 데이터 프로필 생성
  • 250개 이상의 데이터 준비 프로세스 자동화
  • 지능형 처방 제안

AWS Glue의 대안

기류

Airflow는 기술 스택의 Workflow Manager 섹션에 속합니다. GitHub 별, GitHub 포크 및 기타 기능을 지원하는 오픈 소스 도구입니다. Airflow를 사용하면 방향성 비순환 다이어그램(DAG)을 사용하여 워크플로를 만들 수 있습니다. Airflow 스케줄러는 작업자 배열을 사용하고 지정된 종속성을 따라 작업을 실행합니다.

마틸리온

ETL/ELT 도구인 Matillion ETL은 Amazon Redshift 및 Google BigQuery와 같은 클라우드 데이터베이스 플랫폼을 위해 명시적으로 설계되었습니다. 강력한 푸시다운 ETL/ELT 기능을 갖춘 최신 브라우저 기반 UI입니다. 빠른 설정으로 몇 분 안에 가동할 수 있습니다.

Stitch는 여러 데이터 소스를 연결하고 선호하는 대상에 데이터를 복제하는 오픈 소스 ETL 서비스입니다. Stitch에서 소스와 대상 간에 데이터를 이동하는 데 코딩 지식이 필요하지 않으므로 사용하기가 매우 쉽습니다. 사용하기 쉽고 GUI가 친숙하며 빠릅니다.

Stitch에서는 다른 ETL 도구와 달리 미리 만들어진 대시보드를 선택할 수 없습니다. 대신 대상으로 선택한 개방형 데이터 웨어하우스에 데이터를 통합해야 합니다. 인벤토리 탐색이 어려울 수 있습니다.

알테릭스

Alteryx는 데이터 수집 준비 및 혼합을 지원하는 분석 자동화 플랫폼입니다. 이 데이터는 프로세스 속도를 높이고 비즈니스 통찰력을 제공하는 데 사용할 수 있습니다. 끌어서 놓기 도구이기 때문에 프로그래밍 지식이 필요하지 않습니다. Alteryx는 업계 전문가의 조언과 답변을 얻을 수 있는 좋은 곳입니다.

결론

ETL 파이프라인으로 작업할 수 있는 클라우드 기반 솔루션인 AWS Glue에 관한 것이었습니다. 요약하자면 AWS Glue 사용자 상호 작용 프로세스는 세 단계로 구성됩니다. 데이터 카탈로그를 생성하려면 먼저 데이터 크롤러를 사용합니다. 다음으로 AWS 데이터 파이프라인에 필요한 ETL 코드를 생성합니다. 마지막으로 ETL 일정이 생성됩니다. 이 블로그가 Amazon Glue에 대한 좋은 개요를 제공했기를 바랍니다.

AWS S3 스토리지를 보호하기 위한 최고의 팁을 살펴볼 수도 있습니다.