데이터 과학/ML 프로젝트를 위한 26가지 멋진 개방형 데이터 세트

머신러닝 및 데이터 과학 프로젝트를 위한 무료 데이터 세트

머신러닝(ML)이나 데이터 과학 프로젝트를 진행할 때, 적합한 데이터 세트를 찾는 것은 종종 어려운 일입니다. 이 글에서는 연구 시간을 절약할 수 있도록 다양한 무료 데이터 세트 목록을 제공합니다.

데이터 세트는 단순히 데이터의 모음입니다. 여기에는 금융, 커뮤니티 건강, 주식 시장, 은행, 지리 정보, 입자 물리학 연구, 또는 전자상거래 사이트의 제품 평가 데이터 등이 포함될 수 있습니다.

데이터 세트는 과학적인 조사 기준에 따라 수집된 데이터를 포함하며, 추가적인 시각화, 추출, 예측 등에 매우 중요한 역할을 합니다. 디지털 세계에서 데이터는 원유와 같이 귀중한 자원이 되었으며, 이로 인해 데이터 세트는 상업화되고 점점 희소해지는 추세입니다.

데이터 세트에 대한 기본적인 이해를 돕기 위해 이 글을 계속 읽어보세요. 머신러닝(ML) 또는 데이터 과학 프로젝트에 활용할 수 있는 다양한 오픈 소스 데이터 세트도 함께 살펴보겠습니다.

데이터 세트란 무엇인가?

데이터 세트는 구조화되고 체계적으로 정리된 데이터의 모음입니다. 일반적으로 데이터 세트는 세계은행 오픈 데이터와 같은 특정 기관과 연관되어 있습니다. 예를 들어, 미국 인구조사국에서 발행하는 2020년 미국 인구조사 데이터와 같이 특정 주제와 관련된 데이터 세트가 있습니다.

글로벌 또는 지역 문제와 관련된 다양한 데이터 세트를 찾을 수 있습니다. 대부분의 데이터 세트는 상호 연관된 데이터 포인트를 포함합니다. 예를 들어, 특정 국가의 인구와 비만율이 인구의 다양한 계층과 어떻게 관련되어 있는지를 보여주는 데이터를 예로 들 수 있습니다.

데이터 과학자들은 이러한 데이터 세트를 정리, 재구성 및 처리하기 위해 빅데이터 도구를 활용합니다. 이를 통해 플라스틱 사용 데이터를 분석하여 플라스틱 폐기물 감소 방안을 모색하거나, 임금 데이터를 분석하여 인력 문제를 해결하고, 인공지능(AI) 모델을 훈련하는 등 다양한 분야에서 중요한 결론을 도출할 수 있습니다.

데이터 세트의 종류

데이터 세트는 그 출처에 따라 공개 또는 비공개로 나눌 수 있습니다. 공개 데이터 세트는 누구에게나 개방되어 있으며, 연구 및 개발에 크게 기여합니다.

데이터 세트는 포함된 정보에 따라 다음과 같이 분류할 수도 있습니다:

다변수: 여러 변수를 포함하는 데이터 세트입니다.
범주형: 여러 범주로 분류된 사람들의 데이터를 포함합니다.
숫자형: 나이, 키 등 숫자로 측정된 데이터를 포함합니다.
상관관계: 데이터 포인트 간에 상호 연관성이 있는 데이터 세트입니다.
파일 기반: 데이터가 파일 형태로 저장된 데이터 세트입니다.
이변량: 두 개의 변수와 그 관계를 포함하는 데이터 세트입니다.
웹 데이터 세트: 하나 이상의 웹사이트에서 수집된 데이터입니다.
데이터베이스: 테이블, 열, 행 형태로 데이터를 저장하는 데이터 세트입니다.

데이터 과학 프로젝트를 위한 오픈 소스 데이터 세트

무료 데이터 세트는 데이터 과학 분야에서 경력을 쌓는 데 큰 동기가 됩니다. 데이터 과학 분야 초기 단계에서는 개인적인 프로젝트나 비상업적인 프로젝트를 통해 자신감을 쌓고 포트폴리오를 구축할 수 있습니다.

실제 데이터 세트 문제를 다루면서 새로 배운 기술을 쉽게 테스트할 수 있습니다. 예를 들어, 암 연구 데이터, 코로나19 데이터, FBI 범죄 기록 데이터, CERN의 입자 분석 데이터 등을 무료로 활용할 수 있습니다. 이러한 데이터를 기반으로 데이터 과학 모델을 구축하여 사회, 경제, 건강과 관련된 중요한 문제에 대한 해답을 찾을 수 있습니다.

또한 이러한 프로젝트들은 경력 개발에 도움이 되는 포트폴리오를 향상시키는 역할을 합니다. 성공적인 데이터 분석 모델을 구축하고 실행 가능한 통찰력을 제공할 수 있다면, 이를 포트폴리오 웹사이트에 공개하여 잠재적인 고용주에게 어필할 수 있습니다. 고용주들은 단순히 자신의 목표를 설명하는 것보다 실제 프로젝트를 통해 얻은 결과물을 더 선호합니다.

머신러닝 프로젝트를 위한 무료 데이터 세트

데이터 과학 전문가와 마찬가지로 ML 전문가도 개인 프로젝트를 통해 자신의 기술을 검증해야 합니다. 프로젝트가 성공적이라면 온라인 또는 오프라인 ML 포트폴리오에 추가할 수 있는 좋은 자료가 됩니다.

데이터 과학 및 ML 분야의 성장이 구조화된 데이터 세트에 크게 의존한다는 점을 기억해야 합니다. 데이터 세트가 상업화되면 데이터 과학 분야의 연구 개발은 기업 중심으로 이루어질 가능성이 높습니다. 데이터 과학 및 ML 연구를 모든 사람이 이용할 수 있도록 여러 기관, 단체 및 플랫폼에서 무료 데이터 세트를 제공하고 있습니다.

데이터.gov

미국 정부에서 수집하고 처리한 모든 공개 데이터는 Data.gov에서 찾을 수 있습니다. 이 플랫폼은 연구 수행, 데이터 시각화 디자인, 모바일 및 웹 앱 개발을 위한 리소스와 도구도 제공합니다.

주목할 만한 데이터 세트로는 지속 가능한 토지 이용 데이터, 농촌 주택 데이터, 내륙 전자 항해 차트 등이 있습니다.

오픈 데이터 세트: Kaggle

Kaggle은 데이터 과학 프로젝트를 위한 다양한 공개 데이터와 컴퓨터 코드를 제공합니다. 원시 데이터를 찾을 때는 데이터 세트를 선택하고, 프로그래밍 코드를 찾을 때는 코드를 선택할 수 있습니다. Kaggle의 인기 데이터 세트로는 AMEX 데이터, 심슨 시청률 데이터, 챗봇 훈련 데이터 등이 있습니다.

세그먼트 데이터 세트: YouTube 8-M

YouTube 8-M의 세그먼트 데이터 세트는 감사자가 확인한 세그먼트 주석을 제공합니다. 동일한 포털에서 YouTube-8M 데이터 세트에도 접근할 수 있습니다. 이 데이터 세트는 610만 개의 비디오 ID, 35만 시간 분량의 비디오, 26억 개의 오디오/비주얼 기능, 3,863개의 비디오 클래스 및 비디오당 평균 3개의 레이블을 포함하고 있습니다.

AWS의 오픈 데이터 레지스트리

AWS의 ROD는 데이터 과학자들이 AWS 리소스에 호스팅된 데이터 세트를 공유하고 검색하는 데 도움을 줍니다. 이 곳에서 찾을 수 있는 흥미로운 데이터 세트로는 암 유전체 아틀라스(The Cancer Genome Atlas), 폴딩앳홈 코로나19 데이터 세트(Foldingathome COVID-19 dataset), 커먼 크롤(Common Crawl) 등이 있습니다.

머신러닝 저장소: UCI

UCI 머신러닝 저장소는 현재 데이터 과학자와 ML 엔지니어들이 AI 모델을 훈련하는 데 적합한 622개의 데이터 세트를 관리하고 있습니다. 또한 데이터베이스를 검색할 수 있는 인터페이스를 제공합니다. 인기 있는 데이터 세트로는 가속도계 데이터 세트, 동기 기계 데이터 세트, 위키피디아 수학 필수 데이터, 터키어 헤드라인 데이터 세트 등이 있습니다.

BigQuery 공개 데이터 세트: Google Cloud

다양한 공개 데이터 세트가 BigQuery에 저장되어 있습니다. Google은 Google Cloud 공개 데이터 세트 프로그램을 통해 데이터 세트에 대한 무료 접근 권한을 제공합니다. 그러나 무료 쿼리에는 월 1TB의 제한이 있습니다. 표준 SQL과 레거시 SQL 쿼리를 수행할 수 있습니다.

멋진 공개 데이터 세트: GitHub

Awesome Public Datasets는 주제 중심의 공개 데이터를 포함하는 오픈 소스 데이터 세트입니다. 다양한 블로그, 답변 및 사용자 피드백을 통해 수집 및 정리되었으며, 물리학, 스포츠, 소프트웨어, 자연어 처리 및 머신러닝 분야의 무료 및 유료 데이터 세트가 혼합되어 있습니다.

세계은행 데이터

세계은행 오픈 데이터는 글로벌 개발 데이터에 무료로 접근할 수 있는 플랫폼입니다. 또한 미리 지정된 형식의 테이블, 보고서와 같은 유용한 자료를 제공합니다. 국가별 또는 지표별로 검색하여 원하는 데이터 세트를 쉽게 찾을 수 있습니다.

FiveThirtyEight: 데이터

FiveThirtyEight는 여론 조사 분석, 정치, 경제 및 스포츠를 다루는 미국의 웹사이트입니다. 이 플랫폼의 데이터 세트를 통해 투표 및 예측 결과를 확인할 수 있습니다. 데이터 세트는 한 번의 클릭으로 다운로드할 수 있습니다.

ImageNet

ImageNet은 전 세계 연구자들이 비상업적 프로젝트를 위해 오픈 소스 데이터 세트를 얻을 수 있는 이미지 데이터베이스입니다. 여기서 이미지는 WordNet 계층에 기반하여 구성됩니다. 이 프로젝트는 딥러닝 연구에서 중요한 역할을 하고 있습니다.

데이터 세트 아카이브: 유니세프 데이터

Datasets Archives를 통해 전 세계 유니세프가 수집한 데이터 세트를 보관할 수 있습니다. 이주, 실향, 식단, 연결성, 교육, 건강, 학습, 사망률, 폭력, 아동 발달, 조혼, 아동 노동 및 기타 다양한 통계 데이터를 찾을 수 있습니다.

오픈 데이터 찾기: 영국 정부

영국의 지방 정부와 중앙 정부가 발행한 데이터가 필요하다면 Find Open Data 포털을 확인해야 합니다. 정부 지출, 사업, 건강, 교육, 국방 및 기타 다양한 데이터 세트를 제공합니다.

데이터: 미국 인구조사국

관련 프로젝트를 위해 미국 인구조사 데이터가 필요합니까? USCB 데이터에서 필요한 정보를 찾을 수 있습니다. 이곳에서 2020년 인구조사 데이터, 테이블, 지도 및 데이터 프로필을 탐색하고 데이터를 시각화하며, 데이터 도구를 사용할 수 있습니다.

데이터 및 통계: CDC

미국 연방 기관인 질병통제예방센터(CDC)는 일반 대중이 데이터와 통계에 접근할 수 있도록 무료 데이터 세트를 제공합니다. 환경 건강, 만성 질환, 출생 및 사망, 기대 수명, 부상 및 폭력, 생식 건강, 국가적으로 보고된 질병 등 다양한 주제의 데이터 세트를 제공합니다.

데이터 세트: MIT

이 데이터 세트는 와류 유도 진동 데이터에 중점을 두고 있습니다. MIT 해양 공학 센터는 컴퓨터 코드 벤치마킹을 위해 공개적으로 사용 가능한 데이터 세트를 호스팅합니다. 이 데이터 세트는 동일한 분야에서 연구하는 사람들이 협력하고, 새로운 이론을 개발하는 데 도움을 주기 위해 공개되어 있습니다.

세계은행 데이터 카탈로그

데이터 카탈로그는 세계은행의 개발 관련 데이터에 대한 접근성을 높이기 위해 무료 데이터 세트를 모아놓은 곳입니다. 필요한 정보를 쉽게 찾고 다운로드할 수 있으며, 다양한 프로젝트에서 활용하기 편리합니다. 세계은행의 마이크로데이터, 금융 및 에너지 플랫폼을 다루는 5000개 이상의 데이터 세트를 포함하고 있습니다.

NASA 우주 과학 데이터

NASA는 Space Science Data Coordinated Archive를 통해 보관된 데이터에 접근할 수 있도록 지원합니다. 이 플랫폼은 일반 대중, 특히 교육 및 우주 연구 분야에 종사하는 사람들에게 큰 도움이 됩니다. 550개의 우주 과학 정보가 포함된 400TB의 디지털 데이터를 제공합니다.

데이터 얻기: 에어비앤비 내부

에어비앤비는 전 세계적으로 유명한 온라인 숙박 공유 플랫폼입니다. 또한 Get Data 플랫폼에서 전 세계 여러 도시에 대한 데이터 세트를 제공합니다. 도시를 검색하여 데이터를 빠르게 얻을 수 있으며, 필요한 데이터를 요청하고 데이터 가정을 검토할 수 있습니다.

웹 데이터: 아마존 리뷰

시장 조사 및 제품 리뷰에 관심 있는 사람들은 Snap Web Data에서 제공하는 데이터 세트를 활용해야 합니다. 여기에는 1995년 6월부터 2013년 3월까지 아마존에 게시된 3,400만 개 이상의 사용자 리뷰가 포함되어 있습니다. 데이터 세트는 일반 텍스트, 제품 정보, 사용자 이름, 평가 및 리뷰를 포함하고 있습니다.

IMF 데이터

IMF 데이터 포털은 경제 및 금융 데이터에 유용합니다. IMF 금융 데이터, 외부 부문 통계, 주요 간행물 또는 미시 경제 데이터를 찾을 수 있습니다. 또한 필터를 사용하여 국가별 데이터를 얻을 수 있습니다.

Google Books Ngram

품사나 언어를 연구하는 경우 Google Books Ngrams가 매우 유용할 수 있습니다. 이 오픈 소스 데이터 세트는 특정 단어나 구문이 역사적으로 어떻게 사용되었는지, 특정 기간 동안 어떤 용도로 사용되었는지 알려줍니다. 데이터 세트는 Google에서 색인화한 디지털 문서에서 가져왔습니다.

시장 데이터: 파이낸셜 타임즈

신뢰할 수 있고 정확한 글로벌 및 지역 주식 시장 데이터를 얻고 싶다면 파이낸셜 타임즈의 시장 데이터를 확인해보세요. 미국, 아시아 태평양, 유럽, 아프리카 및 글로벌 시장의 시장 데이터를 제공합니다.

지구 데이터: NASA

NASA는 지구 데이터 프로그램을 통해 과학 데이터에 대한 완전하고 공개적인 접근을 제공하여, 사용자들이 지구를 이해하고 관련 프로젝트를 수행하는 데 도움을 줍니다. 대기, 생물권, 빙권, 인간의 차원, 지표면, 해양, 고체 지구, 태양-지구 상호 작용 및 육상 수권에 대한 무료 데이터 세트를 찾을 수 있습니다.

데이터 세트 검색: Google

프로젝트를 지원할 데이터 세트를 찾고 있다면 Google의 데이터 세트 검색 포털이 도움을 줄 수 있습니다. 키워드를 사용하여 웹의 다양한 리포지터리에 호스팅된 데이터 세트를 검색할 수 있으며, 데이터 세트 검색 엔진이라고 할 수 있습니다.

데이터 공개: CERN

유럽 연구 기관인 CERN은 연구에서 생성된 데이터에 접근할 수 있는 오픈 데이터 포털을 운영하고 있습니다. 이 데이터 세트 포털에는 입자 물리학과 관련된 2페타바이트의 데이터가 포함되어 있으며, 데이터 분석에 필요한 응용 프로그램과 관련 문서를 함께 제공합니다.

범죄 데이터 탐색기: FBI

범죄 데이터 탐색기(CDE)는 범죄, 비범죄 및 법 집행 데이터 공유에 대한 접근성을 높이기 위한 FBI의 오픈 소스 데이터 세트입니다. 시각화 및 카테고리 필터링을 통해 필요한 데이터를 검색할 수 있으며, CSV 형식으로 데이터를 다운로드할 수 있습니다.

마지막 말

여기까지 다양한 고품질 데이터 세트 목록을 살펴보았습니다. 이 목록은 물리학, 의료 기록, 우주 연구, 범죄 기록, 제품 평가 등 다양한 분야의 데이터를 제공합니다.

진행 중인 데이터 과학 또는 머신러닝 프로젝트에 따라 적절한 데이터 세트를 선택할 수 있습니다. 거의 모든 데이터 세트에는 프로젝트를 진행하는 데 도움이 되는 적절한 지침도 포함되어 있습니다.

데이터 과학 및 ML 학습에 이 자료가 도움이 되기를 바랍니다.