데이터 과학/ML 프로젝트를 위한 26가지 멋진 개방형 데이터 세트

특히 머신 러닝(ML) 및 데이터 과학 프로젝트에 필요한 경우 올바른 데이터 세트를 검색하는 것이 어려울 수 있습니다. 우리는 무료 데이터 세트의 궁극적인 목록을 제공하여 연구 노력을 줄입니다.

데이터 세트는 단순히 데이터의 모음입니다. 금융, 커뮤니티 건강, 주식 시장 데이터, 은행 데이터, 지리 데이터, 입자 과학 연구 데이터, 전자 상거래 사이트의 제품 등급 등이 될 수 있습니다.

데이터 세트는 과학적 조사 표준을 통해 수집된 데이터를 포함하며 추가 시각화, 추출, 예측 등에 중요합니다. 데이터는 디지털 세계에서 원유와 동일하기 때문에 데이터 세트는 상업화되고 희소해지고 있습니다.

데이터 세트에 대한 기본 사항을 알아보려면 계속 읽으십시오. 또한 머신 러닝(ML) 또는 데이터 과학 프로젝트에 무료로 제공되는 몇 가지 오픈 소스 데이터 세트도 발견할 수 있습니다.

데이터세트란?

데이터 세트는 구조화되고 조직화된 컨테이너의 데이터 모음입니다. 일반적으로 측량사는 데이터 세트를 World Bank Open Data와 같은 고유한 본체와 연결합니다.

다시 말하지만, 데이터 수집가는 미국 인구조사국에서 발행한 2020년 미국 인구조사 데이터와 같은 주제와 관련된 데이터 세트를 유지합니다.

글로벌 및 지역 문제에 대한 많은 데이터 세트를 찾을 수 있습니다. 대부분의 데이터 세트에는 상호 연관된 데이터 포인트가 포함되어 있습니다. 예를 들어, 한 국가의 인구와 비만이 이 인구의 여러 계층과 어떻게 관련되어 있는지.

데이터 과학자는 플라스틱 사용 데이터를 분석하여 플라스틱 폐기물을 줄이고, 임금 데이터를 분석하여 인력 문제를 해결하고, 인공 지능(AI)을 훈련하는 등의 가치 있는 결론에 도달하기 위해 빅 데이터 도구를 사용하여 이러한 데이터 세트를 정리, 재구성 및 처리해야 할 수 있습니다. 에.

데이터세트 유형

데이터 세트의 소스에 따라 공개 또는 비공개일 수 있습니다. 공개 데이터 세트는 모두에게 개방되어 있으며 연구 및 개발에 많은 기여를 합니다.

다시 말하지만 데이터 세트는 포함된 정보에 따라 다음 유형이 될 수 있습니다.

  • 다변수: 이러한 데이터에는 여러 변수가 포함됩니다.
  • 범주형: 많은 범주의 사람들을 묘사합니다.
  • 숫자: 이러한 데이터 세트는 나이, 키 등과 같은 숫자로 데이터를 측정합니다.
  • 상관 관계: 이 유형에서 데이터 포인트는 상호 연관됩니다.
  • 파일 기반: 여기에서 데이터 세트는 파일에 저장됩니다.
  • 이변량: 두 개의 변수와 이들 간의 관계가 있는 데이터세트입니다.
  • 웹 데이터 세트: 하나 이상의 유사한 인터넷 포털에서 수집된 데이터입니다.
  • 데이터베이스: 이러한 데이터 세트는 테이블, 열 및 행에 데이터를 저장합니다.

데이터 과학 프로젝트를 위한 오픈 소스 데이터 세트

무료 데이터 세트는 데이터 과학 경력에 대한 열정을 강화하는 원동력입니다. 데이터 과학 경력의 초기 단계에 있는 경우 자신감이나 포트폴리오 구축을 위해 개인 및 비상업 프로젝트를 수행할 수 있기 때문입니다.

첫째, 도구와 기술을 실제 데이터 세트 문제에 적용하여 새로 배운 기술을 쉽게 테스트할 수 있습니다.

예를 들어, 무료로 사용할 수 있는 암 연구 데이터, Covid-19 데이터, FBI 범죄 기록 데이터, CERN의 입자 분석 데이터 등이 있습니다. 이러한 데이터를 사용하고 데이터 과학 모델을 구축하여 중요한 사회, 재정 및 건강 문제에 답할 수 있습니다. .

둘째, 그러한 프로젝트는 경력을 위한 포트폴리오 향상제 역할을 합니다. 실행 가능한 통찰력을 제공할 수 있는 성공적인 데이터 분석 모델을 구축할 수 있다면 포트폴리오 웹사이트를 만들어 온라인에서 해당 모델을 선보일 수 있습니다. 고용주는 목적 진술보다 프로젝트를 선호합니다.

기계 학습 프로젝트를 위한 무료 데이터 세트

데이터 과학 전문가와 마찬가지로 ML 전문가도 자체 관리 프로젝트에서 자신의 기술을 검토해야 합니다. 프로젝트가 성공하면 ML 프로젝트의 온라인 또는 오프라인 포트폴리오에 이상적인 구성 요소가 됩니다.

따라서 이제 데이터 과학 및 ML 성장이 구조화된 데이터 세트에 의존한다는 것을 이해할 수 있습니다. 그러한 데이터 세트가 너무 상용화되면 데이터 과학 분야의 연구 개발은 완전히 기업 중심이 될 것입니다.

데이터 과학 ML 연구를 모두에게 공개하기 위해 다음 기관, 기관 및 플랫폼에서 무료 데이터 세트를 제공합니다.

데이터.gov

미국 정부에서 수집 및 처리한 모든 공개 데이터를 찾을 수 있습니다. Data.gov에서. 이 플랫폼은 또한 연구 수행, 데이터 시각화 설계, 모바일/웹 앱 개발 등을 위한 리소스와 도구를 제공합니다.

주목할만한 데이터 세트에는 지속 가능한 토지 사용 데이터, 농촌 주택 데이터, 내륙 전자 항해 차트 등이 포함됩니다.

데이터 세트 열기: Kaggle

Kaggle은 데이터 과학 프로젝트를 위한 방대한 공개 데이터 및 컴퓨터 코드를 제공합니다. 원시 데이터의 경우 데이터 세트를 선택하고 프로그래밍 코드의 경우 코드를 선택할 수 있습니다. Kaggle의 트렌드 데이터 세트는 AMEX 데이터, Simpsons 시청률, 챗봇 교육 데이터 등입니다.

세그먼트 데이터 세트: YouTube 8-M

YouTube 8-M의 세그먼트 데이터 세트는 감사인이 확인한 세그먼트 주석을 제공합니다. 동일한 포털에서 YouTube-8M 데이터 세트에 액세스할 수도 있습니다. 데이터 세트에는 610만 개의 비디오 ID, 350,000시간 분량의 비디오, 26억 개의 오디오/비주얼 기능, 3863개의 비디오 클래스 및 비디오당 평균 3.0개의 레이블이 포함되어 있습니다.

AWS의 오픈 데이터 레지스트리

AWS의 ROD는 데이터 과학자가 AWS 리소스에서 호스팅되는 데이터 세트를 공유하고 검색하는 데 도움이 됩니다. 여기에서 찾을 수 있는 몇 가지 흥미로운 데이터 세트는 The Cancer Genome Atlas, Foldingathome COVID-19 데이터 세트, Common Crawl 등입니다.

기계 학습 저장소: UCI

UCI Machine Learning Repository는 현재 데이터 과학자와 ML 엔지니어가 AI 모델을 훈련하는 데 적합한 622개의 데이터 세트를 유지 관리합니다. 또한 데이터베이스를 조사할 수 있는 검색 가능한 인터페이스가 있습니다. 인기 있는 명소로는 가속도계 데이터 세트, 동기 기계 데이터 세트, Wikipedia Math Essentials, 터키어 헤드라인 데이터 세트 등이 있습니다.

BigQuery 공개 데이터세트: Google Cloud

많은 공개 데이터세트가 BigQuery에 저장됩니다. Google은 Google Cloud 공개 데이터세트 프로그램을 통해 데이터세트에 무료로 액세스할 수 있도록 합니다. 그러나 무료 쿼리는 월 1TB로 제한됩니다. 표준 SQL 및 legacy SQL 쿼리를 수행할 수 있습니다.

멋진 공개 데이터 세트: GitHub

Awesome Public Datasets는 주제 중심의 공개 데이터가 포함된 오픈 소스 데이터 세트입니다. 다양한 블로그, 답변 및 사용자 피드백에서 수집 및 정렬되어 물리학, 스포츠, 소프트웨어, 자연어 및 기계 학습에 대한 무료 및 유료 데이터 세트를 결합합니다.

세계 은행 데이터

World Bank Open Data는 글로벌 개발 데이터에 무료로 액세스할 수 있는 플랫폼입니다. 또한 미리 형식이 지정된 테이블 및 보고서와 같은 기타 유용한 리소스도 제공합니다. 국가 또는 지표별로 쉽게 탐색하여 필요한 데이터 세트를 얻을 수 있습니다.

FiveThirtyEight: 데이터

FiveThirtyEight는 여론 조사 분석, 정치, 경제 및 스포츠를 다루는 미국 웹사이트입니다. 플랫폼의 데이터 세트를 통해 이러한 투표 및 예측에 액세스할 수 있습니다. 한 번의 클릭으로 데이터 세트를 다운로드할 수 있습니다.

이미지넷

ImageNet은 전 세계 연구원들이 비상업적 프로젝트를 위한 오픈 소스 데이터 세트를 얻을 수 있는 이미지 데이터베이스입니다. 여기에서 이미지는 WordNet 계층을 기반으로 구성됩니다. 이 프로젝트는 고급 수준의 딥 러닝 연구에서 중요한 역할을 합니다.

데이터 세트 아카이브: 유니세프 데이터

Datasets Archives를 사용하면 전 세계 유니세프가 수집한 데이터 세트를 보관할 수 있습니다. 이주, 실향, 다이어트, 연결성, 교육, 건강, 학습, 사망률, 폭력, 아동 발달, 조혼, 아동 노동 및 다양한 통계에 대한 데이터가 여기에 있습니다.

열린 데이터 찾기: Govt. 영국

프로젝트에 영국의 지방 기관과 중앙 정부에서 게시한 데이터가 필요한 경우, Find Open Data는 확인해야 하는 포털입니다. 정부 지출, 비즈니스, 건강, 교육, 국방 및 기타 데이터 세트를 다룹니다.

데이터: 미국 인구조사국

관련 프로젝트에 미국 인구 조사 데이터가 필요합니까? USCB Data에서 도움을 받을 수 있습니다. 여기에서 데이터를 시각화하고 데이터 도구를 사용하면서 2020년 인구 조사 데이터, 표, 지도 및 데이터 프로필을 탐색할 수 있습니다.

데이터 및 통계: CDC

미국 연방 기관인 질병 통제 예방 센터(Centers for Disease Control and Prevention)도 이 포털의 데이터와 통계에 액세스할 수 있도록 대중에게 무료 데이터 세트를 제공합니다. 데이터 세트 주제는 환경 건강, 만성 질환, 출생 및 출생, 사망 및 사망, 기대 수명, 부상 및 폭력, 생식 건강, 국가 신고 대상 질병 등입니다.

데이터 세트: MIT

이 데이터 세트는 와류 유도 진동 데이터에 중점을 둡니다. MIT의 해양 공학 센터는 컴퓨터 코드 벤치마킹을 위해 공개적으로 사용 가능한 데이터 세트를 호스팅합니다. 데이터 세트는 데이터에서 새로운 이론을 초대하고 동일한 분야에서 일하는 연구원을 동기화하기 위해 모두에게 열려 있습니다.

세계 은행 데이터 카탈로그

데이터 카탈로그는 세계 은행의 개발 관련 데이터에 쉽게 액세스할 수 있도록 하는 무료 데이터 세트를 수집합니다. 원하는 정보를 쉽게 찾고 다운로드할 수 있으므로 다양한 프로젝트에서 사용하는 것이 쉽습니다. 여기에는 세계 은행의 마이크로데이터, 금융 및 에너지 플랫폼을 다루는 5000개 이상의 데이터 세트가 포함되어 있습니다.

NASA 우주 과학 데이터

NASA는 Space Science Data Coordinated Archive에서 보관 데이터에 대한 액세스를 제공합니다. 이 플랫폼은 일반 대중, 특히 교육 및 우주 연구 분야에서 일하는 사람들에게 큰 도움이 됩니다. 여기에는 550개의 우주 과학에 대한 정보가 포함된 400TB의 디지털 데이터가 있습니다.

데이터 얻기: 에어비앤비 내부

에어비앤비는 홈스테이와 휴가 렌탈을 위한 세계적으로 유명한 온라인 마켓플레이스입니다. 또한 Get Data에서 전 세계 여러 도시에 대한 데이터 수집을 제공합니다. 도시를 탐색하여 데이터를 빠르게 얻을 수 있습니다. 또한 이 포털에서 필요한 데이터를 요청하고 데이터 가정을 읽을 수 있습니다.

웹 데이터: 아마존 리뷰

시장 조사 및 제품 리뷰에 관심이 있는 사람들은 Snap Web Data에서 제공하는 데이터 세트를 사용해야 합니다. 여기에는 1995년 6월부터 2013년 3월까지 Amazon에 대한 3,400만 개 이상의 사용자 리뷰가 포함되어 있습니다. 데이터 세트에는 일반 텍스트, 제품 정보, 사용자 이름, 등급 및 리뷰가 포함됩니다.

IMF 데이터

IMF 데이터 포털은 모든 경제 및 금융 데이터 유형에 유용합니다. IMF 금융 데이터, 외부 부문 통계, 주요 간행물 또는 미시 경제 데이터를 검색하든 여기에서 찾을 수 있습니다. 또한 필터를 사용하여 국가별 데이터를 얻을 수 있습니다.

Google 도서 Ngram

품사와 언어를 연구하는 경우 Google Books Ngrams가 큰 도움이 될 수 있습니다. 이 오픈 소스 데이터 세트는 역사 또는 특정 시간 범위 전체에서 특정 단어와 구문을 사용하는 방법에 대한 아이디어를 제공합니다. 이 데이터 세트의 소스는 Google에서 색인을 생성한 디지털 문서입니다.

시장 데이터: 파이낸셜 타임즈

신뢰할 수 있고 정확한 글로벌 및 지역 주식 시장 데이터를 얻고 싶다면 Financial Times의 Markets Data가 도움이 될 것입니다. 이를 통해 미국, 아시아 태평양, 유럽, 아프리카 및 글로벌 시장의 시장 데이터를 사용할 수 있습니다.

지구 데이터: NASA

NASA는 지구 데이터 프로그램을 통해 과학 데이터에 대한 완전하고 공개된 액세스를 제공하여 사용자가 우리의 고향 행성을 이해하고 프로젝트를 수행하는 데 도움을 줍니다. 대기, 생물권, 빙권, 인간의 차원, 지표면, 해양, 고체 지구, 태양-지구 상호 작용 및 육상 수권에 대한 무료 데이터 세트를 찾을 수 있습니다.

데이터세트 검색: Google

프로젝트를 지원할 데이터세트를 찾고 있는 학생, 연구원 또는 데이터 과학자라면 데이터세트 검색 포털에서 도움을 받을 수 있습니다. 키워드 검색을 통해 웹의 다양한 보고서에서 호스팅되는 데이터 세트를 검색할 수 있으므로 데이터 세트용 검색 엔진이라고 부를 수 있습니다.

데이터 공개: CERN

유럽 ​​연구 기관인 CERN에는 CERN에서 연구 생성 데이터에 액세스하는 데 사용할 수 있는 개방형 데이터 포털이 있습니다. 이 데이터 세트 포털에는 입자 물리학과 관련된 2페타바이트의 데이터가 포함되어 있습니다. 또한 데이터 분석에 필요한 응용 프로그램과 문서가 함께 제공됩니다.

범죄 데이터 탐색기: FBI

범죄 데이터 탐색기(CDE)는 범죄, 비범죄 및 법 집행 데이터 공유에 더 쉽게 액세스할 수 있도록 하는 것을 목표로 하는 FBI의 오픈 소스 데이터 세트입니다. 시각화 및 카테고리 필터링을 통해 필요한 데이터를 검색할 수 있을 뿐만 아니라 이 플랫폼을 사용하면 데이터를 CSV 형식으로 다운로드할 수 있습니다.

마지막 단어

지금까지 고품질 데이터 세트의 완전한 목록을 살펴보았습니다. 이 기사는 물리학, 의료 기록, 우주 연구, 범죄 기록, 제품 등급 등과 같은 다양한 틈새 시장의 데이터를 제공합니다.

현재 진행 중인 데이터 과학 또는 기계 학습 프로젝트에 따라 선택할 수 있습니다. 거의 모든 데이터 세트에는 프로젝트에 도움이 되는 적절한 지침도 있습니다.

데이터 과학 및 ML을 배우기 위해 이러한 리소스에 관심이 있을 수도 있습니다.