머신러닝 분야에서 필요한 가장 핵심이 될 수 있고, 시간 소비가 가장 많은 작업 중 하나는 필요한 데이터를 수집 및 정제하는 일이다. 그러나 상황에 따라 필요한 데이터를 쉽게 수집할 수 있는 방법이 있다. 많은 머신러닝 연구자들은 연구성과(논문)와 함께 사용했던 데이터셋을 함께 공유하고 있으며 ImageNet과 같은 몇몇 프로젝트에서는 연구자들이 대용량의 라벨링된 이미지를 무료로 사용할 수 있도록 제공하고 있다. 따라서, 특정 분야의 데이터셋을 무작정 모으는것보다는, 먼저 공유되고 있는 데이터셋을 검색해보는 것이 효율적인 연구 방법이다. 이번 포스트에서는 효율적인 연구를 위해서 여러 분야에서 공유되고 있는 데이터셋들을 정리하여 작성할 예정이다.
Image DataSets
- ImageNet
- 대표적인 이미지 데이터셋
- ILSVRC 에서는 ImageNet의 1000개 클래스로 구성된 데이터셋을 이용해서 Classification, Localization, Segmentation 등을 수행함
Sound DataSets
- Urban Sound Datasets
- UrbanSound8K는 10가지 종류의 소리를 약 4초 정도 녹음한 wav파일임
Video DataSets
- YouTube-8M Datasets
- YouTube의 약 8백만개의 동영상 관련 데이터셋
Site for DataSets
- CVonline: Image Databases
- 이미지와 관련된 여러가지 데이터베이스를 정리해놓은 사이트
- Action, 자율주행, 얼굴, 지문 등 25가지 카테고리로 분류되어 있음
- image외에 일부 사운드 및 동영상 데이터도 정리되고 있음
- Open Data for Deep Learning
- 이미지, 얼굴, 비디오, 텍스트, 추천시스템, 음성 등의 카테고리로 분류된 데이터셋을 정리해놓은 사이트