datasets - 딥러닝 언어 모델

datasets는 텍스트 말뭉치뿐만 아니라 오디오, 고화질 이미지 등 전 세계 AI 지형에 퍼져 있는 수만 개의 오픈소스 비정형 데이터셋을 고속으로 공급받아 학습에 적용하는 데이터 레이어 라이브러리입니다.

1주요 공학적 기능¶

Apache Arrow 기반 메모리 맵(Memory-mapped) 연동: 다운로드된 모든 데이터셋을 Apache Arrow 포맷 기반으로 관리하여, 로컬 디스크 상에 영속 보관하면서 메모리 맵 방식으로 가상 로딩합니다.
초고속 데이터 스트리밍: 대용량 원시 데이터셋을 전부 메모리에 적재하지 않고, streaming=True 설정을 통해 필요한 청크 단위로 네트워크와 디스크 통선 버스를 거쳐 스트리밍 수급합니다.
다중 프로세스 병렬 전처리: CPU 가동 코어 수에 맞추어 map() 메서드의 멀티 프로세스(num_proc) 분산 분할을 수행해, 수천만 행의 텍스트 토크나이징 전처리 병목을 제거합니다.

2공학적/운영상 이점¶

SFT 또는 사전 훈련 시 시스템 RAM 메모리가 부족하여 프로세스가 강제 소멸(OOM, Out Of Memory)되는 고질적 물리 장애를 원천 봉쇄합니다. 초저사양 하드웨어 디바이스 환경에서도 무리 없이 테라바이트급 데이터를 훈련 파이프라인에 중단 없이 무한 공급하여 물리 비용을 대폭 절감시킵니다.

3공식 웹사이트 연계¶

대규모 데이터셋 스트리밍, Apache Arrow 저장 최적화 및 복잡한 전처리 매핑 가이드는 Hugging Face Datasets 문서를 참조하십시오.