본문 바로가기

기술자료

135M, 360M, 1.7B 매개변수를 갖춘 최첨단 소형 모델 패밀리인 SmolLM을 소개

요약

 135M, 360M, 1.7B 매개변수를 갖춘 최첨단 소형 모델 패밀리인 SmolLM을 소개합니다. 이 모델은 새로운 고품질 데이터 세트에서 학습되었습니다. 데이터 큐레이션, 모델 평가 및 사용에 대해 다룹니다.

소개

로컬 디바이스에서 작동할 수 있는 작은 언어 모델에 대한 관심이 증가하고 있습니다. 이러한 추세에는 큰 모델을 압축하기 위한 증류 또는 양자화와 같은 기술과 큰 데이터 세트에서 작은 모델을 처음부터 학습하는 것이 포함됩니다. 이러한 접근 방식은 추론 비용을 획기적으로 줄이고 사용자 개인 정보 보호를 개선하는 동시에 새로운 응용 프로그램을 가능하게 합니다.

Microsoft의 Phi 시리즈, Alibaba의 Qwen2(2B 미만), Meta의 MobileLLM은 작은 모델이 신중하게 설계되고 학습되면 인상적인 결과를 얻을 수 있음을 보여줍니다. 그러나 이러한 모델의 데이터 큐레이션 및 학습에 대한 대부분의 세부 정보는 공개적으로 제공되지 않습니다.

이 블로그 게시물에서 우리는 135M, 360M, 1.7B 매개변수의 세 가지 크기로 제공되는 최첨단 소규모 언어 모델 시리즈인 SmolLM을 소개하게 되어 기쁩니다. 이 모델은 우리가 SmolLM-Corpus 로 출시하는 꼼꼼하게 큐레이팅된 고품질 교육 코퍼스를 기반으로 구축되었습니다 . Smollm 코퍼스에는 다음이 포함됩니다.

  • Cosmopedia v2 : Mixtral이 생성한 합성 교과서 및 스토리 모음(28B 토큰)
  • Python-Edu : The Stack의 교육용 Python 샘플(4B 토큰)
  • FineWeb-Edu (중복 제거됨) : FineWeb의 교육 웹 샘플(220B 토큰)

저희의 평가는 SmolLM 모델이 다양한 벤치마크에서 크기 범주에서 다른 모델보다 성능이 뛰어나며, 상식적 추론과 세계 지식을 테스트한다는 것을 보여줍니다. 이 블로그 게시물에서는 훈련 코퍼스의 각 하위 집합의 큐레이션을 살펴보고 SmolLM 모델의 훈련 및 평가에 대해 논의합니다.

 

https://huggingface.co/blog/smollm