MicroLM2-1M

MicroLM2-1M Γ© um modelo de linguagem ultrapequeno (~1M parΓ’metros) treinado do zero com foco em inglΓͺs e portuguΓͺs.

Detalhes

  • Arquitetura estilo LLaMA
  • ~1 milhΓ£o de parΓ’metros
  • Contexto de 1024 tokens
  • VocabulΓ‘rio de 2048 tokens
  • Tokenizer BPE + Metaspace

Dataset

Treinado em aproximadamente 4.5 bilhΓ΅es de tokens usando:

  • Wikipedia EN
  • Wikipedia PT
  • FineWeb
  • FineWeb-Edu
  • FineWeb2 PT (por_Latn)

Treino

  • Treinado do zero
  • FlashAttention 2
  • bfloat16
  • PyTorch + Transformers

Benchmarks

O resultado do MicroLM2-1M no BLiMP foi: 0.5422

Uso

from transformers import AutoTokenizer, LlamaForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "CromIA/MicroLM2-1M"
)

model = LlamaForCausalLM.from_pretrained(
    "CromIA/MicroLM2-1M"
)

ObservaΓ§Γ΅es

Projeto experimental voltado para:

  • pesquisa
  • tiny language models
  • eficiΓͺncia
  • experimentos com tokenizers
Downloads last month
181
Safetensors
Model size
1.71M params
Tensor type
BF16
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ 1 Ask for provider support

Model tree for CromIA/MicroLM2-1M

Quantizations
1 model

Datasets used to train CromIA/MicroLM2-1M

Spaces using CromIA/MicroLM2-1M 3