Hasło słownika

The Pile

Duży, otwarty zbiór danych tekstowych (dataset) przygotowany przez EleutherAI, używany do trenowania i ewaluacji modeli językowych.

AIkategoria
3aliasy
Kategoria: AI
Aliasy: Pile EleutherAI The Pile The Pile dataset

Opis

The Pile to zlepka wielu źródeł tekstu (m.in. treści webowe, książki, artykuły, fora, kod) zebrana jako korpus do pretreningu LLM. W artykułach pojawia się przy dyskusjach o jakości danych treningowych, licencjach, biasie i ryzykach typu data poisoning.

Przykłady

  • Model był pretrenowany na mieszance danych, w tym na The Pile.
  • Badacze porównują jakość odpowiedzi modeli w zależności od danych treningowych.