Hasło słownika
The Pile
Duży, otwarty zbiór danych tekstowych (dataset) przygotowany przez EleutherAI, używany do trenowania i ewaluacji modeli językowych.
AIkategoria
3aliasy
Pile EleutherAI The Pile The Pile dataset
Opis
The Pile to zlepka wielu źródeł tekstu (m.in. treści webowe, książki, artykuły, fora, kod) zebrana jako korpus do pretreningu LLM. W artykułach pojawia się przy dyskusjach o jakości danych treningowych, licencjach, biasie i ryzykach typu data poisoning.
Przykłady
- Model był pretrenowany na mieszance danych, w tym na The Pile.
- Badacze porównują jakość odpowiedzi modeli w zależności od danych treningowych.