Słownik AI
Chunking (dzielenie na fragmenty)
dzielenie na fragmenty, fragmentacja dokumentów
Chunking to dzielenie dokumentów na mniejsze fragmenty przed zamianą na embeddingi, tak aby do modelu trafiały spójne i trafne kawałki tekstu — kluczowy krok przygotowania danych dla RAG.
- Dzieli długie dokumenty na mniejsze fragmenty.
- Wpływa na trafność wyszukiwania i jakość odpowiedzi.
- Poprzedza tworzenie embeddingów w systemach RAG.
Chunking porządkuje dane przed ich indeksacją: długie dokumenty są cięte na fragmenty o sensownej wielkości, bo cały plik rzadko nadaje się jako pojedyncza jednostka wyszukiwania. Zbyt duże fragmenty rozmywają znaczenie, zbyt małe gubią kontekst, dlatego dobór wielkości i zakładek między fragmentami ma realny wpływ na wyniki.
Każdy fragment zamieniamy następnie na embedding i zapisujemy w bazie wektorowej. Przy pytaniu system zwraca najtrafniejsze fragmenty, więc jakość chunkingu wprost przekłada się na to, co model dostaje jako kontekst w architekturze RAG.
Powiązane pojęcia
W przewodnikach