Co to jest Potok danych (data pipeline)?

Słownik AI

Potok danych (data pipeline)

potok danych, data pipeline, rurociąg danych, przepływ danych, pipeline danych

Potok danych to uporządkowany ciąg kroków, którymi dane płyną od źródła przez pobranie, oczyszczanie i przetwarzanie aż do modelu lub bazy zasilającej RAG. Każdy etap przekazuje wynik kolejnemu, co czyni przepływ powtarzalnym.

To uporządkowany przepływ danych od źródła, przez pobranie, oczyszczanie i przekształcenie, po cel — model lub bazę wektorową.
Każdy etap przyjmuje wynik poprzedniego i przekazuje swój następnemu, dzięki czemu przepływ jest powtarzalny i można go uruchamiać automatycznie.
W RAG typowy potok obejmuje pobranie dokumentów, dzielenie na fragmenty, liczenie embeddingów i zapis do bazy wektorowej.

Potok danych to uporządkowany ciąg kroków, które przeprowadzają dane od miejsca, w którym powstają, do miejsca, w którym są używane. Typowo obejmuje pobranie danych ze źródła, ich oczyszczenie i ujednolicenie, przekształcenie do potrzebnego formatu oraz zapis w docelowym miejscu — modelu, hurtowni albo bazie zasilającej system AI. Kluczowa jest tu kolejność i powtarzalność: każdy etap przyjmuje wynik poprzedniego, więc cały przepływ można uruchamiać wielokrotnie i automatycznie, zawsze tak samo.

W kontekście systemów AI potok danych to warstwa, która przygotowuje materiał, zanim trafi on do modelu. Dla architektury RAG typowy potok pobiera dokumenty ze źródeł, dzieli je na fragmenty przez chunking, liczy dla każdego fragmentu embedding i zapisuje je w bazie wektorowej. Dopiero tak przygotowana baza obsługuje pytania użytkowników, więc jakość i kompletność potoku przekłada się wprost na to, co model dostaje jako kontekst.

Potoku danych nie należy mylić z pojedynczym przekształceniem: pojedynczy krok, jak samo dzielenie na fragmenty czy liczenie embeddingów, jest tylko jednym ogniwem, a potok spina te ogniwa w całość i pilnuje, by dane przechodziły przez nie w ustalonym porządku. We wdrożeniach firmowych to właśnie potok decyduje o tym, czy nowy lub zmieniony dokument trafi do systemu szybko i bez ręcznej obsługi — dlatego jego stabilność i monitorowanie traktuje się na równi z jakością samego modelu.

Powiązane pojęcia

Powiązane artykuły