Pętle agentów: audyt źródeł i mapa definicji · Zasób

Towarzyszący przewodnik uczy jednego, czystego obrazka pętli agenta — rozumowanie, działanie, obserwacja, w kółko aż do celu. Ten dokument pokazuje, co leży pod spodem: ten czysty obrazek jest moim wyborem redakcyjnym, a samo pole wcale nie zgadza się, czym pętla agenta jest. Przeczytałam, co każde źródło faktycznie ma na myśli — dokumentację dostawców, biblioteki, prace naukowe, blogi, wpisy praktyków — i tu masz mapę.

Krótka odpowiedź: zgody nie ma

Jeśli czytałeś o agentach z kilku źródeł i miałeś wrażenie, że każde mówi coś innego — miałeś rację. W zbiorze, który zebrałam, jest 45 zweryfikowanych źródeł, a w nich nie ma jednej uzgodnionej definicji pętli agenta.

Jedno zdanie się jednak przebiło i brzmi czysto: „model, który używa narzędzi w pętli, by osiągnąć cel”. Pod tą formułą zeszły się trzy duże nazwiska — Anthropic, LangChain i Simon Willison, najczęściej cytowany bloger w tym temacie. To jest ta zgrabna konwergencja, którą uczy też przewodnik. Ale wystarczy zrobić krok w bok, a definicje pękają na kilkanaście odrębnych obozów, które nie zgadzają się co do tego, kto pętlę prowadzi, co liczy się jako jedno okrążenie, czy sprawdzanie wyniku jest jej częścią, a nawet czy „pętla” to w ogóle właściwe słowo.

Audyt zbudowałam jak maszynę typu twórca–sprawdzający: jeden agent znajdował źródło i przepisywał dokładne zdanie, w którym definiuje pętlę, a osobny, niezależny agent ponownie pobierał ten sam adres i orzekał, czy definicja faktycznie jest na stronie. Z 45 źródeł 43 przeszło to potwierdzenie; dwa zostały oznaczone jako częściowe, nie ukryte. Nic tu nie jest niesprawdzone, a podane za pewnik.

Spektrum: od minimum do maksimum

Definicje układają się na jednej osi — od najskromniejszej do najbardziej rozbudowanej.

Na minimalnym końcu stoją te niemal identyczne jednolinijkowce. „Agent LLM uruchamia narzędzia w pętli, by osiągnąć cel” (Willison), „model wywołujący narzędzia w pętli” (LangChain), „LLM-y autonomicznie używające narzędzi w pętli” (Anthropic). Pętla jest tu trywialna; cała sztuka leży w narzędziach, w prompcie i w warunku stopu.

O krok dalej jest nazwany cykl wewnętrzny: rozumuj → działaj → obserwuj → powtarzaj. To obóz spod znaku ReAct — praca Yao i innych, smolagents, LlamaIndex, Pydantic, dokumentacja Bedrock. Każde okrążenie ma tu jawne trzy ruchy, a rozumowanie jest przeplatane z działaniem, a nie zrobione raz na starcie.

Jeszcze dalej dochodzi sprawdzanie jako osobny, nazwany krok pętli — albo robi je ten sam agent („zbierz kontekst → działaj → zweryfikuj pracę → powtórz” z Claude Agent SDK), albo osobny oceniający (wzorzec evaluator-optimizer, planner-generator-evaluator), który ocenia cudzą robotę, dopóki nie przejdzie progu.

Na maksymalnym końcu pętla przestaje być ruchem w głowie agenta i staje się całym systemem: samonapędzającym się, uruchamianym według harmonogramu, rozłożonym na wiele sesji. To tu mieszka „inżynieria pętli” praktyków — Steinberger („masz projektować pętle, które promptują twoje agenty”), Osmani, Ralph Geoffa Huntleya (dosłowna pętla powłoki while :; do cat PROMPT.md | npx amp; done, opisana przez HumanLayer), pętla pamięci międzypróbowej z Reflexion, harness Anthropic do agentów długo działających, które stan wynoszą do gita i plików postępu.

Główne osie sporu

Pod jednozdaniowymi definicjami leżą linie podziału, których one nie pokazują. Zebrałam sześć.

Kto prowadzi pętlę. Jedni mówią, że napędza ją sam model (model jest pętlą). Inni — że pętlę posiada osobny obiekt-orkiestrator: Runner z limitem max_turns i przekazaniami między agentami (OpenAI, Google ADK, Bedrock). Trzeci obóz — frontowi praktycy — twierdzi, że pętlę projektuje człowiek, a agent tylko w niej biegnie.

Co liczy się jako jedno okrążenie. Jedno wywołanie modelu lub narzędzia? Całe okno kontekstu albo jedna sesja? Jedna próba z pamięcią przeniesioną do następnej? Każda odpowiedź daje inną pętlę.

Czy sprawdzanie jest krokiem pętli — i kto sprawdza. Sam agent? Osobny oceniający? A może jawnego kroku weryfikacji nie ma, bo pętla po prostu kończy się, gdy model przestaje wołać narzędzia?

Co zatrzymuje pętlę. Model uznaje, że skończył. Werdykt oceniającego. Twardy limit okrążeń. Kryterium sukcesu, które pętla sama sobie sprawdza. Albo — i to odpowiedź typowo praktyków — nic po stronie modelu: pętla biegnie bez nadzoru, dopóki nie zatrzyma jej operator, harmonogram albo Ctrl+C.

Czy narzędzia są konstytutywne. Połowa źródeł mówi, że używanie narzędzi jest sensem pętli. Druga połowa — że pętlę definiuje decyzja, refleksja, uczenie się albo orkiestracja, a narzędzia są opcjonalne.

Czy „pętla” to w ogóle właściwe słowo. Część źródeł mówi „tak, agent jest w gruncie rzeczy pętlą”. Część — „pętla jest realna, ale za skromna sama w sobie, to tylko jeden element większego systemu”. A osobna pułapka terminologiczna: u Zapiera, w LangChain HITL i Microsoft HITL „loop” znaczy nadzór człowieka (human-in-the-loop) — bramki zatwierdzania, eskalacje — i nie definiuje żadnej pętli agenta. To czysta kolizja nazw; warto ją wyłapać, żeby nie liczyć słowa „pętla” jako zgody tam, gdzie mowa o czymś innym.

Jedenaście obozów definicyjnych

Z tego sporu wyłania się jedenaście odrębnych modeli myślowych „pętli”. Czytając kilku autorów po kolei, trafisz na kilka z nich i uznasz, że to to samo. Nie jest.

Minimalistyczny „narzędzia w pętli” — agent to po prostu model wołający narzędzia, aż cel jest osiągnięty. To formalna konwergencja Willisona i Anthropic. Ciekawostka: swyx cytuje to zdanie tylko po to, by je zaatakować jako „zbyt minimalistyczne, by było użyteczne” — więc minimalistyczna linijka jest dziś tym, z czym się polemizuje.
Wewnętrzny cykl rozumuj-działaj-obserwuj (kanon ReAct) — jedyny obóz, który nazywa jawny cykl poznawczy wewnątrz agenta, i niemal w całości formalny. Niuans z oryginalnej pracy ReAct: „myśl” jest działaniem w przestrzeni języka, które nie daje obserwacji — dlatego kanoniczna kolejność to rozumowanie najpierw.
Pętla samoweryfikacji — krokiem definiującym jest to, że agent sprawdza własny wynik, zanim ruszy dalej. Dwa źródła znaczą tu jednak różne rzeczy: SDK Anthropic stawia to jako ogólną zasadę projektową, a Voyager — jako wąską bramkę poprawności kodu w czterorundowej pętli, po której zapisuje nową umiejętność.
Pętla z osobnym oceniającym — oddzielny agent ocenia wynik wykonawcy; pętla biegnie z informacją zwrotną, aż osiągnie próg. Wykonawca nigdy nie ocenia sam siebie.
Pętla środowiska uruchomieniowego (Runner) — pętla jest prymitywem należącym do obiektu Runner/orkiestratora, nie do agenta. Jedno uruchomienie to jeden krok na poziomie aplikacji, z twardym sufitem max_turns. Obóz w całości formalny — żadne źródło praktyków nie myśli o pętli jak o obiekcie Runner.
Agent jako pętla decyzyjna (planuj-działaj-ucz się) — jedyne źródło, które robi z uczenia się pełnoprawny krok pętli obok planowania i działania, i wprost mówi, że pętla to „nie tylko użycie narzędzi”.
Autonomiczna pętla celu — biegnie bez nadzoru: sama się promptuje albo budzi według harmonogramu, ocenia stan względem kryterium sukcesu, zapisuje wynik i powtarza bez ponownego promptowania przez człowieka. Formalną kotwicą jest tu AutoGPT.
Inżynieria pętli (projektuj pętlę, nie prompt) — przestajesz promptować agenta tura po turze, a zaczynasz projektować system pętli, który go promptuje. Człowiek staje się architektem pętli; to stanowisko frontowych praktyków, oparte na wiralowym wpisie Steinbergera.
Pętla samodoskonalenia / pamięci międzypróbowej — pętla zamyka się przez wiele prób: działaj → dostań zwrotkę → zrefleksuj słowami → zapisz refleksję w pamięci epizodycznej → następnym razem spróbuj lepiej. Doskonalenie idzie przez język, nie przez przeuczanie wag (Reflexion).
„Pętla” to niewłaściwy prymityw — agent to raczej zbiór komponentów niż pętla; pętla to tylko kawałek (przepływ sterowania) albo zachowanie emergentne większej architektury. Tu stoi swyx ze swoim sześcioelementowym modelem IMPACT oraz akademicki przegląd z czteromodułową architekturą (profilowanie/pamięć/planowanie/działanie).
„Pętla” znaczy nadzór człowieka (pułapka terminologiczna) — strony, które słowem „loop” nazywają bramki zatwierdzania przez człowieka i nie definiują żadnej pętli agenta. Czysta kolizja nazewnicza, wyodrębniona osobno, żeby jej nie pomylić ze zgodą.

Nazwane źródła konwergencji

Cały sens audytu polega na tym, że źródła można wskazać z nazwy — to przegląd materiałów publicznych, nie sekret. Czysta, formalna konwergencja na „narzędziach w pętli” to Simon Willison, LangChain i Anthropic (w dwóch sformułowaniach: „autonomicznie używające narzędzi w pętli” oraz „używające narzędzi na podstawie zwrotnej informacji ze środowiska, w pętli”). Kanon wewnętrznego cyklu rozumuj-działaj-obserwuj wnosi praca ReAct (Yao i in.) wraz z bibliotekami smolagents, LlamaIndex i Pydantic. Obiekt Runner z limitem tur to OpenAI, Google ADK i Amazon Bedrock. Autonomiczną pętlę celu zakotwicza AutoGPT, pętlę pamięci międzypróbowej — praca Reflexion, a samoweryfikację kodu — Voyager. Na maksymalnym, „projektuj-pętlę” końcu stoją praktycy: Peter Steinberger, Addy Osmani, Geoffrey Huntley (Ralph) i HumanLayer. Dwa głosy odrzucają samo słowo „pętla”: swyx (model IMPACT) i akademicki przegląd architektur autonomicznych agentów.

Jedną rzecz audyt musi powiedzieć uczciwie: dosłownie początkujący, oddolny głos społeczności jest tu nieobecny. Przeszukałam Reddita i Hacker News pod kątem zapytań w rodzaju „agent to po prostu pętla while”, w tym r/AI_Agents i r/LocalLLaMA — i nie przetrwał ani jeden weryfikowalny wątek. Każde „oddolne” źródło w tym zbiorze to nazwany praktyk z wpisem, blogiem albo nagraniem. Kontrast „oddolni kontra formalni” jest więc naprawdę kontrastem „praktycy-influencerzy kontra dostawcy i akademia”, a nie „początkujący kontra eksperci”. To warto wiedzieć, zanim potraktujesz tę mapę jako głos całego pola.

Rdzeń wspólny: to, co dzielą wszyscy

Zdejmij spory, a zostaje rdzeń obecny niemal w każdym źródle, które naprawdę opisuje pętlę agenta — i jest to dokładnie szkielet, którego uczy przewodnik.

Model jako decydent. Każde źródło opisujące pętlę agenta stawia w jej centrum model językowy, który napędza każde okrążenie. Usuń go, a nie ma pętli — jest skrypt.
Powtarzanie (sama pętla). Z definicji: model jest wołany wielokrotnie, nie raz. Najdosłowniej ujmują to praktycy — naga pętla powłoki while :; do … done.
Stan lub zwrotka przeniesiona do następnego okrążenia. Wynik jednego kroku wraca do kontekstu, by następny był mądrzejszy. Forma bywa różna (obserwacja, wynik narzędzia, refleksja w pamięci epizodycznej, pliki postępu w gicie) — niezmienne jest to, że coś przechodzi dalej, nie to, że każde działanie daje zwrotkę ze środowiska.
Cel, do którego pętla zmierza. Niemal każde źródło nazywa cel: zadanie skończone, zdefiniowany obiektyw, kryterium sukcesu, werdykt „przeszło”. Nawet najbardziej maksymalistyczne pętle praktyków go trzymają.

Jedno zastrzeżenie, bo decyduje o budowie: twardy stop po stronie modelu nie jest częścią rdzenia. Maksymalistyczne pętle praktyków często nie mają żadnego terminatora po stronie modelu i biegną, dopóki nie zatrzyma ich operator albo harmonogram. Cel jest niezmienny; samoistne zatrzymanie się modelu — nie. Hamulec dokładasz ty.

To właśnie ten rdzeń — model, który decyduje, działa, sprawdza wynik i powtarza w stronę jasno postawionego celu, aż będzie gotowe albo aż go zatrzymasz — jest prostą, budowalną wersją z towarzyszącego przewodnika. Mapa pokazuje, jak różnie pole o tym mówi; przewodnik pokazuje, jak to zbudować. Jeśli zaczynasz, wracaj do tej jednej wersji — reszta to wykonanie.