Od „vibe codingu” do inżynierii agentowej — jak dojrzewa budowanie z AI według Karpathy'ego · Wiki

Andrej Karpathy — współtwórca OpenAI, człowiek, który uruchomił autopilota w Tesli, a rok temu ukuł termin „vibe coding” — przyznaje, że nigdy nie czuł się tak bardzo w tyle jako programista. To zaskakujące wyznanie z jego ust. Karpathy tłumaczy, dlaczego: praca z AI zmieniła się w ciągu kilku miesięcy na tyle, że stare przyzwyczajenia przestały wystarczać. Poniżej jego główne myśli, przełożone na język zrozumiały dla każdego — bo dotyczą nie tylko programistów. (Karpathy to badacz AI; gdy mówi „model” albo „LLM”, ma na myśli duży model językowy — program wytrenowany na ogromnej ilości tekstu z internetu, który na podstawie polecenia generuje odpowiedź.)

Moment, w którym przestał poprawiać

Karpathy używał narzędzi agentowych — czyli takich, w których AI nie tylko odpowiada, ale sama wykonuje kolejne kroki pracy — od mniej więcej roku. Były dobre w pisaniu fragmentów kodu, czasem się myliły, trzeba było poprawiać. Punktem zwrotnym był dla niego grudzień. Najnowsze modele zaczęły zwracać gotowe fragmenty, on prosił o więcej, i wciąż było dobrze. W pewnym momencie zorientował się, że nie pamięta, kiedy ostatnio cokolwiek poprawiał — i po prostu zaufał systemowi. Tak właśnie wpadł w „vibe coding”: tworzenie oprogramowania na wyczucie, gdzie opisujesz, czego chcesz, a model robi resztę, a ty nie wnikasz w szczegóły.

Karpathy podkreśla, że była to ostra, wyraźna zmiana — i że wielu ludzi ją przegapiło. Większość poznała AI rok wcześniej jako „coś w rodzaju ChatuGPT”: okno do rozmowy. Tymczasem, jego zdaniem, około grudnia coś się zmieniło fundamentalnie — zaczął realnie działać spójny, samodzielny przepływ pracy agenta. Jego folder z pobocznymi projektami jest dziś, jak mówi, wypełniony po brzegi. To pierwszy ważny sygnał, który z tego wyciągam: warto spojrzeć na te narzędzia jeszcze raz, bo punkt odniesienia sprzed roku jest już nieaktualny.

„Software 3.0”, czyli komputer, do którego mówisz

Najważniejsza idea Karpathy'ego brzmi tak: model językowy to nie lepsze oprogramowanie — to nowy rodzaj komputera. Układa to w trzy ery. „Software 1.0” to klasyczne programowanie: człowiek pisze precyzyjne reguły. „Software 2.0” to uczenie maszynowe: zamiast reguł przygotowujesz dane i trenujesz na nich sieć neuronową. „Software 3.0” to era obecna: programem staje się polecenie zapisane zwykłym językiem, a model jest niczym komputer, który to polecenie wykonuje.

Karpathy ilustruje to dwoma przykładami. Pierwszy: instalacja pewnego narzędzia. Dawniej był to skomplikowany skrypt, który musiał przewidzieć każdy typ komputera, więc puchł i komplikował się bez końca. Dziś instrukcją jest fragment tekstu, który wklejasz swojemu agentowi — a on sam ogląda twoje środowisko, dopasowuje kroki i naprawia potknięcia po drodze. Nie musisz rozpisywać każdego szczegółu; inteligencję dokłada agent.

Abstrakcyjna sylwetka człowieka podaje świetlisty skrawek z poleceniem spokojnemu robotowi, który trzyma rozświetloną skrzynkę pełną narzędzi.

Drugi przykład poszedł dalej i, jak mówi, zwalił go z nóg. Zbudował aplikację MenuGen: robisz zdjęcie menu w restauracji, a program dorysowuje obrazki potraw, których nie znasz. Potem zobaczył wersję „3.0” tego samego pomysłu — wystarczyło dać modelowi zdjęcie i poprosić, by nadrysował potrawy wprost na obrazku menu. Model zwrócił dokładnie to zdjęcie, ale z domalowanymi daniami. Karpathy mówi wprost: cała jego aplikacja okazała się zbędna — to relikt starego sposobu myślenia. Stąd jego apel: nie traktujmy AI tylko jako przyspieszenia tego, co już robimy. Pojawiają się rzeczy zupełnie nowe — jak choćby budowanie bazy wiedzy wprost z luźnych dokumentów, czego wcześniej żaden program po prostu nie potrafił zrobić. Ta możliwość ekscytuje go najbardziej.

Dlaczego AI jest „poszarpana”

Skoro modele są tak potężne, dlaczego potrafią się mylić w rzeczach banalnych? Karpathy tłumaczy to przez pojęcie weryfikowalności. Klasyczny komputer łatwo automatyzuje to, co da się precyzyjnie zapisać w kodzie. Dzisiejsze modele łatwo automatyzują to, co da się sprawdzić — bo trenuje się je, nagradzając za poprawny wynik. Dlatego najmocniejsze są tam, gdzie odpowiedź łatwo zweryfikować: matematyka, kod i tematy pokrewne. A poza tym obszarem bywają chropowate.

Nazywa tę nierówność „poszarpaną inteligencją” (jagged intelligence). Jego ulubiony przykład: ten sam zaawansowany model potrafi przebudować ogromny projekt albo znaleźć lukę w zabezpieczeniach — a zapytany, czy iść pieszo do myjni oddalonej o 50 metrów, czy podjechać autem, doradza spacer, bo „to przecież blisko”. Dla Karpathy'ego to ważna lekcja praktyczna: nadal trzeba być trochę „w pętli”, traktować model jak narzędzie i wiedzieć, co robi. Dodaje też trzeźwą uwagę: nasze możliwości zależą od tego, czym laboratoria nakarmiły modele. Jeśli twoje zadanie trafiło w obszar, na którym je trenowano — lecisz. Jeśli nie — będziesz się męczyć, a czasem trzeba modelowi „dotrenować” własne dane.

Dwa różne rzemiosła: vibe coding kontra inżynieria agentowa

Tu Karpathy stawia najczystsze rozróżnienie ze wszystkich swoich myśli. Mówi, że vibe coding podnosi podłogę: każdy może dziś zbudować dowolny prosty program, i to jest wspaniałe. Ale inżynieria agentowa (agentic engineering) to co innego — chodzi w niej o utrzymanie poprzeczki jakości, którą znamy z profesjonalnego oprogramowania. Nie wolno wprowadzać luk w zabezpieczeniach tylko dlatego, że pracowało się „na wyczucie”. Wciąż odpowiadasz za swój produkt jak dawniej — pytanie tylko, jak robić to szybciej, ale porządnie.

Nazywa to inżynierią, bo to dyscyplina. Agent — czyli wyspecjalizowana AI, która samodzielnie wykonuje zadania — bywa zawodny i nieprzewidywalny, a zarazem niezwykle mocny. Sztuką jest tak go poprowadzić, by przyspieszyć bez utraty jakości. Karpathy zauważa, że dawno mówiło się o „programiście 10x”, czyli dziesięciokrotnie wydajniejszym. Jego zdaniem ludzie naprawdę dobrzy w pracy z agentami wychodzą dziś znacznie ponad ten próg. Najprościej widać to przy rekrutacji: jego zdaniem dawne zadania z łamigłówkami to wciąż stary świat. Lepszym sprawdzianem jest dać komuś duży projekt — na przykład bezpieczny serwis — i zobaczyć, jak go zbuduje i czy obroni przed próbą włamania.

Co zostaje po stronie człowieka

Abstrakcyjna sylwetka dyrygenta z uniesioną batutą kieruje rozświetlonymi, instrumentalnymi formami ułożonymi jak orkiestra agentów.

Skoro agenci robią coraz więcej, co staje się cenniejsze u człowieka? Karpathy odpowiada: gust, osąd i nadzór. Daje obrazowy przykład z MenuGen. Logowanie szło przez konto Google, a płatność przez osobny serwis — i agent próbował powiązać wpłaty z użytkownikiem po adresie e-mail. Problem w tym, że adresy mogą się różnić, więc pieniądze nie zawsze trafiały do właściwej osoby. Człowiek od razu widzi, że tak się nie projektuje — trzeba trwałego identyfikatora użytkownika. To rola człowieka: ustalić sensowny plan i specyfikację.

Karpathy opisuje nowy podział pracy obrazem stażysty. Drobiazgi — dziesiątki szczegółów technicznych, których sam już nie pamięta — przejmuje agent, bo ma świetną pamięć. Ale rozumieć, co dzieje się pod spodem, wciąż musi człowiek, żeby nie marnować zasobów i prosić o właściwe rzeczy. Ty odpowiadasz za projekt, sens i smak; agent wypełnia luki. Czy gust przestanie się liczyć, gdy modele dojrzeją? Karpathy szczerze nie wie. Zauważa, że dziś kod od modeli bywa rozdęty i niezgrabny — działa, ale potrafi przyprawić o zawał. Nic jednak nie stoi na przeszkodzie, by się poprawiło; po prostu laboratoria jeszcze tego nie dopilnowały.

Dokąd to zmierza i co z tego wynika

Karpathy uważa, że świat narzędzi jest wciąż pisany dla ludzi — a powinien być pisany „pod agenta”. Jego ulubione zrzędzenie: dokumentacja każe mu klikać i czytać, a on chciałby wiedzieć tylko jedno — jaki fragment tekstu wkleić swojemu agentowi. Spodziewa się więc infrastruktury, w której dane są czytelne dla modeli, a docelowo świata, w którym ludzie i firmy mają swoich agentów: „mój agent dogada się z twoim agentem” w sprawie szczegółów spotkania. Jak daleko to zajdzie — zostawia otwarte; sam siebie studzi.

Na koniec Karpathy wraca do tego, czego wciąż warto uczyć się naprawdę, gdy inteligencja staje się tania. Cytuje zdanie, które, jak mówi, chodzi za nim co kilka dni: „Myślenie możesz zlecić na zewnątrz, ale zrozumienia nie”. Sam czuje się dziś wąskim gardłem — to on musi wiedzieć, co właściwie budujemy i po co, żeby dobrze pokierować agentami. A żeby kierować, trzeba rozumieć — bo akurat z rozumieniem modele radzą sobie najsłabiej. Dla zwykłego czytelnika i operatora płynie z tego prosty wniosek: narzędzia robią coraz więcej za nas, ale to nasze rozumienie wyznacza, dokąd je poprowadzimy — i właśnie ono zostaje najcenniejsze.