Jak dać AI wyszukiwalną pamięć o twoich materiałach — także o zdjęciach · Wiki

Zadajesz pytanie modelowi językowemu, a on z pełnym przekonaniem podaje odpowiedź, której nie ma w żadnym z twoich dokumentów. Brzmi sensownie, więc trudno wyłapać błąd — a to jest dokładnie ten moment, w którym AI przestaje być narzędziem, a staje się ryzykiem. Pokażę ci, jak ten problem rozwiązać: jak dać modelowi wyszukiwalną pamięć o twoich materiałach, żeby odpowiadał z konkretnych źródeł, a nie z domysłów. A potem pójdę krok dalej — pokażę, jak w tej samej pamięci umieścić nie tylko tekst, ale też zdjęcia, schematy i skany, tak by dało się je odnaleźć po znaczeniu.

Dlaczego model „zgaduje”

Model językowy zna tylko to, co widział podczas treningu. Twoich instrukcji obsługi, twojego archiwum zleceń, twoich umów w nim nie ma — i nigdy nie będzie, bo to dane prywatne. Kiedy pytasz o coś spoza jego wiedzy, model nie mówi „nie wiem”. On dopowiada najbardziej prawdopodobnie brzmiące zdanie. To nie złośliwość, tylko sposób działania: przewiduje kolejne słowa, a nie sprawdza fakty.

Rozwiązanie nazywa się RAG — z angielskiego retrieval-augmented generation, czyli „generowanie wzbogacone o wyszukiwanie”. Mechanizm jest prosty: zanim AI odpowie, najpierw zagląda do bazy wiedzy, którą sam mu dałeś, wyciąga z niej pasujące fragmenty, i dopiero na ich podstawie formułuje odpowiedź. Najpierw szuka (retrieval), potem wzbogaca o znalezione dane (augmented), na końcu generuje odpowiedź (generation). Zamiast zgadywać z pamięci, czyta z dostarczonego źródła.

To jest fundamentalna różnica, którą warto zapamiętać: RAG to zewnętrzny, wyszukiwalny magazyn wiedzy, do którego model sięga w trakcie odpowiadania. To nie to samo, co wklejenie dokumentu do okna czatu — wklejony tekst znika po rozmowie i nie skaluje się do tysięcy plików. Baza wiedzy zostaje i rośnie.

Jak maszyna w ogóle „rozumie” znaczenie

Żeby AI mogło coś wyszukać po znaczeniu, a nie tylko po dopasowaniu słów, każdy fragment musi najpierw dostać swój adres w przestrzeni znaczeń. Tu wchodzą dwa pojęcia — wyjaśnię oba zwykłymi słowami.

Embedding (czytaj: embedding, można powiedzieć „osadzenie”) to zamiana fragmentu tekstu w zestaw liczb opisujących jego znaczenie. Wyobraź sobie, że każdej myśli przypisujesz współrzędne na ogromnej mapie — tak jak miasto ma szerokość i długość geograficzną. Zdania o podobnym sensie lądują blisko siebie, zdania o różnym sensie — daleko od siebie. „Jak wyczyścić filtr” i „czyszczenie wkładu filtrującego” trafią obok, choć użyto innych słów. To właśnie robi model embeddingowy: liczy te współrzędne znaczeniowe.

Baza wektorowa (po angielsku vector database) to magazyn, w którym te współrzędne się przechowuje. „Wektor” to po prostu ten zestaw liczb-współrzędnych. Kiedy zadajesz pytanie, system liczy współrzędne twojego pytania i sprawdza, które fragmenty leżą najbliżej na mapie znaczeń. Te najbliższe podaje modelowi jako kontekst. Stąd nazwa: szukamy nie po literkach, lecz po sąsiedztwie sensu.

Mapa znaczeń: liczne świecące punkty grupują się w kilka oddzielnych skupień — bliskie punkty oznaczają podobieństwo.

Praktycznie wygląda to tak. Bierzesz dokument — powiedzmy materiał o twojej firmie — i dzielisz go na kawałki (po angielsku chunks). Jeden kawałek to ogólny opis firmy, drugi to dane finansowe, trzeci to marketing. Każdy kawałek przechodzi przez model embeddingowy i dostaje swoje współrzędne. Opis firmy ląduje w jednym rejonie mapy, finanse w drugim, marketing w trzecim. Gdy ktoś zapyta o przychody, system trafia prosto w rejon finansowy — bez przeszukiwania całego dokumentu słowo po słowie.

Przełom: ta sama mapa działa dla obrazów

Do niedawna ta mapa znaczeń była dostępna głównie dla tekstu. Najnowsze modele embeddingowe są multimodalne — to znaczy, że tę samą mapę współrzędnych liczą nie tylko dla tekstu, ale też dla obrazów, a w pewnym zakresie dla nagrań wideo i audio. „Multimodalny” znaczy po prostu: obejmujący różne rodzaje treści naraz, nie tylko jeden.

Co to daje w praktyce? Zdjęcie produktu, schemat techniczny, skan strony z instrukcji — każde z nich dostaje swoje współrzędne znaczeniowe i ląduje w tej samej bazie co tekst. Możesz więc trzymać tekst, zdjęcia i dokumenty w jednym magazynie, a system odnajdzie właściwy element niezależnie od tego, czy to akapit, czy fotografia. Pytasz słowami — dostajesz w odpowiedzi również obraz, bo on też ma swoje miejsce na mapie znaczeń.

To istotny skok, bo w wielu zawodach zdjęcie niesie więcej niż opis. Przy usuwaniu usterki fizycznej diagram bywa cenniejszy niż akapit tekstu — pokazuje dokładnie tę śrubę, którą trzeba odkręcić.

Co to znaczy dla twojej firmy

Przełożę to na konkretne sytuacje, które widzę jako naturalne zastosowania.

Instrukcje obsługi ze zdjęciami. Wrzucasz wielostronicowy dokument — z tekstem, schematami i fotografiami części — i budujesz czat, który na pytanie „jak wyczyścić filtr” odpowiada krokami oraz podaje właściwy schemat z odpowiedniej strony. Klient czy serwisant nie kartkuje sześćdziesięciu stron; pyta normalnym językiem.
Archiwum zleceń i przypadków ze zdjęciami. Wyobraź sobie firmę dekarską, która gromadzi zdjęcia dachów z poprzednich zleceń. Pracownik wgrywa zdjęcie nowego dachu, a system odnajduje podobne realizacje z przeszłości — wraz z notatkami o zakresie prac, czasie i wielkości ekipy, jeśli dopisano je do zdjęć jako opis. To szybki przegląd setek dawnych przypadków zamiast grzebania w teczkach.
Mieszane biblioteki dokumentów. Umowy, prezentacje, notatki, zdjęcia — wszystko w jednym wyszukiwalnym magazynie, przeszukiwane po znaczeniu, a nie po nazwie pliku.
Katalogi wizualne. Klient opisuje, czego szuka, a system dopasowuje produkty również na podstawie ich zdjęć, nie tylko tekstowych metek.

Jest tu jeden warunek, którego nie wolno pominąć. System odnajdzie obraz, ale „rozumie” go najlepiej wtedy, gdy ma do niego dobry opis. Sam plik graficzny to za mało — to opis dodany przy wczytywaniu (metadane: co przedstawia zdjęcie, jakiego dotyczy zlecenia, ile kosztowało) decyduje, czy AI trafnie połączy pytanie z właściwą fotografią. I jeszcze jedno, uczciwie: jeśli takich opisów nie ma albo są ubogie, system potrafi zwrócić sensownie wyglądającą, ale zmyśloną odpowiedź. Jakość bazy to jakość twoich opisów.

Pojedyncza wiązka zapytania zwraca jednocześnie kolumnę kroków oraz zwięzły, abstrakcyjny fragment diagramu technicznego — tekst i obraz pobrane razem.

Jak to się składa — bez wchodzenia w kod

Nie musisz programować, żeby zrozumieć układankę. Pod spodem działają trzy elementy:

Model embeddingowy — liczy współrzędne znaczeniowe dla tekstu i obrazów. To dzięki niemu mapa znaczeń jest jedna dla różnych rodzajów treści.
Baza wektorowa — przechowuje te współrzędne i błyskawicznie znajduje najbliższe sąsiedztwo dla twojego pytania. Wiele takich usług ma darmowy plan startowy, w zupełności wystarczający, by sprawdzić, czy pomysł działa.
Asystent budujący — narzędzie, które na podstawie opisu w zwykłym języku składa cały przepływ: dzieli dokumenty na kawałki, przepuszcza je przez model embeddingowy, zapisuje do bazy i stawia prostą aplikację do rozmowy z tą bazą.

Celowo nie przywiązuję tej lekcji do konkretnej wersji modelu czy nazwy usługi — te zmieniają się z miesiąca na miesiąc, a mechanizm zostaje ten sam. Ważne, że to, co kiedyś wymagało dni żmudnego sklejania i było kruche w utrzymaniu, dziś składa się z opisu zadania w naturalnym języku. To realna zmiana w nakładzie pracy, nie w samej idei.

I tu dochodzimy do sedna, które warto zabrać ze sobą. Skoro techniczne sklejanie przejmuje narzędzie, przewaga przesuwa się gdzie indziej: na jasne opisanie procesu. To, jak nazwiesz i opiszesz swoje materiały, gdzie wskażesz luki i co każesz systemowi traktować priorytetowo — to dziś decyduje o jakości odpowiedzi bardziej niż znajomość konfiguracji. Wartość leży w wiedzy o twoim własnym procesie, a nie w technicznych szczegółach narzędzia.

Jeśli chcesz to przemyśleć dla siebie, zacznij od najmniejszego kroku, który nic nie kosztuje: wypisz jeden zestaw materiałów, do którego pytania wracają u ciebie najczęściej — instrukcję, archiwum zdjęć, teczkę umów — i opisz w jednym zdaniu, czego ludzie w nich zwykle szukają. To zdanie jest fundamentem twojej przyszłej bazy wiedzy.

Dlaczego model „zgaduje”

Jak maszyna w ogóle „rozumie” znaczenie

Przełom: ta sama mapa działa dla obrazów

Co to znaczy dla twojej firmy

Jak to się składa — bez wchodzenia w kod

Powiązane w Bazie wiedzy