To jest wersja do trzymania pod ręką. Otwierasz ją w trakcie produkcji wideo, idziesz fazami od klonu twarzy po montaż i odhaczasz kroki. Każdy punkt da się sprawdzić — uruchamiasz coś i potwierdzasz, że działa, zanim ruszysz dalej.
Układ trzech narzędzi: HeyGen robi awatar, ElevenLabs (11 Labs) robi klon głosu, Remotion skleja całość i dokłada napisy oraz animacje. Spina je Claude Code — pracuje jak operator: czyta pliki, wykonuje kroki, łączy się z programami. Ty mówisz, czego chcesz; on wykonuje.
Faza 0 — zanim zaczniesz
- Przygotuj gotowy scenariusz w pliku na dysku — to wciąż twoje myśli, maszyna generuje tylko twarz i głos.
- Załóż konto HeyGen i sprawdź dostęp do wersji awatara Avatar 5 (starsze, Avatar 3 i 4, zdradzają się sztucznym ruchem ust i mechanicznymi gestami).
- Załóż konto ElevenLabs — to stąd bierzesz głos, bo domyślny głos z HeyGen brzmi słabo.
- Ustaw Claude Code jako narzędzie spinające kroki, żeby nie przeklejać fragmentów scenariusza, nie pobierać i nie wgrywać nagrań ręcznie.
- Policz koszty, zanim ruszysz (kwoty orientacyjne, ceny się zmieniają — sprawdź aktualne):
| Pozycja | Koszt |
|---|---|
| Plan HeyGen | ~30 USD / mies. |
| Plan ElevenLabs | ~22 USD / mies. (≈100 min materiału) |
| Claude Code | 20–200 USD |
| HeyGen przez API | ~4 USD za każdy minutowy fragment (10-min wideo ≈ 50 USD) |
Faza 1 — klon twarzy w HeyGen
- Wybierz drogę nagrania awatara:
- Szybsza — nagranie z kamery internetowej: przeczytaj krótki tekst wyświetlony przez narzędzie, nagrywaj około piętnastu sekund, odbierz gotowy klon po chwili.
- Dokładniejsza — wgraj własny materiał: przy mniej więcej dziesięciu gigabajtach nagrań model lepiej oddaje mimikę.
- Generuj w Avatar 5 — uczy się z ponad dziesięciu milionów punktów danych o mimice i z piętnastosekundowego nagrania buduje sobowtóra, który porusza głową, mruga i przełyka.
- Sprawdź efekt: postać ma wyglądać na tyle naturalnie, że trudno odróżnić ją od prawdziwego ujęcia. Jeśli „coś jest nie tak” z ustami, prawdopodobnie pracujesz na starszej wersji.
Faza 2 — klon głosu w ElevenLabs
- Zrób głos osobno w ElevenLabs — to etap, który waży w odbiorze najwięcej.
- Wybierz tryb klonu głosu:
- Instant voice clone — szybki i prosty, ale mniej wierny.
- Professional voice clone — wymaga materiału: co najmniej trzydzieści minut nagrań; okolice dwóch godzin dają najlepszy efekt.
- Reguluj w panelu tempo, stabilność, podobieństwo i nasilenie stylu — licz się z wieloma iteracjami, zanim trafisz w swój sposób mówienia.
- Pobierz gotowe nagranie jako plik dźwiękowy.
- Wgraj plik do HeyGen w sekcji AI Studio i zsynchronizuj z awatarem.
- Nie importuj tego samego głosu wprost do HeyGen — tam brzmi gorzej niż w ElevenLabs. Dlatego głos robisz osobno.
Faza 3 — pocięcie scenariusza
- Przyjmij dwa limity narzędzi:
- HeyGen w Avatar 5 generuje materiały do trzech minut.
- ElevenLabs po mniej więcej minucie zaczyna psuć głos i coraz mniej przypomina oryginał.
- Tnij scenariusz na fragmenty po czterdzieści pięć do sześćdziesięciu sekund — wtedy głos brzmi spójnie przez całość.
- Zleć cięcie Claude Code: bierze tekst z dysku, dzieli na części po mniej więcej minucie i przekazuje do HeyGen.
- Pilnuj, żeby cięcie zawsze wypadało na końcu zdania, nigdy w jego środku — wtedy po sklejeniu nie słychać szwów.
- Obejdź brak Avatar 5 w API: Claude Code generuje w Avatar 4 przez API, a osobny skrypt na Playwright (klika w przeglądarce jak człowiek) otwiera panel HeyGen i przełącza wersję na piątkę. To obejście tymczasowe — zniknie, gdy Avatar 5 trafi do API.
Faza 4 — montaż w Remotion
- Podaj Remotion tło i styl grafiki.
- Pozwól mu złożyć nagrania samodzielnie.
- Sprawdź transkrypcję — Remotion zamienia mowę na tekst z dokładnymi czasami.
- Potwierdź, że napisy i animacje wchodzą w odpowiednich sekundach: skoro narzędzie wie, że słowo padło w czterdziestej czwartej sekundzie, dokładnie tam uruchamia animację — tak dźwięk zgrywa się z grafiką.
- Uruchom cały ciąg wieczorem i odbierz gotowe wideo rano.
Na co uważać
- Głos psuje się po minucie. Nie przekraczaj fragmentów dłuższych niż około minuta w ElevenLabs — dalej coraz mniej przypomina oryginał.
- Cięcie tylko na końcu zdania. Cięcie w środku zdania słychać po sklejeniu jako szew.
- Głos osobno, nie wprost w HeyGen. Import tego samego głosu prosto do HeyGen brzmi gorzej niż w ElevenLabs.
- Avatar 5 jeszcze nie w API. Dopóki dostępne są tylko Avatar 3 i 4, potrzebujesz obejścia z Playwright; usuń je, gdy Avatar 5 trafi do API.
- To nie działa „od pierwszego kliknięcia”. Za gotowym efektem stoi ponad sto, może dwieście wygenerowanych klipów i sporo prób z ustawieniami — przygotuj się na kilka rund poprawek.
- Ceny są orientacyjne. Stawki narzędzi się zmieniają — sprawdź aktualne, zanim policzysz budżet.
Wąskie gardło przesuwa się tu z nagrywania i montażu na to, czego maszyna nie zrobi: pomysł, scenariusz i strategię. Narzędzia skracają produkcję, ale dobry rezultat wciąż wymaga twojej wiedzy o temacie i cierpliwości do poprawek.