Narzędzia AI Zasób

Wideo z awatarem AI bez kamery — checklista

Lista kroków do nagrania wideo z własnym awatarem i klonem głosu — od klonu twarzy po montaż. Otwierasz ją w trakcie pracy i odhaczasz etapy.

To jest wersja do trzymania pod ręką. Otwierasz ją w trakcie produkcji wideo, idziesz fazami od klonu twarzy po montaż i odhaczasz kroki. Każdy punkt da się sprawdzić — uruchamiasz coś i potwierdzasz, że działa, zanim ruszysz dalej.

Układ trzech narzędzi: HeyGen robi awatar, ElevenLabs (11 Labs) robi klon głosu, Remotion skleja całość i dokłada napisy oraz animacje. Spina je Claude Code — pracuje jak operator: czyta pliki, wykonuje kroki, łączy się z programami. Ty mówisz, czego chcesz; on wykonuje.

Faza 0 — zanim zaczniesz

  • Przygotuj gotowy scenariusz w pliku na dysku — to wciąż twoje myśli, maszyna generuje tylko twarz i głos.
  • Załóż konto HeyGen i sprawdź dostęp do wersji awatara Avatar 5 (starsze, Avatar 3 i 4, zdradzają się sztucznym ruchem ust i mechanicznymi gestami).
  • Załóż konto ElevenLabs — to stąd bierzesz głos, bo domyślny głos z HeyGen brzmi słabo.
  • Ustaw Claude Code jako narzędzie spinające kroki, żeby nie przeklejać fragmentów scenariusza, nie pobierać i nie wgrywać nagrań ręcznie.
  • Policz koszty, zanim ruszysz (kwoty orientacyjne, ceny się zmieniają — sprawdź aktualne):
PozycjaKoszt
Plan HeyGen~30 USD / mies.
Plan ElevenLabs~22 USD / mies. (≈100 min materiału)
Claude Code20–200 USD
HeyGen przez API~4 USD za każdy minutowy fragment (10-min wideo ≈ 50 USD)

Faza 1 — klon twarzy w HeyGen

  • Wybierz drogę nagrania awatara:
  • Szybsza — nagranie z kamery internetowej: przeczytaj krótki tekst wyświetlony przez narzędzie, nagrywaj około piętnastu sekund, odbierz gotowy klon po chwili.
  • Dokładniejsza — wgraj własny materiał: przy mniej więcej dziesięciu gigabajtach nagrań model lepiej oddaje mimikę.
  • Generuj w Avatar 5 — uczy się z ponad dziesięciu milionów punktów danych o mimice i z piętnastosekundowego nagrania buduje sobowtóra, który porusza głową, mruga i przełyka.
  • Sprawdź efekt: postać ma wyglądać na tyle naturalnie, że trudno odróżnić ją od prawdziwego ujęcia. Jeśli „coś jest nie tak” z ustami, prawdopodobnie pracujesz na starszej wersji.

Faza 2 — klon głosu w ElevenLabs

  • Zrób głos osobno w ElevenLabs — to etap, który waży w odbiorze najwięcej.
  • Wybierz tryb klonu głosu:
  • Instant voice clone — szybki i prosty, ale mniej wierny.
  • Professional voice clone — wymaga materiału: co najmniej trzydzieści minut nagrań; okolice dwóch godzin dają najlepszy efekt.
  • Reguluj w panelu tempo, stabilność, podobieństwo i nasilenie stylu — licz się z wieloma iteracjami, zanim trafisz w swój sposób mówienia.
  • Pobierz gotowe nagranie jako plik dźwiękowy.
  • Wgraj plik do HeyGen w sekcji AI Studio i zsynchronizuj z awatarem.
  • Nie importuj tego samego głosu wprost do HeyGen — tam brzmi gorzej niż w ElevenLabs. Dlatego głos robisz osobno.

Faza 3 — pocięcie scenariusza

  • Przyjmij dwa limity narzędzi:
  • HeyGen w Avatar 5 generuje materiały do trzech minut.
  • ElevenLabs po mniej więcej minucie zaczyna psuć głos i coraz mniej przypomina oryginał.
  • Tnij scenariusz na fragmenty po czterdzieści pięć do sześćdziesięciu sekund — wtedy głos brzmi spójnie przez całość.
  • Zleć cięcie Claude Code: bierze tekst z dysku, dzieli na części po mniej więcej minucie i przekazuje do HeyGen.
  • Pilnuj, żeby cięcie zawsze wypadało na końcu zdania, nigdy w jego środku — wtedy po sklejeniu nie słychać szwów.
  • Obejdź brak Avatar 5 w API: Claude Code generuje w Avatar 4 przez API, a osobny skrypt na Playwright (klika w przeglądarce jak człowiek) otwiera panel HeyGen i przełącza wersję na piątkę. To obejście tymczasowe — zniknie, gdy Avatar 5 trafi do API.

Faza 4 — montaż w Remotion

  • Podaj Remotion tło i styl grafiki.
  • Pozwól mu złożyć nagrania samodzielnie.
  • Sprawdź transkrypcję — Remotion zamienia mowę na tekst z dokładnymi czasami.
  • Potwierdź, że napisy i animacje wchodzą w odpowiednich sekundach: skoro narzędzie wie, że słowo padło w czterdziestej czwartej sekundzie, dokładnie tam uruchamia animację — tak dźwięk zgrywa się z grafiką.
  • Uruchom cały ciąg wieczorem i odbierz gotowe wideo rano.

Na co uważać

  • Głos psuje się po minucie. Nie przekraczaj fragmentów dłuższych niż około minuta w ElevenLabs — dalej coraz mniej przypomina oryginał.
  • Cięcie tylko na końcu zdania. Cięcie w środku zdania słychać po sklejeniu jako szew.
  • Głos osobno, nie wprost w HeyGen. Import tego samego głosu prosto do HeyGen brzmi gorzej niż w ElevenLabs.
  • Avatar 5 jeszcze nie w API. Dopóki dostępne są tylko Avatar 3 i 4, potrzebujesz obejścia z Playwright; usuń je, gdy Avatar 5 trafi do API.
  • To nie działa „od pierwszego kliknięcia”. Za gotowym efektem stoi ponad sto, może dwieście wygenerowanych klipów i sporo prób z ustawieniami — przygotuj się na kilka rund poprawek.
  • Ceny są orientacyjne. Stawki narzędzi się zmieniają — sprawdź aktualne, zanim policzysz budżet.

Wąskie gardło przesuwa się tu z nagrywania i montażu na to, czego maszyna nie zrobi: pomysł, scenariusz i strategię. Narzędzia skracają produkcję, ale dobry rezultat wciąż wymaga twojej wiedzy o temacie i cierpliwości do poprawek.