Automaatse podcasti arhitektuur

Volikogu Värinate torustik

Jun 18, 2025

Olen mõnda aega eksperimenteerinud erinevate meedia- ja tekstimudelitega, et luua torustik, mis suudab episoodi lühikirjeldusest (lõik teksti) luua automaatselt täispikkuses podcasti episoodi. See tähendab, et ilma inimabita luuakse episoodi plaan, dialoog, kõne (heli), video ja muusika. Tänaseks olen jõudnud punkti, kus iga nimetatud osa on nüüd eestikeelsetes vormides kaetud. Mööndustega vajavad osa sammud kvaliteetse väljundi saamiseks inimese poolset dirigeerimist (eriti Muusika), kuid reeglina jääb see erinevatest variantidest parima väljavalimise juurde.

Enne kui spetsiifikasse lähme, siis siin on parim näide kogu torustiku väljundist (paraku oli video generatsioon nii kallis, et videoklipid on kõik esimesed variandid, mitte testitud parimad):

Idee tekkis aprilli keskpaigas, kui katsetasin Googlei uut toodet NotebookLM. Süsteem, kuhu saab lisada suure hulga erinevaid dokumente ning nende kohta küsimusi küsida. Sellega mängides jäi silma huvitav nupp: “Generate audio overview”. Väljundis oli kaks inimest rääkimas KOV reitingust, mille dokumendid olin testiks süsteemi sisse pannud. Mõlemad rääkisid huvitavalt, naersid, tegid pause ning üldine toon vastas täpselt sõnadele, mida nad rääkisid. Tol hetkel tundus see must maagia, kuna ei olnud veel avaldatud mudelit, mis mitme kõnelejaga loomulikku ja inimesest eristamatut dialoogi suudaks pidada. Seda kuulates tekkis kiirelt mõte, äkki saaks sama teha ka puhtas eesti keeles.

Pean rõhutama, et turul ei eksisteeri toodet, mis tuleks toime pikas vormis meedialoomega ja kataks ära kõik või isegi pooled üksikosad. Laialt reklaamitud videomudelid on valdavalt ussiõli. Need loovad 5-10 sekundilisi klippe, mis on kehvasti juhitavad ja loovad illusiooni, et AI videomudelid on jõudnud kaugele. Ei ole. Suured videomudelid on valdavalt kehvasti juhitavad, väheste sisenditega (nt ainult tekst või pilt), nende väljundite omavaheline sobitamine on väga keeruline ning kvaliteet selline, et kui tavaliselt maksad 0.5-0.75 eurot ühe sekundi eest, siis praktikas tuleb igat sekundit korduvalt genereerida, et saada kasutatav väljund.

Kronoloogia

6. mai - esimene eksperiment

Tol hetkel oli süsteem lihtne. See koosnes lihtsatest karakterikirjeldustest ja KOV reitingu hetkeseisu ning metoodikat kirjeldavatest tekstifailidest, mis laeti dialoogi genereerimisel LLMi mällu. Dialoog genereeriti ühe sammuna ning loodud dialoog läks automaatselt edasi GPT-4o mini TTS mudelisse, et see heliks muundada. Kvaliteet oli puhtalt podcastina, mitte tech demona, kaheldava väärtusega. Helimudel tuli üldiselt, kuid vigadega, eesti keelega toime ning suutis ka mõningaid emotsioone väljendada, kuid robotlikkus oli veel selgelt tabatav.

9. mai - kvaliteetsem heli ja muusika

Kuigi esimene eksperiment oli vahva, oli selle põhikvaliteet “vau AI oskab seda” efektis, mitte toredas kuulamises. Efekt, mis ühe kuulamise järel ära kaob. Järgmist samasugust kuulata ei tahaks.

Siiski, mai algusperioodil püüdsin just seda vau efekti, mitte ei pannud niiväga rõhku sisulisse kvaliteeti. Selleks asendasin 4o mini TTSi ära parema TTS 1 HD vastu. Robotlikkus vähenes, kuid kerge monotoonsus jäi.

Suurim muutus tuli aga eksperimentidest muusikaga. Tundsin, et episoodid oleksid palju vahvamad, kui iga lõpus oleks pala, mis oma püändi teemale lisab. Selleks testisin läbi kõik muusikamudelid mille suutsin kokku otsida. Tehnilisem kriteerium oli, et mudel peab vastu võtma nii muusika stiilikirjelduse, lüürika, suutma enam-vähem täpselt need ära tabada ning tulema toime ka eesti keelega. Lõpuks otsustasin Suno 4.5 kasuks, mis kattis kõige paremini ära kõik kriteeriumid. Tänaseni toimetan sellega.

Muusika loomise automaatne pool oli üsna lihtne. Lõin prompti, mis kirjeldas parimaid praktikaid stiili ja lüürika osas (nii hästi kui tol hetkel neid tundsin) ning söötsin selle sisse LLM-ile. LLMi ülesanne oli seejärel 3-sammuna luua stiil ja lüürika, kus teine samm oli mustandi parandus ja kolmas lõplik puhtand. Need liiguvad edasi Sunosse, mis genereerib muusika.

Siiski, kuna head muusikat puhtalt tekstist ei loo, hakkas üsna kiirelt siin inimpool sisse hiilima. Juba esialgsetest lauludest lõin väiksete muudatustega ehk paarkümmend varianti, kuid loodust on need parima näited sellest, mida Suno parameetreid paremini mõistmata saab üsna kergelt eestikeelsena luua. Põhiliselt tuli variante luua, et eesti keel saada kuulatavaks.

Volikogu värinate tunnusmuusika:

1×

0:00

-3:09

Reklaamipausi muusika (korruptsioonile kutsuv reklaam):

1×

0:00

-3:54

14. mai ja 18. mai - dialoogi parandused

Mai keskpaigaks hakkasid mind hullu teadlase Märdi tegelaskuju pidev jauramine “poliitilise entroopia hüpermudel 9000” kõlaga ideedest ja laibakuuride ja kvantfüüsika naljad tõsiselt ära tüütama. Neis ei olnud enam midagi loovat. Märdi ja Liina karakterikirjeldused olid sellised, mis tootsid stampväljundit, mis ei olnud enam mulle endale kuulatavad ega pannud enam isegi muigama. Need olid muutunud tüütuteks ja igavateks. Väljastpoolt ehk ei tundu need nii halvad, aga kui oled ise 50. episoodi puhtandi juures ning jälle kuulad, kuidas Reformierakond on “nagu laip, kes […]” või Isamaa on nagu Schrödingeri kass, siis ajab see ikka meele mustaks.

Niisiis, “kirjuta plaan, seejärel dialoog ning siis puhtand” protsess hakkas muunduma. Hakkasin testima erinevaid mudeleid ning mängima nende parameetritega. Testisin variante, kus üks LLM kirjutab kõrgema temperatuuriga (kaootilisem väljund) dialoogi kui ka kahe LLM-i vahelist vestlust (kumbki LLM mängib ühte karakterit, vastuseid põrgatakse üksteisele).

Lõppvariandina maandusin süsteemile, kus igal tegelaskujul on nn. avalik ja lühike profiil, mis antakse ka vestluskaaslase ja iga LLMi mällu. Detailne tegelaskuju psühholoogia, eluloo kirjeldus, iseloomuomadused, teadmised jms näeb ainult see LLM, kes selle tegelase vastuseid ise etendab. Samuti sai oluliselt täiendust LLM-ide mälu. Teadmistesse lisandusid viimase 30 aasta olulisemad sündmused, skandaalid, valimistulemused, majandus- ja demograafiatrendid, olulisemad uuringutulemused (eurobaromeeter, usaldusmõõdikud) jpm. Selles protsessis teeb nüüd süsteem läbi järgnevad sammud:

Episoodi struktuuri planeerimine (mis teemad läbi käia, mis järjekorras, üldisemad ideed).
Episoodi plaani puhtand (lühendatud ja kõige olulisem, et mahuks pikkuse sisse)
Iga tegelaskuju isiklik plaan, mille loomise puhul näeb LLM ka detailset karakterikirjeldust
Dialoogi simulatsioon: kumbki tegelaskuju saab ette oma mälu, oma karakteri detailse kirjelduse ja oma plaani. Nende põhjal hakatakse kahe LLMi mõtteid põrgatama. Tekib loomulikum dünaamika, mis võib viia ettearvamatute tulemusteni. Kumbki LLM ei tea täpselt, millest teine planeerib rääkida jne. Oluline rõhutada, et saatejuht ise otsustab siin millal saate lõpetab ning saatejuhi ülesanne on jälgida, et kõik punktid saaks kaetud. Ajendab rohkem ajakirjanduslikku stiili.
Mustandi analüüs - LLM analüüsib pikkust, üldist dialoogi naturaalsust, faktide paikapidavust
Esimene redaktsioon - Analüüsi põhjal kirjutab teine LLM dialoogi paremaks.
Viimane analüüs - Analüüsitakse naljade tabavust, viimaseid suuremaid puudujääke, kas esmased parandused aitasid piisavalt
Puhtand - LLM kirjutab lõpliku analüüsi põhjal puhtandi

Nende muudatuste järel muutusid struktureeritumaks ja rohkem kuulatavaks. Vähemalt mõneks ajaks. Alguses käisid Liina ja Märt läbi numbrid, tegid neist ülevaate ning siis sai episood vaikselt teatraalsemaks minna.

Muusika poolel avastasin, et Sunot saab lüürikas ka palju enam suunata kui seni arvasin. Piisavate testidega saab teha stiilimuutusi, täpsustada lauljaid, lisada heliefekte jpm.

See tähendas, et kui esialgu timmisin põhiliselt keelelist korrektsust, siis nüüd püüdsin tabada juba igasuguseid efekte, muusikalisi üleminekuid jpm. Paarikümnest variandist enne laulu lõppvarianti sai nüüd sadakond. LLM-i sisend laulu loomisel muutus aina väiksemaks.

“Elegantne eutanaasiaplaan”

1×

0:00

-2:24

“Hilisrooma Äng” (katse teha žanri üleminekuid)

1×

0:00

-3:19

18. mai - Helimudeli häkid ja Claude Opus 4

Kuna algne eesmärk oli perfektne ja robotist eristamatu TTS mudel, jätkasin helimudelite otsinguid. Testisin läbi kõik tänapäevasemad helimudelid mille suutsin interneti sügavustest üles otsida ning liikusin lõpuks gpt-4o-audio-preview juurde. Tegemist ei ole TTS mudeliga, mis võtab teksti ja muundab selle heliks. Tegemist on multimodaalse LLM-iga, mis suudab kasutajaga vestelda nii teksti kui heli abil. Lihtsalt heli ise oli realistlikum ja kvaliteetsem kui OpenAI TTS mudelid ise (neil on veel parem variant olemas, aga paraku seda läbi API kasutada ei saa).

Niisiis, kuidas panna LLM rääkima etteantud teksti? Osad APId, sealhulgas OpenAI oma, võtab sisendina vastu tokenite (võib mõelda kui silpidest, lihtsustatuna) tõenäosused. See tähendab, et läbi API saab määrata, mis tõenäosusega LLM oma vastuses ühte või teist tokenit kasutab. Ehk kõik tokenid mis ei esinenud tekstis mida tuli ette lugeda määrasin ma nulliks ning samuti keerasin mudeli temperatuuri nulli (temperatuur määrab, kui kaootilised või üheülbalised on vastused). Lisaks lisasin veel tagavara filtri, mis kordab sama vastuse heli genereerimist juhul kui helis olev tekst erineb liialt sisendist. Samuti, iga järgneva klipi genereerimisel läks sisendina sisse ka 2 eelmist heliklippi, see tagas “naturaalsema” dialoogi. Tänu kõigile neile häkkidele sai LLMi kasutada nagu see oleks TTS mudel. Kui tekstis oli nali, siis mudel naeris. Kui oli vaja sosistada, siis mudel sosistas. Küll mitte perfektset, aga paremini kui ennem.

Samal ajal jätkasin ka dialoogimudelite testidega. Päev enne seda episoodi tuli välja Anthropicu Claude Opus 4 mudel, mis minu testide järgi on palju loovam kui Gemini 2.5 pro (mida põhiliselt kasutan). Küll aga sai väga ruttu selgeks, et kuigi selle naljad on naljakamad, siis see eksib faktidega enamus vastustes. Mõtleb välja numbreid, hallutsineerib erakondade juhte, sündmuseid jne. Tekst, mille mudel lõi, oli naljakas, kuid pidin enamus numbrid ise ära asendama. Tänaseks olen tagasi Gemini 2.5 pro juures, mis sai vahepeal ka loovust putitava uuenduse. Gemini eksib numbritega väga harva, ka siis, kui mälus on sisendit mitme raamatu jagu teksti.

4. juuni - Gemini TTS revolutsioon ja muusika ajupesula

Mai lõpus tulid välja Gemini 2.5 TTS mudelid. Need suudavad 24 keeles rääkida tasemel, mis on inimesest eristamatud. Kogu emotsioon ja väljendusrikkus millele tekst vihjab, selle Gemini TTS mudel ka etendab. Paraku ametlikult TTS mudel eesti keelt ei toeta. Siiski on võimalik neist saada eesti keelt kui promptidega väga palju mängida, kuid pikemates klippides hakkab kvaliteet kiirest langema ning lööb välja “põdrasündroom” - tugev soome aktsent, grammatika või ka sõnad.

Allpool on eksperiment, mis esindab tänase Gemini TTSi parima eesti keele näidet. Enamuses korrektne eestikeelne kõne on saadud sadade katsete tulemusel.

Tol perioodil läksin ka aina sügavamale Suno spetsiifikasse. Püüdsin aina enam muusikat suunata ning süvenesin Suno parimasse suunamisfunktsiooni - persoonadesse. Persoonad on teiste laulude põhjal loodud karakterit, mis suunavad loodava pala stiili, lauluhäält, aktsenti ja üldiselt kombineerivad etteantud sõnu ja stiili selle vaibiga, mis on persoonas. Ma kasutan ainult enda laulude põhjal loodud persoonasid ning heade persoonadeni jõudmiseks kulub tavaliselt vähemalt paarsada iteratsiooni (loe: terve päev).

Protsessi tulemusel valmis ka laul “Erakonnad! KROOKS! KROOKS!”, mis erandina sai seekord kirjutatud päris inimtööst. Inspiratsiooniks oli Andres Aule luuletus “Poliitik” ning sain temalt ka palju tänuväärset sisendit, et luua muusikamudeliga endale heakõlaline laul. Sellest laulust alates on valdavalt laulud inimtöö (muusikamudel tööriistana), esialgne poolautomaatne protsess sai sellega läbi. Vahvat muusikat lihtsalt ei saa veel inimsisendita luua, saab ehk eurovisioonile sobivat lihtsat poppi. Lõppvariant sündis umbes 400 erinevast iteratsioonist. Eesmärk oli proovida kombineerida sprechgesangi, dadaistlikke elemente, nasheede ning ka siinsemat folki.

7. ja 10. juuni - perfektne eestikeelne kloonitav kõne ehk Elevenlabs V3

Kuuendal juunil saabus lõpuks mudel, mida olin pikkisilmi oodanud. Mudel, mis suudab väljendada mistahes emotsiooni, modulleerida oma tempot, tooni. Vajadusel karjuda, nutta, naerda või teha mida tahes. Ja seda kõike koos perfektse eesti keelega.

Paraku on mudelil ka natuke riskantsem külg. Nimelt saab sellega kloonida häält, mis samuti räägib perfektset eesti keelt. See tähendab, et kommiraha ja kahe minutilise raadioklipiga on võimalik teha imitatsioon mõne avaliku elu tegelase häälest ning panna ta rääkima mida tahes. Probleemsem on aga see, et see võimaldab näiteks ka petukõnesid viia uuele tasemele, kus pettur helistab sugulase häälega pensionärile ja loob piisavalt realistliku stsenaariumi, et senisest veel suurem hulk inimesi langeb telefonipettust õnge.

Tegin hüpoteesi kontrolliks testi, kus panin helimudeli imiteerima peaminister Kristen Michali häält (nagu ikka, tegu on paroodiaga, selles esitatud seisukohad ei esinda parodeeritava tegelikke seisukohti). Valisin välja esimesest paarist testist parima ning seda kuuleb ülemises klipis.

Hoiatan siin ka kohe neid, kes plaanivad mudelit nõusolekuta hääle kloonimiseks kasutada. Pahatahtlik hääle kloonimine on minu parima arusaamise järgi kriminaalkorras karistatav ning tõenäoliselt läheb identiteedivarguse alla. Aastast 2026 hakkab kehtima Euroopa Liidus nn. “AI Act”, mille artikkel 50 lõike 4 järgi on selgelt satiiri, paroodia vms eesmärgil süvavõltsingute loomine selgemalt piiritletud. See on lubatud tingimusel, et tehisaru loomepool on selgelt välja toodud. Täna on sellise satiiri loomine hall ala. Tõenäoliselt pole ebaseaduslik kui looming on selgelt määratletud kui satiir, kuid see ei välista kohtuuste kraapimist.

Helgema poole pealt tegin ära ka väga põhjaliku testi. Lõin episoodi, mille eesmärk oli minna järjest psühholoogilisemaks ning panna Märt olukorda, kus ta väljendab kõikvõimalikke emotsioone, et demonstreerida Elevenlabsi mudeli võimekust võimalikult hästi igasugustes olukordades.

Selle episoodi puhul panin ka väga palju tunde muusika perfektseks saamisesse, et demonstreerida ka parimat muusikamudelite maailmast. Ehitasin muusikapala tarbeks välja täpse Persoona, tänu millele sai timmida nii keele, esituse kui ka muusikalised arengud täpselt selliseks, nagu soovisin. See on demonstratsioon parima muusikamudeli kvaliteedist juhul, kui heliloome maailma amatöör kasutab mudelit tööriistana oma pala ja visiooni loomiseks.

1×

0:00

-4:19

See on küll juba järgmisest episoodist, aga näitan ka mis juhtub kui SAMA stiili ja sõnadega, kuid ilma sobiva personata laul genereerida.

Lüürika + Stiil (ILMA PERSONATA):

1×

0:00

-2:19

Lüürika + Stiil + Persona:

1×

0:00

-2:32

18. juuni - Video.

9 päeva tagasi avaldas hiina tiim mudeli, mille sarnast olen pikalt oodanud: MeiGen MultiTalk. Mudel baseerub Wan 2.1 (teine hiina mudel) 14 miljardi parameetriga variandil. Sisendina võtab mudel järgneva:

Pilt stseenist
Heliklipid (1 või 2 kahe kõneleja puhul)
Stseeni tekstikirjeldus
Valikuline: Isikute asukohad pildil (kui tahta kindlalt ühte heliklippi määrata ühele või teisele isikule, kes on pildil)

Kõik senised kvaliteetsemad mudelid võtavad sisse ainult pildi, teksti või teksti ja pildi. Kombinatsioon, mis ei sobi pikema videosisu loomiseks, kus on täpne stseeni juhitavus kriitiline.

Mulle tundub, et meediamudelite maailma areng sõltub väikestest ja keskmistest mudelitest, mis on igaüks tipptasemel ühes kindlas asjas, kuid moodustavad koos laia sisendi- ja väljundivalikuga ökosüsteemi. Kui panna kokku nutikad torustikud, mis kasutavad just neid väikseid, ent kvaliteetseid ja spetsialiseerunud mudeleid, saab väga hea tulemuse odavalt. Suured "kõik-ühes" mudelid on väga kallid. Ja ma arvan, et enamiku inimeste jaoks, keda selline tehnoloogia huvitab, pole need samuti mõistlik valik - maksad palju, aga tulemus on ikkagi keskpärane. MultiTalk on selles osas ülihea näide mudelist, mida saab kergemalt suuremasse süsteemi sisse panna.

Mudeli tegi ka heaks see, et see toetab ka striimimist, ehk video pikkusel pole limiite ning pika klipi loomisel pole otseseid piiranguid. On aga kaudsed piirangud. Nimelt mudel ise treeniti 3s aknaga ning tuleb kvaliteetselt toime kuni 8s klippidega. Üle selle hakkab aga kvaliteet kiiresti langema. Värvid muunduvad, klipp muutub aina ebarealistlikumaks jne. Samuti, kui eesmärk on 10 minutit videot genereerida, on ka keskmise suurusega mudeliga see väga kallis (sajad eurod miinimum).

Mõlema probleemi lahendamiseks ehitasin kaks omapoolset lisandit.

Esiteks värvi korrektsiooni vahesamm, mida rakendatakse video genereerimisel igal vahesammul. See võimaldas venitada enam-vähem kvaliteetsete klippide genereerimist 40 sekundini. Korrektsioon näeb välja nii, et sisendpildi põhjal arvutatakse välja Lab värviruumi parameetrid, mida tuleb hoida (standardhälve ja keskmine dimensiooni kaupa). Seejärel iga chunki genereerimise järel rakendatakse igal frameil korrektsiooni. Järgmise chunki sisend, mille põhjal klipi genereerimist jätkatakse, on samuti korrigeeritud. See hoiab generatsiooni stabiilsemana.

Näidis 35 sekundilise klipi arengust ilma ja koos värvikorrektsiooniga:

Teiseks, mudeli tavakaaludega nõuab 1 sekundi video genereerimine ühe A100 GPU-ga umbes 10 minutit. See muudab mudeli kasutamise pikkadeks videoteks väga kalliks. Probleemi lahendamiseks kombineerisin erinevad Wan 2.1 baasi kaalud kokku, mis aitasid parandada nii kvaliteeti kui ka vähendada ühe sekundi video generatsiooni sama masinaga 4 minutile. Selle saavutamiseks kombineerisin FusionX Phantom variandi multitalki ja Wan 2.1 baaskaaludega, et vähendada samme mida tuleb läbida kvaliteetse klipi saamiseks. FusionX on spetsiaalselt treenitud, et parandada inimeste liigutusi ning saavutada vähemate sammudega kõrge kvaliteet.

Ka oma korrektsioonidega ei ole kindlasti mudel perfektne. See on esimese generatsioon mudelist, mis vastab pikkade juhitud videote loomise vajadustele. Näiteks Veo 3, kuigi kvaliteedilt kindlasti parem, ei ole juhitav heliga ning sobitub eelkõige TikToki sobiva lühisisu loomiseks. Teoreetiliselt võiks veel parem süsteem olla selline, kus mudel ei anna mitte videoväljundit, vaid loob odavamalt väljundit nn. skeletoni animeerimiseks ning ka näo transformatsioonid. Sellise väljundi näiteks Blenderis renderdamine oleks oluliselt odavam kui videomudelite kasutamine.

Arhitektuur

Tekst

Kontekst: RAG (30a eesti ajalugu, valimistulemused, uuringud, reitingud, oma metoodika jpm) + prompt sõltuvalt tekstigeneratsiooni sammust

Mudel: Gemini 2.5 pro ja Gemini 2.5 pro deep think

Sammud:

Episoodi struktuuri planeerimine (mis teemad läbi käia, mis järjekorras, üldisemad ideed).
Episoodi plaani puhtand (lühendatud ja kõige olulisem, et mahuks pikkuse sisse)
Iga tegelaskuju isiklik plaan, mille loomise puhul näeb LLM ka detailset karakterikirjeldust
Dialoogi simulatsioon: kumbki tegelaskuju saab ette oma mälu, oma karakteri detailse kirjelduse ja oma plaani. Nende põhjal hakatakse kahe LLMi mõtteid põrgatama. Saatejuht ise otsustab siin millal saate lõpetab ning saatejuhi ülesanne on jälgida, et kõik punktid saaks kaetud.
Mustandi analüüs - LLM analüüsib pikkust, üldist dialoogi naturaalsust, faktide paikapidavust
Esimene redaktsioon - Analüüsi põhjal kirjutab teine LLM dialoogi paremaks.
Viimane analüüs - Analüüsitakse naljade tabavust, viimaseid suuremaid puudujääke, kas esmased parandused aitasid piisavalt
Puhtand - LLM kirjutab lõpliku analüüsi põhjal puhtandi

Kõne

Kontekst: Dialoog koos emotsioonijuhistega (nt [laughs] teksti sees) + valitud hääled, kes kõnelevad

Mudel: Elevenlabs V3 alpha

Sammud (eelnevalt automaatne, Elevenlabs V3 vajab veel inimsamme):

Tekst jagatakse 2500 tähemärgilisteks blokkideks
Igast blokist genereeritakse umbes 10-30 heliklippi loomingulisemate ja kaootilisemate sätetega. Inimene valib parimad
Blokid kombineerib inimene helitöötluse programmis üheks helifailiks

Taustagraafika

Kontekst: Muusika + dialoog + soovitud stiil

Mudel: gpt-image-1, Gemini 2.5 pro deep think

Sammud:

LLM genereerib 10 prompti varianti
gpt-image-1 genereerib igast promptist pildid
Inimene valib välja parima

Video (MeiGen MultiTalk)

Mudelid:

Video: MeiGen MultiTalk. Wan 2.1 14B 480p + FusionX phantom + MultiTalk . Kombineerisin kolme mudeli kaalud kokku. Samuti, ehitasin värvide stabilisatsiooni sammu generatsiooni sisse
Stseenide tükeldus: ElevenLabs (helifailist tükeldus kõnelejate blokkideks)
Stseenide sisendpildid: gpt-image-1
Stseenide ja karakterite välimuste kirjeldused: gemini 2.5 pro deepthink

Sammud:

Elevenlabs tükeldab
Torustik pakib stseenide sisendid kokku (heliklipp, sisendpilt, tekstiprompt ja metaandmed)
8x A100 GPU klaster jookseb stseene järjest läbi ja genereerib klipid
Klipid pakitakse üheks videoks kokku

Muusika

Mudel: Suno 4.5

Sõnad ja stiil: Gemini 2.5 pro deep think brainstormimiseks + inimparandused ja sajad manuaalsed iteratsioonid

Personad: kodukootud

Remi Sebastian Kits

Discussion about this post