Selles episoodis testin uut kõnemudelit, mille eesti keele tase on senistest mudelitest parim ning ka väljendatav emotsioon kõige inimlikum ja paremini juhitav.
Volikogu värinad on tehisaru loodud tehnosatiir. Episoodide tekst on täies ulatuses tehisaru kirjutatud ning pildid, muusika ja kõne on loodud samuti erinevate tehisaru mudelite abil. Info tänastest ja ajaloolistest sündmustest, mida episoodides tehisaru omal algatusel võib viidata, tuleb tehisarule loodud infopangast, milles on viimase 30 aasta olulisemad sündmused, skandaalid, valimistulemused, majandus- ja demograafiatrendid, olulisemad uuringutulemused (eurobaromeeter, usaldusmõõdikud) jpm.
Mudelid podcasti torustikus (selle nädala SOTA):
Episoodi plaanid, dialoog, puhtand - Gemini 2.5 Pro Deep Think
Kõne - Elevenlabs V3 alpha + inimparandused emotsiooni väljenduse instruktsioonides
Muusika stiil ja sõnad - Gemini 2.5 Pro ja 7-10 tundi inimparandusi
Muusikamudel - Suno 4.5 (omaloodud eesti keelt parandavate personadega)
Pildi promptid ja valik - Gemini 2.5 Pro
Pildimudel - gpt-image-1
Seekordne episood nõudis senistest kõige rohkem inimtööd, automaatseks tulemust paraku nimetada ei saa. Laulust sai itereeritud ja muditud umbes 200 varianti, dialoogist väikeste promptimuudatustega umbes 20 varianti, Elevenlabsi V3 alpha korrektseks toimimiseks erinevate muudatustega umbes 300 varianti (ilma keeruliste emotsioonideta oleks piisanud alla 10 variandist). Siiski on tulemus hea näide sellest, millist eestikeelset audiosisu on võimalik tänaste mudelitega luua, kui vigasemad väljundid välja jätta.
Share this post