Realistična lica koja govore stvorena od audio zapisa i fotografija

Program temeljen na umjetnoj inteligenciji i strojnom učenju snima zvuk i fotografije iz kojih izrađuje video s realističnim animacijama lica sinkroniziranog s govorom

Mladen Smrekar ponedjeljak, 20. studenog 2023. u 11:15

Program koji su razvili singapurski stručnjaci poboljšava postojeće pristupe koji se muče s varijacijama poza i pokazivanjem emocija animiranog lika NTU

Na temelju fotografija i zvučnog zapisa glasa neke osobe, istraživači Tehnološkog sveučilišta Nanyang u Singapuru (NTU) razvili su računalni program koji stvara realistične videozapise s izrazima lica i pokretima glave.

Realistične animacije

Njihov DIverse yet Realistic Facial Animations, odnosno "raznovrsne, ali realistične animacije lica" ili skraćeno DIRFA je program temeljen na umjetnoj inteligenciji koji snima zvuk i fotografiju i proizvodi 3D video na kojem osobu pokazuje realistične i dosljedne animacije lica sinkronizirane sa zvučnim zapisom.

Stvaranje realističnih izraza lica uz pomoć zvuka složen je izazov. Za određeni audio signal mogu postojati brojni mogući izrazi lica, a te se mogućnosti mogu umnožiti kada se radi o nizu audio signala tijekom vremena. Budući da zvuk obično ima jake veze s pokretima usana, ali slabije veze s izrazima lica i položajem glave, istraživači su se usredotočili na stvaranje lica koja govore i pritom pokazuju preciznu sinkronizaciju usana, bogate izraze lica i prirodne pokrete glave koji odgovaraju pruženom zvuku.

Mnoštvo varijacija

"Govor pokazuje mnoštvo varijacija. Pojedinci izgovaraju iste riječi različito u različitim kontekstima, uključujući varijacije u trajanju, amplitudi, tonu i još mnogo toga. Nadalje, izvan svoje jezične sadržaja, govor prenosi bogate informacije o govornikovom emocionalnom stanju i faktorima identiteta kao što su spol, dob, etnička pripadnost, pa čak i osobine ličnosti", objasnili su istraživači u radu predstavljenom u časopisu Pattern Recognition.

Usporedbe DIRFA-e s najsuvremenijim pristupima generiranja govornih lica vođenih zvukom 📷 NTU — Usporedbe DIRFA-e s najsuvremenijim pristupima generiranja govornih lica vođenih zvukom NTU

Kako bi predvidjeli znakove iz govora i povezali ih s izrazima lica i pokretima glave, DIRFA-u su obučavali na više od milijun audiovizualnih isječaka oko 6000 ljudi iz baze podataka otvorenog koda The VoxCeleb2 Dataset.

Transformacija ulaza

DIRFA je modelirala vjerojatnost animacije lica, poput podignute obrve ili naboranog nosa, na temelju ulaznog zvuka. Ovo modeliranje je omogućilo programu da transformira audio ulaz u različite, ali vrlo realistične sekvence lica animacije koje će voditi generaciju lica koja govore.

Principa rada programa singapurskih istraživača 📷 NTU — Principa rada programa singapurskih istraživača NTU

Istraživači vjeruju da bi DIRFA mogla omogućiti nove načine primjene u raznim industrijama i područjima, uključujući zdravstvo, jer bi mogla omogućiti sofisticiranije i realističnije virtualne asistente i chatbotove i poboljšati korisnička iskustva. DIRFA bi, kažu oni, mogla postati moćan alat za osobe s poteškoćama u govoru ili pomicanju lica i pomoći im da svoje misli i emocije prenesu putem ekspresivnih avatara ili digitalnih prikaza.

DIRFA prikazuje realistične i dosljedne animacije lica sinkronizirane sa zvučnim zapisom 📷 NTU — DIRFA prikazuje realistične i dosljedne animacije lica sinkronizirane sa zvučnim zapisom NTU

Opsežni eksperimenti pokazali su da DIRFA može generirati lica koja govore s točnim pokretima usana, živopisnim izrazima lica i prirodnim položajem glave. Singapurski stručnjaci na tome ne staju i sad rade na poboljšanju sučelja programa, dodatnim opcijama i finom podešavaju izraza lica.

Vezano

📢 Uštedi 130€

META Quest 2

339,99€ ~~469,99€~~ Kupi

📢 Uštedi 10%

Samsung monitor

116,99€ ~~129,99€~~ Kupi

📢 NOVO!

EPOCH Galaxia

899,99€ Kupi

Ronis Hi-Fi slušaonica na Velesajmu.

Rezervirajte svoj termin!

Želite doživjeti zvuk visoke kvalitete? Pridružite nam se u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Novi dodatak nagradivanoj obitelji LSX.

Bežični Hi-Fi zvučnici KEF LSX II LT

Dizajniran kao pojednostavljena verzija, LSX II LT dijeli isti High-Fidelity zvuk i kljucne tehnologije kao LSX II, po cijeni koja ce vam se svidjeti.

999 € Kupi

Za zahtjevne ljubitelje glazbe.

Stereo pojačalo ROKSAN K3

Snaga od 140 W (RMS) po kanalu (na 8 Ohma) i vrhunski cvrst i kontroliran bas pružaju široku detaljnu pozornicu zvuka za istinsko glazbeno iskustvo. Za optimalnu kvalitetu zvuka i pouzdanost koriste se visokokvalitetne komponente, tiskane plocice i transformatori.

1.449 € ~~1.563 €~~ Akcija

Snažan zvuk iz elegantnog kućišta.

Zvučnici ACOUSTIC ENERGY AE120²

3-smjerni floorstander, impedancija 6 ohma, osjetlivost 90dB, frekvencijski odziv: 39Hz - 26kHz, snaga pojačala: 200W, peak SPL: 116dB

956 € ~~1.062 €~~ Kupi

Doživite analognu glazbu kao nikada prije.

Gramofon CROSLEY C6 matt crni

Gramofon s 2 brzine, 7", 10" i 12" ploča, remenski pogon, RCA out, Bluetooth out, anti-skate prilagodba.

229 € ~~249 €~~ Akcija

High-end performanse u kompaktnom dizajnu.

Stereo pojačalo PARASOUND HINT 6

2 x 160 W 8 Ohma. Burr Brown analog resistor ladder volume control. Dimmable front panel volume display. Updated USB receiver is Plug and play with Windows 10 and MAC.

3.999 € ~~4.999 €~~ Akcija

Aktivni subwoofer s jednostavnim podešavanjem.

Subwoofer ACOUSTIC ENERGY AE108²

Snaga: 150W, frekvencijski raspon: 30Hz - 110kHz, sealed box, Peak SPL: 105dB

539 € ~~599 €~~ Akcija

Poboljšana disperzija i veća snaga.

Zvučnici ACOUSTIC ENERGY AE300

2-sistemski zvucnici sa 130mm mid-bass jedinicama drivera, novim keramickim aluminijskim sandwich konusom i 28mm aluminijskim visokotoncem, frekvencijski raspon 45Hz -30kHz, osjetljivost 86 dB, vršni SPL 112dB, snaga 100W, crossover frekvencija 2.8kHz, impedancija 6 ohma.

719 € ~~799 €~~ Akcija

Uživajte u glazbi visoke rezolucije.

Stereo / Mrežni Receiver YAMAHA R-N600A

snaga: 80 W+80W (8 ohma), 60W+60W (4 ohma), Pure Direct Mode, Airplay, Wi-Fi, Bluetooth, Ethernet, phono input, headphone out

789 € Kupi

San svakog audiofila.

Slušalice SENNHEISER HD 650

Max SPL: 103 dB na 1kHz/1 Vrms, THD: 0,05%, Impedancija: 300 ohm, Frekvencijski odaziv: 10 Hz - 39kHz, 6,35 mm TRS + 3,5 mm adapter

499 € Kupi

Pametni i kompaktni soundbar.

Soundbar SONOS BEAM Gen 2 crni

Osjetite zvuk oko sebe uz prostrano 3D iskustvo Dolby Atmosa. Beznaporni setup s samo dva kabla i pametno Trueplay™ podešavanje

589 € Kupi

Svestran High-end Hi-Fi DAC

D/A pretvarač i pretpojačalo TANGENT DAC II

Sabre ES9023 24-bitni stereo audio DAC. Nudi višestruke digitalne ulaze ukljucujuci koaksijalni, opticki digitalni i USB, kao i AptX Bluetooth tehnologiju za streaming visoke kvalitete. Idealan kao pretpojacalo, može takoder funkcionirati kao pojacalo za slušalice.

279 € NOVO

Novosti iz naše Hi-Fi slušaonice