Nová AI od Googlu dokáže upraviť výšku tónu, emócie a rýchlosť len za 30 minút údajov

Výskumníci AI zo spoločnosti Google a University College London podrobne popísali model AI, ktorý dokáže ovládať charakteristiky reči, ako je výška tónu, emócie a rýchlosť hovorenia, iba za 30 minút údajov. Ich dokument, ktorý zverejnila Medzinárodná konferencia o reprezentáciách vzdelávania (ICLR), podrobne popisuje, ako na to výskumníci trénovali systém AI na 300 000 krokov v 32 na mieru navrhnutých jednotkách na spracovanie tenzorov spoločnosti Google (TPU).

Podľa štúdie použitie iba 30 minút označených údajov umožnilo algoritmu AI mať „významný stupeň“ kontroly nad rýchlosťou reči, valenciou a vzrušením. Vedci ďalej uviedli, že nový systém dokáže vytvárať vizuálne znázornenia frekvencií nazývaných spektrogramy tréning druhého modelu, ako je DeepMind's WaveNet, aby fungoval ako vokodér – hlasový kodek, ktorý analyzuje a syntetizuje hlas údajov.

Skutočne zaujímavé je, že nový model AI zrejme rieši kritické obmedzenie predchádzajúcej štúdie skúmali používanie „štýlových žetónov“, ktoré predstavovali rôzne kategórie emócií, na ovládanie reči účinky. Aj keď tento model dosiahol dobré výsledky iba s 5 percentami označených údajov, nebol schopný uspokojivo modifikovať vzorky reči, ktoré používali rôzne tóny, prízvuk, intonácie a rytmy a zároveň vyjadrovali to isté emócia.

Označený súbor údajov obsahoval celkovo približne 45 hodín zvuku vrátane 72 405 nahrávok po 5 sekúnd od 40 anglicky hovoriacich. Všetci rečníci boli vyškolení hlasoví herci, ktorí čítali vopred napísané texty s rôznou úrovňou valencie (emócie ako smútok alebo šťastie) a vzrušenia (vzrušenie alebo energia). Výskumníci potom použili tieto záznamy na získanie šiestich „afektívnych stavov“, ktoré boli potom modelované a použité ako štítky pre algoritmus AI, na ktorom sa má trénovať.

Hoci výskumníci pripúšťajú, že nový model AI môže uľahčiť bezohľadným stranám šírenie dezinformácií alebo páchanie podvodov, tvrdia, že výhody v tomto prípade ďaleko prevažujú nad možnými rizikami, pretože štúdia môže nakoniec zlepšiť rozhrania človek-počítač výrazne.

Odporúčané články

Google testuje AI na písanie spravodajských článkov

Google Pixel 7 Pro v zelenej farbe so sivým pozadím

Smartfón Google Pixel 7 umiestnený na bielom stole s črepníkovou rastlinou v pozadí a pestrofarebnými diármi

Sidhant Soodhovorí:

5. mája 2020 o 7:58 hod
Môžeme to my programátori použiť ako API alebo niečo také? To je všetko, čo chceme vedieť... Nie je potrebné opravovať taký veľký článok, tento príspevok uvidia iba programátori a vy ste stále neodpovedali na dôležitú otázku!

Odpovedzte

Zanechať Odpoveď zrušiť odpoveď

Nová AI od Googlu dokáže upraviť výšku tónu, emócie a rýchlosť len za 30 minút údajov

Kategórie

Nedávne

Nadchádzajúci Exynos, vlajkové lode Snapdragon budú používať Cortex X1 Core

Japonsko úspešne vylodilo robotické vozidlá na asteroide Ryugu

Ukážkové obrázky Sony IMX686 zobrazené v propagačnom videu