Modely umelej inteligencie od Googlu menia obrázky s nízkym rozlíšením na obrázky s vysokým rozlíšením

Nové modely AI od spoločnosti Google premieňajú obrázky s nízkym rozlíšením na obrázky vysokej kvality

Keď výskumníci posúvajú svoje hranice pri vývoji pokročilých technológií umelej inteligencie (AI), videli sme niekoľko nástrojov a systémov AI na zlepšenie zobrazovacej technológie. Videli sme nástroje AI okamžite odstráňte pozadie z obrázkov a rozmazanie fotografií. Teraz Google vyvinul dva nástroje založené na AI založené na modeloch difúzie, ktoré dokážu previesť obrázky s nízkym rozlíšením na vysokokvalitné fotografie.

Tieto dve nové technológie, označované ako Super-Resolution via Repeated Refinements (SR3) a Cascaded Diffusion Models (CDM), nedávno vyvinul tím Brain Team spoločnosti Google Research. Nedávno zverejnený gigant Mountain View podrobný blogový príspevok na svojom fóre AI, ktoré podrobne popisuje obe technológie. Je to podobné ako predchádzajúci algoritmus AI že začiatkom tohto roka sme videli výskumníkov na Duke University v Severnej Karolíne.

Teraz, počnúc modelom SR3, je to v podstate difúzny model s vysokým rozlíšením, ktorý dokáže konvertovať obrázky s nízkym rozlíšením na obrázky s vysokým rozlíšením z čistého šumu

. Ako vstup berie obrázok s nízkym rozlíšením a používa proces poškodenia obrazu, pomocou ktorého bol trénovaný, na postupné pridávanie šumu do obrazu, kým nezostane iba čistý šum. Potom proces obráti a začne odstraňovať šum, aby dosiahol cieľový obrázok so vstupným obrázkom s nízkym rozlíšením ako referenčným.

Spoločnosť tvrdí, že vďaka rozsiahlemu tréningu modelu SR3 bola schopná dosiahnuť silné benchmarkové výsledky v úlohe super-rozlíšenia pre tvár a prirodzené snímky. Modelka mohla previesť vstupný obrázok s rozmermi 64 x 64 na obrázok s rozlíšením 1024 x 1024. Na demonštráciu procesu spoločnosť Google zdieľala krátke video, ktoré predstavuje model SR3 v akcii, ktoré si môžete pozrieť nižšie.

Teraz, keď prichádzame k druhému modelu AI, Cascaded Diffusion Model (CDM) je triedou podmienený model difúzie, ktorý bol trénovaný na údajoch ImageNet. To umožňuje modelu chrliť prirodzené obrázky s vysokým rozlíšením reťazením viacerých generatívnych modelov v niekoľkých priestorových rozlíšeniach.

V tomto procese, Model CDM používa jeden difúzny model na generovanie údajov s nízkym rozlíšením, po ktorej nasleduje sekvencia modelov difúzie SR3 s vysokým rozlíšením. Tým sa postupne zvyšuje rozlíšenie obrazu s nízkym rozlíšením až na najvyššie rozlíšenie. Môžete si pozrieť GIF priložený nižšie, aby ste získali lepšiu predstavu o procese generovania obrázkov.

Nové modely AI od Googlu menia obrázky s nízkym rozlíšením na obrázky vysokej kvality

Okrem dvoch vyššie opísaných modelov, výskumníci z Google AI tiež vyvinuli novú techniku augmentácie údajov nazývaná kondičná augmentácia. Ďalej zlepšuje výsledky kvality vzoriek CDM pomocou Gaussovho šumu a Gaussovho rozmazania. Navyše bráni tomu, aby sa každý model s vysokým rozlíšením prepracoval na vstup úpravy s nižším rozlíšením. Výsledkom je lepšia kvalita vzorky s vysokým rozlíšením pre CDM.

Takže s vyššie uvedenými modelmi na zlepšenie obrazu založenými na AI Google hovorí, že posunul limit difúzne modely na najmodernejšie generovanie ImageNet s vysokým rozlíšením a podmienené triedou benchmark. Výskumníci budú ďalej testovať limity týchto modelov pre ďalšie generatívne modelovacie problémy.

Odporúčané články