Come funziona?
L’aumento della qualità delle immagini generate dalle IA consente, oggi, un loro uso intensivo all’interno dei processi di produzione di ogni tipo di contenuto. Ciò vale sia nella creazione di un prodotto finale ma anche solo come fonte di nuove idee.
Prima di vedere nel dettaglio i servizi disponibili online è necessario comprendere il loro funzionamento e quali differenze, nella loro struttura, possono portare a importanti risultati. Tutti i sistemi di generative AI hanno tre elementi principali:
- un modello, ovvero l’algoritmo che ne regola il funzionamento, il modo in cui elabora i dati e ogni aspetto della sua struttura software;
- un dataset, cioè i dati iniziali sul quale il modello è stato allenato.Nel caso della generazione di immagini si tratta di enormi quantità di immagini con ognuna una descrizione testuale del contenuto, che vengono prese dal sistema come riferimenti per poi creare le nuove immagini;
- un sistema di pesi: una volta creato e allenato il modello è necessario specificare al sistema quali siano i risultati migliori e quali quelli da scartare. Ciò avviene tramite dei complessi sistemi di settaggi che gli permettono di capire quando sta lavorando bene e quando invece i suoi risultati non sono soddisfacenti.
Cambiarne uno anche solo di poco può ripercuotersi in modo enorme sulla qualità e sul tipo di risultati. Nei sistemi che vedremo in seguito questi aspetti non sono conosciuti tutti con precisione, ma possono essere ipotizzati in base al tipo di risultati e alle poche informazioni disponibili pubblicamente.
Modello a diffusione:
Il modello di tutti i sistemi generativi attualmente sul mercato, seppur non reso visibile al pubblico, ha come base un modello a diffusione.Parliamo di un sistema di deep learning che partendo da un'immagine di addestramento la va a scomporre gradualmente fino ad ottenere solo un insieme di pixel casuali. A questo punto esegue il processo inverso per ricostruire l’immagine originale.
Appresa questa operazione e ogni volta che gli viene fornito un insieme casuale di pixel, il sistema sarà in grado di ricostruire un'immagine con lo stesso soggetto sul quale si è allenato, ma sarà leggermente diversa. Perchè? Perché diversa è la disposizione iniziale dei pixel da cui si ottengono infinite immagini di un soggetto specifico. Ripetendo questa operazione su tutti i tipi di immagini disponibili durante l’addestramento, si otterrà un modello capace di creare qualsiasi soggetto, a patto che questo esistesse nei suoi dati di addestramento.
Da questo modello iniziale ogni casa di sviluppo ha apportato le proprie modifiche, ma il funzionamento di base è rimasto invariato.
L’importanza del dataset:
L’addestramento delle intelligenze artificiali richiede enormi quantità di dati e trovarli è un serio problema per chi ci lavora. Questi dati, nel caso della generazione di immagini, devono essere delle coppie formate dall’immagine e la sua descrizione: l’immagine deve essere di buona qualità, per non compromettere il sistema che immagazzinerebbe dati che porterebbero a risultati scadenti, e la descrizione deve essere il più accurata possibile, per avere la possibilità di inserire dettagli nelle creazioni successive.
La più grande raccolta di questo tipo di dati attualmente è il Laion-5b, un dataset pubblico sviluppato per fini di ricerca che contiene miliardi di immagini, prese da tutto internet. Tutti i sistemi attuali utilizzano parti di questo dataset, scelte e filtrate in modo diverso dai singoli sviluppatori, per ottenere i migliori risultati possibili.
L’unica eccezione a questo è Adobe Firefly, che utilizza solo le immagini presenti in Adobe Stock, così da averne il pieno controllo e poter evitare ogni tipo di ripercussione legale.
Limiti tecnologici:
Tutti i sistemi attuali condividono alcune caratteristiche:
- ottimi risultati nella rappresentazione di ambienti naturali;
- difficoltà nella creazione di volti e mani, spesso aggiungendo o togliendo dita;
- difficoltà nel comporre due o più oggetti nello spazio. Per esempio, volendo creare un'immagine che ha come input: “un cubo con sopra una sfera” difficilmente si avrà un risultato soddisfacente.
I primi due punti derivano rispettivamente dalla facilità e difficoltà di avere immagini qualitativamente buone nel dataset, mentre l’ultimo è invece un problema derivante dalla struttura algoritmica e quindi risolvibile solo con ulteriori ricerche sui modelli.
I singoli servizi online:
Qui sotto vedremo le caratteristiche principali, pregi e difetti dei servizi più famosi e usati al momento. Intanto per darne un’idea ecco i risultati che hanno dato partendo dallo stesso input:
In ordine Midjourney, DALL-E, Adobe Firefly, Dream Studio
Midjourney:
Al momento basandomi sulla mia esperienza è il servizio che produce i risultati migliori in termini di qualità dell’immagine:non è però semplice da usare in quanto, a differenza dei competitor, non ha un sito web dal quale utilizzarlo, ma si trova su un canale Discord(un social network simile a Whatsapp o Telegram) All’interno è possibile usare esclusivamente comandi da scrivere nella chat, operazione che lo rende difficile da usare, soprattutto per chi non è pratico del social. Ciò non varia se sul proprio sito siano presenti tutte le informazioni e le guide per utilizzarlo al meglio.
Oltre a questo, anche il modo in cui si possono dare vari parametri all’immagine, come la risoluzione e lo stile, si basano su comandi che hanno una sintassi precisa e non troppo intuitiva.
Di contro, questi comandi sono davvero molti e una volta imparati permettono di eseguire richieste molto precise, alle quali la chat risponderà con immagini di ottima qualità. È importante notare che è possibile dare in input al sistema una propria foto in modo che essa venga modificata, funzione che condivide solo con Dream Studio.
L’uso di Midjourney non è gratuito e anche i prezzi non sono semplici da interpretare. Gli abbonamenti non si basano sul numero di immagini generate, ma sull’uso che si fa delle loro schede video espresso in ore. In base ai parametri ogni immagine consuma più o meno risorse per essere generata, non potendo quindi avere un prezzario univoco.
Con il piano base, da 10$ al mese, si hanno 3.3 ore. Riportato in numero di immagini abbiamo che ognuna consuma dai 0.03 ai 0.1$. Oltre alla creazione delle immagini nel modo standard i piani più avanzati permettono un uso illimitato della modalità “relax”, cioè invece che ricevere subito il risultato questo viene elaborato lentamente, sfruttando le risorse non utilizzate da altri utenti paganti. Con questo sistema ci vogliono circa 10 minuti di attesa per avere l’immagine desiderata.
DALL-E:
Sviluppato da OpenAI, stessa casa di ChatGPT, vi si può accedere direttamente online ed è molto facile da usare: a disposizione vi è solamente un campo di testo in cui inserire ciò che vogliamo creare, anche se dopo molti test si è rivelato, in termini di risultati finali, decisamente meno potente dei competitor.
Oltre alla generazione di immagini permette anche di caricare delle foto e di selezionare delle aree da modificare, o di espanderne i bordi, rimanendo coerente all’immagine originale.
Va aggiunta la presenza, per gli sviluppatori di API, che permettono di generare immagini all’interno delle proprie applicazioni, funzionalità che sicuramente può aprire le porte a molti utilizzi.
DALL-E offre, per il primo mese di uso, 50 token gratuiti che poi diventano 15 ogni mese successivo. Ogni token equivale ad un input che produce 4 immagini come risposta. Per continuare l’uso i token sono venduti per 15$ in blocchi da 115 token, con un costo che va quindi a 0.13$ ogni 4 immagini.
Adobe Firefly:
È l’ultimo arrivo in casa Adobe, famosa per Photoshop e tutta la sua suite di software per la grafica, che ha sempre sviluppato le intelligenze artificiali come tool aggiuntivi per i propri strumenti.Adesso ha rilasciato, seppur ancora in beta, la sua versione di generative AI.
Direttamente accessibile dal suo sito web è molto semplice da usare e, oltre alla casella di testo in cui scrivere cosa si desidera, ha una sidebar in cui scegliere diversi settaggi per lo stile delle immagini. Ciò aiuta molto la restituzione di un risultato che sia il più vicino possibile alla nostra idea, senza dover scrivere input testuali lunghi e articolati.
Altre funzioni disponibili dal sito sono la modifica di immagini, la creazione di testi decorati e la colorazione di immagini in formato svg.
I risultati ottenibili da questo sistema sono molto buoni, ma la scelta di usare come dataset solo le immagini di Adobe Stock limita molto ciò che può essere creato. In particolare il modello non conosce niente che sia relativo ad una proprietà intellettuale esterna, nessun film, libro, personaggio reale o inventato a cui fare riferimento nel processo creativo.
Per dare un esempio concreto, se noi chiediamo a Midjourney di disegnare una casa con lo stile di Picasso non avrà problemi, mentre Firefly non potrà farlo.
Ad ora l’uso di Firefly è completamente gratuito e illimitato, con l’unico requisito di creare un account Adobe.
La vera punta di diamante di Firefly è la totale integrazione con Photoshop. Infatti con l’ultima versione del software abbiamo la possibilità di usare l’intelligenza artificiale per modificare, aggiungere elementi o espandere le immagini direttamente da Photoshop, semplicemente selezionando l’area desiderata e scrivendo cosa vorremmo vedere in un campo di testo.
L’unica differenza tra usare Firefly in Photoshop, o sul sito, l’ho riscontrata nella generazione delle immagini partendo da zero: anche se è esplicitato che il sistema sia lo stesso, la generazione fatta da Photoshop è di qualità nettamente inferiore; quando è invece già presente un’immagine da modificare il comportamento è il medesimo del sito.
Al momento Adobe è l’unico ad aver vietato l’uso commerciale di ciò che viene generato dai loro sistemi, quindi può essere usato solo per sperimentazione o progetti personali. Questa politica sarà rimossa quando il progetto uscirà dalla fase beta.
Dream Studio:
In completa controtendenza rispetto alla scena attuale, questo servizio prodotto da Stability Ai è completamente open source. Tutto il codice è quindi visibile, modificabile e utilizzabile da chiunque sui propri computer, senza doversi appoggiare per forza a piattaforme esterne e dando all’utente un’infinita possibilità di personalizzazione. Il tutto partendo dal loro modello, Stable Diffusion, che viene fornito già addestrato.
Per chi invece non ha le conoscenze, o un computer abbastanza potente, Stability Ai ha creato Dream Studio come servizio online simile agli altri presenti. La piattaforma ha moltissime impostazioni per la generazione e la modifica delle immagini, non semplicissimo da usare ma sicuramente meglio di dover usare comandi testuali come per Midjourney.
Al livello di prestazioni dai miei test risulta ancora inferiore a Midjourney, anche se alcuni utenti esperti nella scrittura di prompt in input riescono ad ottenere risultati molto simili.
Per quanto riguarda i costi, naturalmente, se si scarica il modello sul proprio computer è tutto gratuito senza nessun limite; usando Dream Studio dal sito invece si ha un sistema di token che vengono spesi a ogni generazione in base alla complessità dell’immagine e dei settaggi. Al primo accesso si hanno 25 token gratuiti e si ha la possibilità poi di comprarne 1000 per 10$. La generazione parte da un costo minimo di 0.17 token con tutti i settaggi al minimo (quindi circa 5000 immagini per 10$) fino ad un massimo di 50 token. Avendo però un controllo molto preciso sul modello è possibile generare centinaia di foto con le impostazioni al minimo, per poi crearne una qualitativamente migliore quando si è affinato il testo di input su quello che vogliamo. In ogni caso sul tasto che fa partire la creazione della foto è presente il prezzo che avrà l’operazione, in modo da saperlo sempre in anticipo.
Conclusioni:
Ogni servizio ha i suoi pro e i suoi contro, dalla facilità di utilizzo, ai costi, fino alla qualità dei risultati e alle funzionalità aggiuntive. Siamo in un momento storico in cui l’intelligenza artificiale si sta sviluppando ad una velocità incredibile: fino ad un anno fa la generazione di immagini non era più che un test di studio, mentre oggi è in grado di creare immagini difficilmente distinguibili, da foto o opere di artisti reali.
Col tempo si evolveranno sempre di più e diventerà fondamentale (o lo è già) restare al passo con le nuove tecnologie.