Machine learning voor je content: wat je moet weten over text-to-image AI

Gepubliceerd op 3 augustu s2023

Auteur: Tessa Kok
Digital Content Specialist bij Crossphase

Je kon er het afgelopen jaar niet omheen: AI art, of text-to-image generation. De tools schieten de grond uit en de kwaliteit van de visuals wordt steeds beter. Maar waar begin je als je zelf een poging wilt wagen? En is het echt zo simpel als een druk op de knop?

In dit artikel leg ik je kort uit wat text-to-image generation nu eigenlijk inhoudt. Ook vergelijk ik twee populaire tools waarvoor je geen speciale hardware of software nodig hebt: grote bekende Midjourney en het up-and-coming Leonardo.Ai.

Text-to-image: wat is het nu eigenlijk?

Text-to-image is een vrij nieuwe techniek, die valt onder machine learning. Kortgezegd train je een model met een enorme dataset van beelden en beschrijvingen. Daardoor leert het hoe afbeelding en tekst met elkaar samenhangen. Het resultaat van die training is dat je model nieuwe afbeeldingen genereert op basis van de tekst die de gebruiker invoert.

De techniek is al een paar jaar in ontwikkeling en sinds de release van DALL-E 2 voor iedereen beschikbaar. Het afgelopen jaar is de kwaliteit van de visuals enorm toegenomen. We zijn inmiddels op het punt waarop je niet direct het verschil ziet tussen een foto van de paus en AI.

Hoe het werkt

Alle text-to-image tools werken op dezelfde manier: je voert een tekst (de 'prompt') in en de tool genereert afbeeldingen op basis van die tekst. Vaak krijg je vier verschillende voorstellen, waarvan je de beste uitkiest. Dit beeld kun je verder tweaken of uitvergroten. Als je tevreden bent met het resultaat, kun je de afbeelding downloaden en eventueel verder bewerken in Photoshop.

Een plaatje maken is makkelijk; je kunt bij wijze van spreken een emoji invoeren. De uitdaging zit in het 'craften' en perfectioneren van je prompt. Hoe laat je de tool precies maken wat jij in gedachten hebt? Dat vereist een combinatie van kennis, ervaring en creativiteit.

Een contentspecialist volgens Midjourney

Hoe schrijf je een goede prompt?

Met een duidelijke instructie is de kans groter dat een AI-tool doet wat jij wilt. Alles staat of valt met de juiste prompt. Enkele tips:

Houd het kort
Omschrijf het onderwerp van je visual in een paar woorden. Dit helpt de tool te focussen op wat belangrijk is. En zeker in het begin is het ook leerzaam voor jou om te leren welk woord wat doet.
Voorbeeld: a field of flowers
Voeg keywords toe
Wat wil je op de achtergrond zien? In welke stijl wil je werken en met welk kleurenpalet? Ga je voor een realistisch resultaat of mag het een beetje cartoony zijn?
Voorbeeld: a field of flowers, mountain backdrop, vivid colors, cinematic
Voeg een negative prompt toe
Zijn er elementen die je juist niet in je visual wilt hebben? Voeg dan een negative prompt toe.
Voorbeeld: a field of flowers, mountain backdrop, vivid colors, cinematic --no people
Voeg een aspect ratio toe
Het standaardformaat waarin je werkt is 1:1 (vierkant). Wil je in landschaps- of portretformaat werken, voeg dan een aspect ratio toe.
Voorbeeld: a field of flowers, mountain backdrop, vivid colors, cinematic --no people --ar 3:2

Gebruikt prompt: a field of flowers, mountain backdrop, vivid colors, cinematic --no people --ar 3:2

Voor alle AI-toepassingen geldt: wees specifiek met je beschrijving. Midjourney en aanverwanten hebben de neiging om je opdracht heel letterlijk op te vatten.

Spiekbriefje nodig? Kijk dan eens naar prompts van anderen in user communities. Ook zijn er diverse online prompt builders te vinden die je werk iets makkelijker maken.

Twee tools vergeleken: Midjourney en Leonardo.Ai

Van de tientallen text-to-image tools is Midjourney het bekendst. Na dit een jaar te hebben gebruikt, ben ik onlangs overgestapt op nieuwkomer Leonardo.Ai.

Wat deze tools met elkaar gemeen hebben, is dat je geen speciale hardware of software nodig hebt om ze te gebruiken. Het genereren van de beelden gebeurt namelijk in de cloud. Waar ze wel in verschillen, is de gebruikersinterface. Hieronder licht ik beide tools kort uit.

Midjourney

Midjourney is sinds juli 2022 toegankelijk voor het grote publiek. Het model is getraind met de focus op een kunstzinnige, dromerige stijl. De kwaliteit van de beelden is hoog en er zit variatie in de concepten die je terugkrijgt op je prompt. Zo kun je snel een bepaalde richting kiezen. Midjourney biedt verschillende mogelijkheden voor upscalen en uitzoomen.

Interessant is de optie ‘Describe’: daarbij upload je zelf een foto of illustratie, waarna je vier tekstprompts terugkrijgt. Daarmee maak je nieuwe beelden die sterk lijken op het beeld dat je hebt geüpload, maar net weer een beetje anders zijn.

Toegankelijkheid Midjourney

Midjourney is alleen toegankelijk via de chat-app Discord. Als je daar geen account voor hebt, moet je dit eerst aanmaken. Goed om te weten: als Discord een storing heeft, kun je Midjourney dus ook niet gebruiken.

Naar verluidt werkt Midjourney aan een web interface, maar het is niet bekend hoe lang we daar nog op moeten wachten.

Kosten Midjourney

De eerste 25 beelden die je maakt, zijn gratis. Daarna moet je een abonnement afsluiten (vanaf $10 per maand). Met dat abonnement koop je servercapaciteit in de vorm van GPU's die voor jou (snel) afbeeldingen genereren. Ben je door je uren heen? Dan kun je altijd uren bijkopen.

Leonardo.Ai

Leonardo.Ai is beschikbaar sinds april 2023. Bijzonder aan deze tool is dat je de keus hebt uit verschillende modellen. Daardoor kun je makkelijker een bepaalde stijl gebruiken. Je kunt ook je eigen model trainen.

Leonardo.Ai maakt gebruik van een gebruiksvriendelijke web-interface met uitgebreide mogelijkheden. Daarin vind je ook een ingebouwde prompt builder en opties voor beeldbewerking. Zo kun je iets in een visual wegpoetsen of een extra stuk beeld toevoegen.

Toegankelijkheid Leonardo.Ai

Als je net begint met image generation kunnen alle opties en schuifjes overweldigend zijn, maar de webinterface zelf werkt erg goed. Er is ook een iPhone-app beschikbaar.

Leonardo.Ai werkt op dit moment nog met een wachtlijst. Na aanmelding kan het een paar dagen duren voordat je toegang krijgt.

Kosten Leonardo.Ai

Leonardo.Ai claimt ‘free forever’ te zijn en geeft je dagelijks 150 gratis tokens. Die gebruik je om beelden te maken, maar ook om te upscalen.

Wil je meer mogelijkheden? Dan kun je vanaf $12 per maand een abonnement afsluiten.

Hoe zijn deze tools getraind?

De meeste image generators draaien op het Stable Diffusion-model. Dit model is getraind op een open-source dataset van 5,8 miljard afbeeldingen die van openbare websites zijn gehaald. Als jij als fotograaf of illustrator een portfolio online hebt staan, kan het dus zijn dat jouw werk als trainingsdata is gebruikt. Aan de makers van de afbeeldingen is niet van tevoren toestemming gevraagd om in de dataset te worden opgenomen.

Vind je die toestemming wel belangrijk? Dan is Adobe Firefly misschien interessanter voor jou. Firefly is getraind met een kleinere dataset, die bestaat uit materiaal uit Adobe Stock en beelden uit het publieke domein waarvan het auteursrecht is verlopen. Daardoor kun je afbeeldingen genereren zonder inbreuk te maken op auteursrechten. Een mogelijk nadeel van die kleinere dataset is dat de afbeeldingen wat minder variëren in stijl, inhoud en creativiteit.

Hoe zit het met copyright?

AI image generators staan Commercial Use toe. Dat betekent dat je je gemaakte visuals mag gebruiken als illustratie bij een blog of mag afdrukken op een t-shirt. Maar dat betekent nog niet dat het auteursrecht van de illustratie ook jou bij ligt. Dat wordt namelijk alleen toegekend aan dingen die door mensen zijn gemaakt. En zo kon het gebeuren dat er wel copyright rust op het verhaal van het AI-stripverhaal Zarya of the Dawn, maar niet op de met Midjourney gemaakte beelden.

Je kunt ervoor kiezen om een gegenereerd beeld verder te bewerken, bijvoorbeeld in Photoshop. Maar ook dan rust er alleen copyright op de elementen die je als gebruiker toevoegt of wijzigt.

Deze AI-ontwikkelingen zijn zo nieuw, dat de wetten rondom het gebruik nog worden opgesteld. Wat nu een grijs gebied is, kan over een jaar niet meer toegestaan zijn. Houd dit in je achterhoofd als je met deze tools aan de slag gaat.

Conclusie

Als je nieuw bent met text-to-image generation, dan is Midjourney een goed startpunt vanwege de gebruiksvriendelijkheid en de hoge beeldkwaliteit. Zeker als je weet hoe Discord werkt, kun je snel van start. Maar ben je op zoek naar een web-interface met veel creatieve vrijheid, en vind je het niet erg om een kleine leercurve te doorlopen? Dan is Leonardo.Ai misschien een betere optie voor jou.

Ik raad je aan om ze allebei uit te proberen, zodat je zelf kunt ontdekken welke tool het beste bij je wensen past. Zowel Midjourney als Leonardo.Ai bieden uitgebreide documentatie en een actieve gebruikerscommunity, waarbij de focus ligt op elkaar helpen en inspireren.