Gepubliceerd op 3 augustu s2023
Auteur: Tessa Kok
Digital Content Specialist bij Crossphase
Je kon er het afgelopen jaar niet omheen: AI art, of text-to-image generation. De tools schieten de grond uit en de kwaliteit van de visuals wordt steeds beter. Maar waar begin je als je zelf een poging wilt wagen? En is het echt zo simpel als een druk op de knop?
In dit artikel leg ik je kort uit wat text-to-image generation nu eigenlijk inhoudt. Ook vergelijk ik twee populaire tools waarvoor je geen speciale hardware of software nodig hebt: grote bekende Midjourney en het up-and-coming Leonardo.Ai.
Text-to-image is een vrij nieuwe techniek, die valt onder machine learning. Kortgezegd train je een model met een enorme dataset van beelden en beschrijvingen. Daardoor leert het hoe afbeelding en tekst met elkaar samenhangen. Het resultaat van die training is dat je model nieuwe afbeeldingen genereert op basis van de tekst die de gebruiker invoert.
De techniek is al een paar jaar in ontwikkeling en sinds de release van DALL-E 2 voor iedereen beschikbaar. Het afgelopen jaar is de kwaliteit van de visuals enorm toegenomen. We zijn inmiddels op het punt waarop je niet direct het verschil ziet tussen een foto van de paus en AI.
Alle text-to-image tools werken op dezelfde manier: je voert een tekst (de 'prompt') in en de tool genereert afbeeldingen op basis van die tekst. Vaak krijg je vier verschillende voorstellen, waarvan je de beste uitkiest. Dit beeld kun je verder tweaken of uitvergroten. Als je tevreden bent met het resultaat, kun je de afbeelding downloaden en eventueel verder bewerken in Photoshop.
Een plaatje maken is makkelijk; je kunt bij wijze van spreken een emoji invoeren. De uitdaging zit in het 'craften' en perfectioneren van je prompt. Hoe laat je de tool precies maken wat jij in gedachten hebt? Dat vereist een combinatie van kennis, ervaring en creativiteit.
Met een duidelijke instructie is de kans groter dat een AI-tool doet wat jij wilt. Alles staat of valt met de juiste prompt. Enkele tips:
Voor alle AI-toepassingen geldt: wees specifiek met je beschrijving. Midjourney en aanverwanten hebben de neiging om je opdracht heel letterlijk op te vatten.
Spiekbriefje nodig? Kijk dan eens naar prompts van anderen in user communities. Ook zijn er diverse online prompt builders te vinden die je werk iets makkelijker maken.
Van de tientallen text-to-image tools is Midjourney het bekendst. Na dit een jaar te hebben gebruikt, ben ik onlangs overgestapt op nieuwkomer Leonardo.Ai.
Wat deze tools met elkaar gemeen hebben, is dat je geen speciale hardware of software nodig hebt om ze te gebruiken. Het genereren van de beelden gebeurt namelijk in de cloud. Waar ze wel in verschillen, is de gebruikersinterface. Hieronder licht ik beide tools kort uit.
Midjourney is sinds juli 2022 toegankelijk voor het grote publiek. Het model is getraind met de focus op een kunstzinnige, dromerige stijl. De kwaliteit van de beelden is hoog en er zit variatie in de concepten die je terugkrijgt op je prompt. Zo kun je snel een bepaalde richting kiezen. Midjourney biedt verschillende mogelijkheden voor upscalen en uitzoomen.
Interessant is de optie ‘Describe’: daarbij upload je zelf een foto of illustratie, waarna je vier tekstprompts terugkrijgt. Daarmee maak je nieuwe beelden die sterk lijken op het beeld dat je hebt geüpload, maar net weer een beetje anders zijn.
Midjourney is alleen toegankelijk via de chat-app Discord. Als je daar geen account voor hebt, moet je dit eerst aanmaken. Goed om te weten: als Discord een storing heeft, kun je Midjourney dus ook niet gebruiken.
Naar verluidt werkt Midjourney aan een web interface, maar het is niet bekend hoe lang we daar nog op moeten wachten.
De eerste 25 beelden die je maakt, zijn gratis. Daarna moet je een abonnement afsluiten (vanaf $10 per maand). Met dat abonnement koop je servercapaciteit in de vorm van GPU's die voor jou (snel) afbeeldingen genereren. Ben je door je uren heen? Dan kun je altijd uren bijkopen.
Leonardo.Ai is beschikbaar sinds april 2023. Bijzonder aan deze tool is dat je de keus hebt uit verschillende modellen. Daardoor kun je makkelijker een bepaalde stijl gebruiken. Je kunt ook je eigen model trainen.
Leonardo.Ai maakt gebruik van een gebruiksvriendelijke web-interface met uitgebreide mogelijkheden. Daarin vind je ook een ingebouwde prompt builder en opties voor beeldbewerking. Zo kun je iets in een visual wegpoetsen of een extra stuk beeld toevoegen.
Als je net begint met image generation kunnen alle opties en schuifjes overweldigend zijn, maar de webinterface zelf werkt erg goed. Er is ook een iPhone-app beschikbaar.
Leonardo.Ai werkt op dit moment nog met een wachtlijst. Na aanmelding kan het een paar dagen duren voordat je toegang krijgt.
Leonardo.Ai claimt ‘free forever’ te zijn en geeft je dagelijks 150 gratis tokens. Die gebruik je om beelden te maken, maar ook om te upscalen.
Wil je meer mogelijkheden? Dan kun je vanaf $12 per maand een abonnement afsluiten.
De meeste image generators draaien op het Stable Diffusion-model. Dit model is getraind op een open-source dataset van 5,8 miljard afbeeldingen die van openbare websites zijn gehaald. Als jij als fotograaf of illustrator een portfolio online hebt staan, kan het dus zijn dat jouw werk als trainingsdata is gebruikt. Aan de makers van de afbeeldingen is niet van tevoren toestemming gevraagd om in de dataset te worden opgenomen.
Vind je die toestemming wel belangrijk? Dan is Adobe Firefly misschien interessanter voor jou. Firefly is getraind met een kleinere dataset, die bestaat uit materiaal uit Adobe Stock en beelden uit het publieke domein waarvan het auteursrecht is verlopen. Daardoor kun je afbeeldingen genereren zonder inbreuk te maken op auteursrechten. Een mogelijk nadeel van die kleinere dataset is dat de afbeeldingen wat minder variëren in stijl, inhoud en creativiteit.
AI image generators staan Commercial Use toe. Dat betekent dat je je gemaakte visuals mag gebruiken als illustratie bij een blog of mag afdrukken op een t-shirt. Maar dat betekent nog niet dat het auteursrecht van de illustratie ook jou bij ligt. Dat wordt namelijk alleen toegekend aan dingen die door mensen zijn gemaakt. En zo kon het gebeuren dat er wel copyright rust op het verhaal van het AI-stripverhaal Zarya of the Dawn, maar niet op de met Midjourney gemaakte beelden.
Je kunt ervoor kiezen om een gegenereerd beeld verder te bewerken, bijvoorbeeld in Photoshop. Maar ook dan rust er alleen copyright op de elementen die je als gebruiker toevoegt of wijzigt.
Deze AI-ontwikkelingen zijn zo nieuw, dat de wetten rondom het gebruik nog worden opgesteld. Wat nu een grijs gebied is, kan over een jaar niet meer toegestaan zijn. Houd dit in je achterhoofd als je met deze tools aan de slag gaat.
Als je nieuw bent met text-to-image generation, dan is Midjourney een goed startpunt vanwege de gebruiksvriendelijkheid en de hoge beeldkwaliteit. Zeker als je weet hoe Discord werkt, kun je snel van start. Maar ben je op zoek naar een web-interface met veel creatieve vrijheid, en vind je het niet erg om een kleine leercurve te doorlopen? Dan is Leonardo.Ai misschien een betere optie voor jou.
Ik raad je aan om ze allebei uit te proberen, zodat je zelf kunt ontdekken welke tool het beste bij je wensen past. Zowel Midjourney als Leonardo.Ai bieden uitgebreide documentatie en een actieve gebruikerscommunity, waarbij de focus ligt op elkaar helpen en inspireren.