Hoe hard moeten we generatieve AI ChatGPT pushen om haatzaaiende taal te spuwen, vraagt AI-ethiek en AI-wetgeving

Wat moeten we doen aan generatieve AI die aanstootgevende inhoud produceert, zoals haatdragende taal?

Getty

Iedereen heeft zijn breekpunt.

Ik denk dat je dat ook zou kunnen zeggen alles heeft zijn breekpunt.

We weten dat mensen bijvoorbeeld soms snauwen en opmerkingen maken die ze niet per se bedoelen. Evenzo kunt u soms een apparaat of machine in wezen laten knappen, zoals uw auto te hard duwen en deze begint te haperen of uit elkaar te vliegen. Het idee is dus dat mensen of "iedereen" waarschijnlijk een breekpunt hebben, en op dezelfde manier kunnen we stellen dat objecten en dingen in het algemeen ook de neiging hebben om een breekpunt te hebben.

Er kunnen heel verstandige en vitale redenen zijn om vast te stellen waar het breekpunt ligt. U hebt bijvoorbeeld ongetwijfeld die video's gezien waarin wordt getoond hoe een auto aan de tand wordt gevoeld om vast te stellen welke breekpunten hij heeft. Wetenschappers en testers zullen een auto tegen een bakstenen muur rammen om te zien hoe goed de bumper en de structuur van het voertuig bestand zijn tegen de negatieve werking. Andere tests kunnen het gebruik van een gespecialiseerde ruimte of magazijn omvatten die extreme kou of extreme hitte produceert om te zien hoe een auto het zal doen onder verschillende weersomstandigheden.

Ik breng dit hartelijke onderwerp in de column van vandaag aan de orde, zodat we kunnen bespreken hoe sommigen momenteel druk uitoefenen op kunstmatige intelligentie (AI) om een specifiek type breekpunt te identificeren en vermoedelijk bloot te leggen, namelijk het breekpunt binnen AI dat haatdragende taal produceert.

Ja, dat klopt, er zijn verschillende ad hoc en soms systematische pogingen gaande om te peilen of het haalbaar is om AI ertoe te brengen haatdragende taal te verspreiden. Dit is een fervente sport geworden, als je wilt, vanwege de toenemende belangstelling voor en populariteit van generatieve AI.

Je bent je er misschien van bewust dat een generatieve AI-app, bekend als ChatGPT, het grote gesprek van de dag is geworden omdat het in staat is om verbazingwekkend vloeiende essays te genereren. De krantenkoppen blijven schallen en loven het verbazingwekkende schrijven dat ChatGPT weet te produceren. ChatGPT wordt beschouwd als een generatieve AI-toepassing die als input wat tekst van een gebruiker neemt en vervolgens een output genereert of produceert die uit een essay bestaat. De AI is een tekst-naar-tekst-generator, hoewel ik de AI beschrijf als een tekst-naar-essay-generator, omdat dat gemakkelijker verduidelijkt waarvoor het gewoonlijk wordt gebruikt.

Velen zijn verrast als ik zeg dat dit type AI al een tijdje bestaat en dat ChatGPT, dat eind november werd uitgebracht, op de een of andere manier niet de prijs opeiste als de eerste stap naar dit rijk van tekst-naar-essay neiging. Ik heb in de loop der jaren andere soortgelijke generatieve AI-apps besproken, zie mijn berichtgeving op de link hier.

De reden dat u de eerdere gevallen van generatieve AI misschien niet kent of onthoudt, is misschien te wijten aan het klassieke raadsel 'niet succesvol starten'. Dit is wat er meestal is gebeurd. Een AI-maker brengt zijn generatieve AI-app uit, met grote opwinding en verwachtingsvol dat de wereld de uitvinding van een betere muizenval zal waarderen, zou je kunnen zeggen. In eerste instantie ziet het er allemaal goed uit. Mensen staan versteld van wat AI kan doen.

Helaas is de volgende stap dat de wielen van de spreekwoordelijke bus beginnen te komen. De AI produceert een essay dat een grof woord of misschien een vuile zin bevat. Een virale tweet of een ander bericht op sociale media benadrukt duidelijk dat de AI dit heeft gedaan. Er ontstaat veroordeling. We kunnen niet hebben dat AI rondgaat en aanstootgevende woorden of aanstootgevende opmerkingen genereert. Er ontstaat een enorme terugslag. De AI-maker probeert misschien de interne werking van de AI aan te passen, maar de complexiteit van de algoritmen en de gegevens lenen zich niet voor snelle oplossingen. Er ontstaat een stormloop. Er worden steeds meer voorbeelden van de AI die vuil uitzendt, gevonden en online geplaatst.

De AI-maker heeft met tegenzin maar duidelijk geen andere keuze dan de AI-app buiten gebruik te stellen. Ze gaan als zodanig te werk en bieden dan vaak hun excuses aan dat ze spijt hebben als iemand beledigd is door de gegenereerde AI-outputs.

Terug naar de tekentafel, de AI-maker gaat. Er is een les geleerd. Wees erg voorzichtig met het vrijgeven van generatieve AI die vuile woorden of iets dergelijks produceert. Het is de kus des doods voor de AI. Bovendien zal de reputatie van de AI-maker gekneusd en gehavend zijn, wat lang kan duren en al hun andere AI-inspanningen kan ondermijnen, inclusief degenen die niets te maken hebben met generatieve AI op zich. Je petard laten spietsen door het uitzenden van aanstootgevende AI-taal is een nu blijvende fout. Het gebeurt nog steeds.

Was, spoel en herhaal.

In de begindagen van dit type AI waren de AI-makers niet zo gewetensvol of bedreven in het schrobben van hun AI in termen van pogingen om offensieve emissies te voorkomen. Tegenwoordig hebben de meeste AI-makers, nadat ze eerder hun collega's volledig hadden zien verpletteren door een public relations-nachtmerrie, de boodschap schijnbaar begrepen. Je moet zoveel mogelijk vangrails plaatsen. Probeer te voorkomen dat de AI vuile woorden of vuile zinnen uitzendt. Gebruik alle muilkorftechnieken of filterbenaderingen die voorkomen dat de AI woorden of essays genereert en weergeeft die ongepast blijken te zijn.

Hier is een voorproefje van de woorden op de bannerkop die wordt gebruikt wanneer AI wordt betrapt op het uitzenden van beruchte output:

"AI pronkt met gruwelijke giftigheid"
“AI stinkt naar regelrechte onverdraagzaamheid”
“AI wordt schaamteloos offensief offensief”
“AI spuwt weerzinwekkende en immorele haatzaaiende uitlatingen uit”
Enz.

Om de discussie hierin te vergemakkelijken, verwijs ik naar het uitvoeren van aanstootgevende inhoud als gelijk aan het produceren van Haattoespraak. Dat gezegd hebbende, houd er rekening mee dat er allerlei aanstootgevende inhoud kan worden geproduceerd, die verder gaat dan alleen haatdragende taal. Aanzetten tot haat wordt doorgaans opgevat als slechts één vorm van aanstootgevende inhoud.

Laten we ons concentreren op aanzetten tot haat voor deze discussie, om de discussie te vergemakkelijken, maar realiseer je wel dat andere aanstootgevende inhoud ook aandacht verdient.

Graven in haatdragende taal door mensen en door AI

De Verenigde Naties definieert Haattoespraak op deze manier:

“In gewone taal verwijst 'hate speech' naar aanstootgevend discours gericht op een groep of een individu op basis van inherente kenmerken (zoals ras, religie of geslacht) en dat kan de sociale vrede bedreigen. Om de Verenigde Naties een uniform kader te bieden om het probleem wereldwijd aan te pakken, definieert de VN-strategie en het actieplan inzake haatzaaiende taal haatspraak als 'elke vorm van communicatie in woord, geschrift of gedrag, die pejoratieve of discriminerende taal aanvalt of gebruikt met verwijzing naar een persoon of een groep op basis van wie ze zijn, met andere woorden op basis van hun religie, etniciteit, nationaliteit, ras, huidskleur, afkomst, geslacht of andere identiteitsfactor.' Tot op heden bestaat er echter geen universele definitie van haatdragende taal onder de internationale mensenrechtenwetgeving. Het concept staat nog steeds ter discussie, vooral met betrekking tot vrijheid van mening en meningsuiting, non-discriminatie en gelijkheid” (VN-website getiteld “What is hate speech?”).

AI die tekst produceert, kan in de sfeer van haatspraak terechtkomen. Je zou hetzelfde kunnen zeggen over tekst-naar-kunst, tekst-naar-audio, tekst-naar-video en andere vormen van generatieve AI. Er is bijvoorbeeld altijd de mogelijkheid dat een generatieve AI een kunstwerk zou produceren dat riekt naar haatdragende taal. Voor de doeleinden van deze bespreking in dit document ga ik me concentreren op de tekst-naar-tekst- of tekst-naar-essay-mogelijkheden.

Bij dit alles komt een hele reeks overwegingen op het gebied van AI-ethiek en AI-wetgeving kijken.

Houd er rekening mee dat er voortdurende inspanningen worden geleverd om ethische AI-principes te integreren in de ontwikkeling en uitvoering van AI-apps. Een groeiend contingent van bezorgde en voormalige AI-ethici probeert ervoor te zorgen dat bij het bedenken en toepassen van AI rekening wordt gehouden met de visie van doen AI voorgoed en afwenden AI voor slecht. Evenzo worden er nieuwe AI-wetten voorgesteld die worden gebruikt als mogelijke oplossingen om te voorkomen dat AI-inspanningen amok maken op het gebied van mensenrechten en dergelijke. Zie voor mijn doorlopende en uitgebreide berichtgeving over AI-ethiek en AI-wetgeving de link hier en de link hier, om er een paar te noemen.

De ontwikkeling en afkondiging van ethische AI-voorschriften wordt nagestreefd om hopelijk te voorkomen dat de samenleving in een groot aantal AI-inducerende valkuilen vervalt. Zie voor mijn berichtgeving over de principes van de VN-ethiek op het gebied van AI, zoals bedacht en ondersteund door bijna 200 landen via de inspanningen van UNESCO, de link hier. In dezelfde geest worden nieuwe AI-wetten onderzocht om te proberen AI in evenwicht te houden. Een van de nieuwste opnames bestaat uit een reeks voorgestelde AI Bill van rechten dat het Amerikaanse Witte Huis onlangs heeft vrijgegeven om de mensenrechten in een tijdperk van AI te identificeren, zie de link hier. Er is een dorp voor nodig om AI en AI-ontwikkelaars op het juiste pad te houden en de doelbewuste of onbedoelde achterbakse inspanningen die de samenleving zouden kunnen ondermijnen, af te schrikken.

Ik zal overwegingen met betrekking tot AI-ethiek en AI-wetgeving verweven in deze discussie over AI die haatdragende taal of andere aanstootgevende inhoud verspreidt.

Een beetje verwarring die ik meteen wil ophelderen, is dat de AI van vandaag niet bewust is en daarom kun je niet verkondigen dat de AI haatdragende taal zou kunnen produceren vanwege een doelbewuste mensachtige bedoeling die op de een of andere manier bezield is in de AI. Dwaze beweringen doen de ronde dat de huidige AI bewust is en dat de AI een corrupte ziel heeft, waardoor het haatdragende taal genereert.

Belachelijk.

Val er niet voor.

Gezien dat keystone-voorschrift, raken sommigen van streek door dergelijke indicaties, omdat je de AI schijnbaar van de haak laat. Onder die vreemde manier van denken komt de aansporing vervolgens dat je blijkbaar bereid bent om de AI elke vorm van gruwelijke output te laten genereren. U bent voorstander van AI die haatdragende taal uitspuwt.

Yikes, een nogal verwrongen vorm van onlogisch. De kern van de zaak is dat we de AI-makers verantwoordelijk moeten houden, samen met degene die de AI uitvoert of de AI bedient. Ik heb uitgebreid besproken dat we nog niet op het punt zijn om de rechtspersoonlijkheid aan AI toe te geven, zie mijn analyses op de link hier, en tot die tijd valt AI in wezen buiten de reikwijdte van wettelijke verantwoordelijkheid. Er zijn echter mensen die ten grondslag liggen aan de ontwikkeling van AI. Daarnaast ligt de mens ten grondslag aan het afhandelen en opereren van AI. We kunnen achter die mensen aan gaan omdat ze de verantwoordelijkheid dragen voor hun AI.

Even terzijde, dit kan ook lastig zijn, vooral als de AI naar het internet wordt gedreven en we niet kunnen achterhalen welke mens of mensen dit hebben gedaan, wat een ander onderwerp is dat ik heb behandeld in mijn columns op de link hier. Lastig of niet, we kunnen nog steeds niet verkondigen dat AI de schuldige is. Laat mensen niet stiekem valse antropomorfisering gebruiken om zich te verstoppen en te ontsnappen aan de verantwoordelijkheid voor wat ze hebben aangericht.

Terug naar de zaak.

Je vraagt je misschien af waarom niet alle AI-makers hun generatieve AI zo beperken dat het voor de AI onmogelijk is om haatdragende taal te produceren. Dit lijkt gemakkelijk. Schrijf gewoon wat code of stel een checklist met haatdragende woorden op en zorg ervoor dat de AI nooit zoiets genereert. Het lijkt misschien merkwaardig dat de AI-makers niet al aan deze snelle oplossing hebben gedacht.

Nou, ik haat het om je dit te vertellen, maar de complexiteit die inherent is aan het construeren van wat wel of niet haatdragende taal is, blijkt een stuk moeilijker te zijn dan je zou denken.

Verplaats dit naar het domein van mensen en hoe mensen met elkaar chatten. Stel dat je een mens hebt die haatzaaien wil vermijden. Deze persoon is zich zeer bewust van aanzetten tot haat en hoopt oprecht te vermijden ooit een woord of zin uit te spreken die mogelijk aanzetten tot haat. Deze persoon is er voortdurend op bedacht dat hij geen greintje haatdragende taal uit zijn mond laat ontsnappen.

Zal deze mens die een brein heeft en gewaarschuwd is om haatzaaiende taal te vermijden, altijd en zonder enige kans op uitglijden in staat zijn om ervoor te zorgen dat hij nooit haatdragende taal uitstraalt?

Je eerste impuls zou kunnen zijn om te zeggen dat ja, natuurlijk zou een verlicht mens dat doel kunnen bereiken. Mensen zijn slim. Als ze hun zinnen ergens op zetten, kunnen ze het voor elkaar krijgen. Punt, einde verhaal.

Wees er niet zo zeker van.

Stel dat ik deze persoon vraag mij te vertellen over haatspraak. Verder vraag ik hen om mij een voorbeeld van haatdragende taal te geven. Ik wil een voorbeeld zien of horen zodat ik kan weten waar haatspraak uit bestaat. Mijn redenen om dit te vragen zijn dus duidelijk.

Wat moet de persoon tegen mij zeggen?

Ik denk dat je de val kunt zien die is gelegd. Als de persoon mij een voorbeeld geeft van aanzetten tot haat, inclusief het daadwerkelijk uitspreken van een grof woord of zin, dan heeft hij/zij zelf aanzetten tot haat. Bam, we hebben ze. Terwijl ze beloofden nooit haatzaaiende taal te gebruiken, hebben ze dat nu inderdaad gedaan.

Oneerlijk, roept u uit! Ze zeiden alleen dat woord of die woorden om een voorbeeld te geven. Diep in hun hart geloofden ze niet in het woord of de woorden. Het is volledig uit de context en schandalig om te verklaren dat de persoon haatdragend is.

Ik weet zeker dat je ziet dat het uiten van haatdragende taal niet noodzakelijkerwijs te wijten is aan een haatdragende basis. In dit geval, ervan uitgaande dat de persoon de woorden niet 'meende', en ze de woorden alleen reciteerden voor demonstratiedoeleinden, zouden we het er waarschijnlijk mee eens zijn dat het niet de bedoeling was dat ze de haatdragende taal kracht bijzetten. Natuurlijk zijn er sommigen die volhouden dat het uiten van haatdragende taal, ongeacht de reden of basis, desalniettemin verkeerd is. De persoon had het verzoek moeten afwijzen. Ze hadden voet bij stuk moeten houden en moeten weigeren haatdragende woorden of zinnen te uiten, ongeacht waarom of hoe ze daarom worden gevraagd.

Dit kan enigszins circulair worden. Als u niet kunt zeggen wat haatdragende taal is, hoe kunnen anderen dan weten wat ze moeten vermijden als ze uitingen van welke aard dan ook doen? We lijken vast te zitten. Je kunt niet zeggen wat niet gezegd mag worden, noch kan iemand anders je vertellen wat niet gezegd kan worden.

De gebruikelijke manier om dit dilemma te omzeilen, is met andere woorden te beschrijven wat als haatdragende taal wordt beschouwd, zonder de haatdragende woorden zelf aan te roepen. De overtuiging is dat het geven van een algemene indicatie voldoende zal zijn om anderen te informeren over wat ze moeten vermijden. Dat lijkt een verstandige tactiek, maar het heeft ook problemen en een persoon zou nog steeds kunnen vervallen in het gebruiken van haatspraak omdat ze niet doorhebben dat de bredere definitie de bijzonderheden omvatte van wat ze hebben geuit.

Dat gaat allemaal over mensen en hoe mensen met elkaar praten of communiceren.

Bedenk dat we hier gefocust zijn op AI. We moeten ervoor zorgen dat de AI het uiten van haatdragende taal vermijdt of er helemaal mee stopt. Je zou kunnen stellen dat we dit misschien kunnen doen door ervoor te zorgen dat de AI nooit wordt gegeven of getraind op iets dat haatdragende taal vormt. Voila, als er geen dergelijke input is, zal er vermoedelijk ook geen dergelijke output zijn. Probleem opgelost.

Laten we eens kijken hoe dit in werkelijkheid uitpakt. We kiezen ervoor om een AI-app computationeel naar internet te laten gaan en duizenden en duizenden essays en verhalen op internet te onderzoeken. Door dit te doen, trainen we de AI computationeel en wiskundig om patronen te vinden tussen de woorden die mensen gebruiken. Dat is hoe de nieuwste generatieve AI wordt bedacht, en het is ook een cruciale basis waarom de AI zo schijnbaar vloeiend is in het produceren van essays in natuurlijke taal.

Vertel me eens, als je kunt, hoe zou de computertraining op basis van miljoenen en miljarden woorden op internet op zo'n manier kunnen worden uitgevoerd dat er op geen enkel moment enige schijn of zelfs maar stukjes van haatzaaiende taal werd omvat?

Ik zou durven zeggen dat dit een netelige en bijna onmogelijke ambitie is.

De kans is groot dat haatdragende taal wordt opgeslokt door de AI en zijn computationele patroonvergelijkingsnetwerk. Dit proberen te voorkomen is problematisch. En zelfs als je het hebt geminimaliseerd, zijn er nog steeds enkele die er doorheen kunnen sluipen. Je hebt vrijwel geen andere keuze dan aan te nemen dat sommige binnen het patroonvergelijkingsnetwerk zullen bestaan of dat een schaduw van dergelijke bewoordingen zich zal verschansen.

Ik zal meer wendingen toevoegen.

Ik denk dat we allemaal kunnen erkennen dat haatdragende taal in de loop van de tijd verandert. Wat misschien werd opgevat als geen haatzaaiende taal, kan op een later tijdstip cultureel en maatschappelijk beslist worden als haatdragende taal. Dus als we onze AI trainen op internettekst en laten we zeggen dat we de AI bevriezen om geen verdere training op internet te volgen, zouden we op dat moment haatdragende taal kunnen tegenkomen, hoewel het op dat moment niet als haatdragende taal werd beschouwd. Pas achteraf kan die spraak worden aangemerkt als haatdragende taal.

Nogmaals, de essentie is dat alleen maar proberen dit probleem op te lossen door ervoor te zorgen dat de AI nooit wordt blootgesteld aan haatdragende taal, niet het wondermiddel zal zijn. We zullen nog steeds een manier moeten vinden om te voorkomen dat de AI haatdragende taal uitzendt, bijvoorbeeld door veranderende mores die later haatdragende taal bevatten die voorheen niet als zodanig werd beschouwd.

Nog een andere wending is het nadenken waard.

Ik heb eerder vermeld dat bij het gebruik van generatieve AI zoals ChatGPT, de gebruiker tekst invoert om de AI aan te sporen een essay te schrijven. De ingevoerde tekst wordt beschouwd als een vorm van prompt of prompt voor de AI-app. Ik zal hier straks meer over uitleggen.

Stel je in ieder geval voor dat iemand die een generatieve AI-app gebruikt, besluit om als prompt een hoeveelheid haatdragende taal in te voeren.

Wat zou er moeten gebeuren?

Als de AI die woorden neemt en op basis van die woorden een essay produceert als output, is de kans groot dat de haatdragende taal wordt opgenomen in het gegenereerde essay. Zie je, we hebben de AI om haatdragende taal te uiten, ook al is die nooit getraind op haatdragende taal bij de start.

Er is nog iets dat je moet weten.

Onthoud dat ik net heb gezegd dat een mens kan worden gestruikeld door hen te vragen voorbeelden van haatdragende taal te geven. Hetzelfde zou kunnen worden geprobeerd op AI. Een gebruiker voert een prompt in die de AI vraagt om voorbeelden van aanzetten tot haat te geven. Moet de AI hieraan voldoen en dergelijke voorbeelden geven? Ik wed dat je waarschijnlijk gelooft dat AI dat niet zou moeten doen. Aan de andere kant, als de AI computationeel is gemanipuleerd om dit niet te doen, vormt dit dan een potentieel nadeel dat degenen die de AI gebruiken niet in staat zullen zijn om ooit door de AI geïnstrueerd te worden over wat haatspraak eigenlijk is ( verder dan er alleen maar over te generaliseren)?

Moeilijke vragen.

Ik heb de neiging om door AI uitgezonden haatspraak te categoriseren in deze drie hoofdcategorieën:

Dagelijkse modus. AI verspreidt haatdragende taal zonder enige expliciete aansporing door de gebruiker en alsof dit op een "gewone" manier gebeurt.
Door Casual Prodding. AI zendt haatzaaiende uitingen uit die door een gebruiker worden aangespoord met betrekking tot hun ingevoerde prompt of reeks prompts die dergelijke emissies lijken te bevatten of er rechtstreeks naar op zoek zijn.
Per bepaald stoken. AI verspreidt haatdragende taal na een zeer vastberaden en hardnekkige reeks snelle duwtjes en stoten door een gebruiker die erop uit is om de AI dergelijke output te laten produceren.

De eerdere generaties generatieve AI spraken vaak in een oogwenk uit tot haat; dus je zou die instanties kunnen classificeren als een type van dagelijkse modus instantiëring. AI-makers trokken zich terug en speelden met de AI om ervoor te zorgen dat het minder snel verstrikt zou raken in de productie van haatdragende taal.

Na de release van de meer verfijnde AI, is de kans om er een te zien dagelijkse modus gevallen van haatdragende taal werden drastisch verminderd. In plaats daarvan zou de haatspraak waarschijnlijk alleen ontstaan wanneer een gebruiker iets deed als een prompt die computationeel en wiskundig een koppeling zou kunnen maken met aan haat gerelateerde spraak in het patroonvergelijkingsnetwerk. Een gebruiker kan dit per ongeluk doen en zich niet realiseren dat wat hij als prompt heeft opgegeven, in het bijzonder tot haat zou leiden. Nadat de gebruiker haatdragende taal in een uitgevoerd essay had gekregen, besefte en zag de gebruiker vaak dat iets in zijn prompt logischerwijs had kunnen leiden tot de opname van haatzaaiende taal in de uitvoer.

Dit is wat ik noem terloops aansporen.

Tegenwoordig zijn de verschillende pogingen om door AI gegenereerde haatzaaiende uitlatingen in te perken relatief sterk in vergelijking met het verleden. Als zodanig moet je bijna je best doen om haatdragende taal te laten produceren. Sommige mensen kiezen ervoor om met opzet te kijken of ze haatdragende taal kunnen krijgen om uit deze generatieve AI-apps te komen. Ik noem dit vastberaden stoken.

Ik wil benadrukken dat alle drie de aangegeven modi kunnen voorkomen en dat ze elkaar niet uitsluiten. Een generatieve AI-app kan mogelijk haatdragende taal produceren zonder enige vorm van prompt die dergelijke productie lijkt te stimuleren. Evenzo kan iets in een prompt logisch en wiskundig worden geïnterpreteerd als gerelateerd aan de reden waarom haatdragende taal is geproduceerd. En dan is het derde aspect, doelbewust proberen om haatdragende taal te laten produceren, misschien wel de moeilijkste van de modi om te proberen om de AI te laten voorkomen dat hij enthousiast wordt om te vervullen. Hierover straks meer.

We hebben nog wat uit te pakken over dit onstuimige onderwerp.

Ten eerste moeten we ervoor zorgen dat we allemaal op dezelfde lijn zitten over wat Generative AI inhoudt en ook waar het bij ChatGPT om draait. Zodra we dat fundamentele facet hebben behandeld, kunnen we een overtuigende beoordeling van deze gewichtige kwestie maken.

Als je al goed bekend bent met Generative AI en ChatGPT, kun je misschien het volgende gedeelte overslaan en doorgaan met het volgende gedeelte. Ik geloof dat alle anderen de essentiële details over deze zaken leerzaam zullen vinden door het gedeelte aandachtig te lezen en op de hoogte te blijven.

Een snelle inleiding over generatieve AI en ChatGPT

ChatGPT is een interactief conversatie-georiënteerd AI-systeem voor algemeen gebruik, in wezen een ogenschijnlijk onschuldige algemene chatbot, maar het wordt actief en gretig door mensen gebruikt op manieren die velen volledig overrompelen, zoals ik binnenkort zal toelichten. Deze AI-app maakt gebruik van een techniek en technologie in het AI-rijk waarnaar vaak wordt verwezen als generatieve AI. De AI genereert uitvoer zoals tekst, wat ChatGPT doet. Andere op generatieve gebaseerde AI-apps produceren afbeeldingen zoals foto's of illustraties, terwijl andere audiobestanden of video's genereren.

Ik zal me in deze discussie concentreren op de op tekst gebaseerde generatieve AI-apps, want dat is wat ChatGPT doet.

Generatieve AI-apps zijn buitengewoon gebruiksvriendelijk.

Het enige dat u hoeft te doen, is een prompt invoeren en de AI-app genereert voor u een essay dat probeert op uw prompt te reageren. De samengestelde tekst zal lijken alsof het essay door de menselijke hand en geest is geschreven. Als u een prompt zou invoeren met de tekst "Vertel me over Abraham Lincoln", zal de generatieve AI u een essay over Lincoln geven. Dit wordt gewoonlijk geclassificeerd als generatieve AI die presteert tekst-naar-tekst of sommigen noemen het liever tekst-naar-essay uitgang. Zoals gezegd zijn er andere vormen van generatieve AI, zoals tekst-naar-kunst en tekst-naar-video.

Je eerste gedachte zou kunnen zijn dat dit generatieve vermogen niet zo belangrijk lijkt als het gaat om het produceren van essays. U kunt eenvoudig online op internet zoeken en gemakkelijk tonnen en tonnen essays over president Lincoln vinden. De kicker in het geval van generatieve AI is dat het gegenereerde essay relatief uniek is en een originele compositie biedt in plaats van een copycat. Als je zou proberen het door AI geproduceerde essay ergens online te vinden, zou je het waarschijnlijk niet ontdekken.

Generatieve AI is vooraf getraind en maakt gebruik van een complexe wiskundige en computationele formulering die is opgezet door patronen in geschreven woorden en verhalen op internet te onderzoeken. Als resultaat van het onderzoeken van duizenden en miljoenen geschreven passages, kan de AI nieuwe essays en verhalen uitspuwen die een mengelmoes zijn van wat werd gevonden. Door verschillende probabilistische functionaliteit toe te voegen, is de resulterende tekst vrijwel uniek in vergelijking met wat er in de trainingsset is gebruikt.

Daarom is er opschudding ontstaan over het feit dat studenten vals kunnen spelen bij het schrijven van essays buiten de klas. Een leraar kan niet zomaar het essay nemen waarvan bedrieglijke studenten beweren dat het hun eigen schrijven is en proberen erachter te komen of het is gekopieerd van een andere online bron. Over het algemeen zal er geen definitief bestaand essay online zijn dat past bij het door AI gegenereerde essay. Alles bij elkaar zal de leraar met tegenzin moeten accepteren dat de student het essay als een origineel werkstuk heeft geschreven.

Er zijn extra zorgen over generatieve AI.

Een cruciaal nadeel is dat de essays die door een op generatieve gebaseerde AI-app worden geproduceerd, verschillende onwaarheden kunnen bevatten, waaronder overduidelijk onware feiten, feiten die misleidend worden weergegeven en schijnbare feiten die volledig verzonnen zijn. Die verzonnen aspecten worden vaak een vorm van genoemd AI-hallucinaties, een slogan waar ik een hekel aan heb, maar die helaas toch populair lijkt te worden (voor mijn gedetailleerde uitleg over waarom dit een waardeloze en ongeschikte terminologie is, zie mijn berichtgeving op de link hier).

Ik zou graag één belangrijk aspect willen verduidelijken voordat we ingaan op dit onderwerp.

Er zijn enkele nootachtige buitensporige claims op sociale media over generatieve AI beweren dat deze nieuwste versie van AI in feite is bewuste AI (nee, ze hebben ongelijk!). Degenen in AI-ethiek en AI-recht maken zich met name zorgen over deze snelgroeiende trend van uitgestrekte claims. Je zou beleefd kunnen zeggen dat sommige mensen overdrijven wat de huidige AI eigenlijk kan doen. Ze gaan ervan uit dat AI mogelijkheden heeft die we nog niet hebben kunnen bereiken. Dat is jammer. Erger nog, ze kunnen zichzelf en anderen in benarde situaties laten komen door de veronderstelling dat de AI bewust of menselijk zal zijn in het kunnen ondernemen van actie.

Antropomorfiseer AI niet.

Als u dit doet, raakt u verstrikt in een kleverige en stugge afhankelijkheidsval door te verwachten dat de AI dingen doet die hij niet kan uitvoeren. Dat gezegd hebbende, het nieuwste op het gebied van generatieve AI is relatief indrukwekkend voor wat het kan doen. Houd er echter rekening mee dat er aanzienlijke beperkingen zijn waarmee u voortdurend rekening moet houden bij het gebruik van een generatieve AI-app.

Als je geïnteresseerd bent in de snel groeiende commotie over ChatGPT en Generative AI, heb ik een gerichte serie in mijn column gedaan die je misschien informatief vindt. Hier volgt een overzicht voor het geval een van deze onderwerpen je aanspreekt:

1) Voorspellingen van komende ontwikkelingen op het gebied van generatieve AI. Als je wilt weten wat er zich waarschijnlijk zal ontvouwen over AI in 2023 en daarna, inclusief aankomende ontwikkelingen in generatieve AI en ChatGPT, wil je mijn uitgebreide lijst met voorspellingen voor 2023 lezen op de link hier.
2) Generatieve AI en advies over geestelijke gezondheid. Ik heb ervoor gekozen om te bekijken hoe generatieve AI en ChatGPT worden gebruikt voor advies over geestelijke gezondheid, een lastige trend, volgens mijn gerichte analyse op de link hier.
3) Grondbeginselen van generatieve AI en ChatGPT. Dit stuk onderzoekt de belangrijkste elementen van hoe generatieve AI werkt en duikt in het bijzonder in de ChatGPT-app, inclusief een analyse van de buzz en fanfare, op de link hier.
4) Spanning tussen docenten en studenten over generatieve AI en ChatGPT. Dit zijn de manieren waarop studenten op slinkse wijze generatieve AI en ChatGPT gebruiken. Daarnaast zijn er verschillende manieren waarop leraren deze vloedgolf het hoofd kunnen bieden. Zie je wel de link hier.
5) Context en generatief AI-gebruik. Ik deed ook een seizoensgebonden ironisch onderzoek over een Santa-gerelateerde context met ChatGPT en generatieve AI op de link hier.
6) Oplichters die generatieve AI gebruiken. Een onheilspellende opmerking: sommige oplichters hebben ontdekt hoe ze generatieve AI en ChatGPT kunnen gebruiken om wangedrag te plegen, waaronder het genereren van zwendel-e-mails en zelfs het produceren van programmeercode voor malware. Zie mijn analyse op de link hier.
7) Rookie-fouten met behulp van generatieve AI. Veel mensen schieten zowel tekort als verrassend genoeg onder wat generatieve AI en ChatGPT kunnen doen, dus ik heb vooral gekeken naar de onderschrijding die AI-beginners vaak maken, zie de discussie op de link hier.
8) Omgaan met generatieve AI-prompts en AI-hallucinaties. Ik beschrijf een toonaangevende benadering van het gebruik van AI-add-ons om de verschillende problemen aan te pakken die samenhangen met het proberen om geschikte prompts in generatieve AI in te voeren, plus er zijn aanvullende AI-add-ons voor het detecteren van zogenaamde AI-gehallucineerde outputs en onwaarheden, zoals gedekt bij de link hier.
9) Bonehead-claims over het detecteren van generatieve AI-geproduceerde essays ontkrachten. Er is een misleidende goudkoorts van AI-apps die beweren te kunnen vaststellen of een bepaald essay door mensen is geproduceerd of door AI is gegenereerd. Over het algemeen is dit misleidend en in sommige gevallen een botte en onhoudbare bewering, zie mijn berichtgeving op de link hier.
10) Rollenspel via generatieve AI kan nadelen voor de geestelijke gezondheid voorspellen. Sommigen gebruiken generatieve AI zoals ChatGPT om rollenspellen te doen, waarbij de AI-app reageert op een mens alsof hij zich in een fantasiewereld of een andere verzonnen setting bevindt. Dit kan gevolgen hebben voor de geestelijke gezondheid, zie de link hier.
11) Het blootleggen van de reeks uitgevoerde fouten en onwaarheden. Er worden verschillende verzamelde lijsten samengesteld om te proberen de aard van door ChatGPT geproduceerde fouten en onwaarheden te laten zien. Sommigen geloven dat dit essentieel is, terwijl anderen zeggen dat de exercitie zinloos is, zie mijn analyse op de link hier.
12) Scholen die generatieve AI ChatGPT verbieden, missen de boot. U weet misschien dat verschillende scholen, zoals het New York City (NYC) Department of Education, een verbod hebben afgekondigd op het gebruik van ChatGPT op hun netwerk en bijbehorende apparaten. Hoewel dit misschien een nuttige voorzorgsmaatregel lijkt, zal het de naald niet bewegen en helaas de boot volledig missen, zie mijn berichtgeving op de link hier.
13) Generatieve AI ChatGPT zal overal zijn dankzij de aanstaande API. Er komt een belangrijke wending aan het gebruik van ChatGPT, namelijk dat via het gebruik van een API-portal in deze specifieke AI-app andere softwareprogramma's ChatGPT kunnen aanroepen en gebruiken. Dit zal het gebruik van generatieve AI drastisch uitbreiden en heeft opmerkelijke gevolgen, zie mijn uitwerking op de link hier.
14) Manieren waarop ChatGPT zou kunnen bruisen of smelten. Verschillende potentiële vervelende problemen liggen voor ChatGPT in termen van het ondermijnen van de tot nu toe geweldige lof die het heeft ontvangen. Deze analyse gaat nauwkeurig in op acht mogelijke problemen die ervoor kunnen zorgen dat ChatGPT zijn stoom verliest en zelfs in het hondenhok terechtkomt, zie de link hier.
15) Vragen of generatieve AI ChatGPT een spiegel in de ziel is. Sommige mensen hebben gekraaid dat generatieve AI zoals ChatGPT een spiegel is in de ziel van de mensheid. Dit lijkt nogal twijfelachtig. Hier is de manier om dit allemaal te begrijpen. Zie? de link hier.
16) Vertrouwelijkheid en privacy opgeslokt door ChatGPT. Velen lijken zich niet te realiseren dat de licenties die zijn gekoppeld aan generatieve AI-apps zoals ChatGPT, de AI-maker vaak in staat stellen om uw ingevoerde prompts te zien en te gebruiken. U loopt mogelijk risico op privacy en verlies van vertrouwelijkheid van gegevens, zie mijn beoordeling op de link hier.
17) Manieren waarop app-makers twijfelachtig proberen om ChatGPT-rechten te verwerven. ChatGPT is op dit moment het baken van aandacht. App-makers die niets met ChatGPT te maken hebben, proberen koortsachtig te beweren of te suggereren dat ze ChatGPT gebruiken. Hier is waar u op moet letten, ziet u de link hier.

Misschien vindt u het interessant dat ChatGPT is gebaseerd op een versie van een eerdere AI-app die bekend staat als GPT-3. ChatGPT wordt beschouwd als een iets volgende stap, GPT-3.5 genoemd. Verwacht wordt dat GPT-4 waarschijnlijk in het voorjaar van 2023 zal worden uitgebracht. Vermoedelijk zal GPT-4 een indrukwekkende stap voorwaarts zijn in termen van het kunnen produceren van ogenschijnlijk nog vloeiendere essays, dieper gaan en ontzag wekken -inspirerende verwondering over de composities die het kan produceren.

Je kunt een nieuwe ronde van uitgesproken verwondering verwachten wanneer de lente aanbreekt en het nieuwste op het gebied van generatieve AI wordt uitgebracht.

Ik breng dit naar voren omdat er een andere invalshoek is om in gedachten te houden, namelijk een potentiële achilleshiel voor deze betere en grotere generatieve AI-apps. Als een AI-leverancier een generatieve AI-app beschikbaar stelt die schuimig onzin uitspuwt, zou dit de hoop van die AI-makers kunnen ondermijnen. Een maatschappelijke overloop kan ervoor zorgen dat alle generatieve AI een ernstig blauw oog krijgt. Mensen zullen ongetwijfeld behoorlijk van streek raken door foute output, wat al vele malen is gebeurd en heeft geleid tot luidruchtige maatschappelijke veroordelingen jegens AI.

Een laatste waarschuwing voor nu.

Wat je ook ziet of leest in een generatieve AI-reactie daarop lijkt om te worden overgebracht als puur feitelijk (data, plaatsen, mensen, enz.), zorg ervoor dat u sceptisch blijft en bereid bent om dubbel te controleren wat u ziet.

Ja, datums kunnen worden verzonnen, plaatsen kunnen worden verzonnen en elementen waarvan we normaal gesproken verwachten dat ze onberispelijk zijn allen onderhevig aan verdenkingen. Geloof niet wat u leest en blijf sceptisch bij het onderzoeken van essays of outputs van generatieve AI. Als een generatieve AI-app je vertelt dat Abraham Lincoln in zijn eigen privéjet door het land vloog, zou je ongetwijfeld weten dat dit malarky is. Helaas realiseren sommige mensen zich misschien niet dat er in zijn tijd nog geen straaljagers waren, of ze weten het misschien maar merken niet op dat het essay deze brutale en buitensporig valse bewering doet.

Een sterke dosis gezonde scepsis en een aanhoudende mentaliteit van ongeloof zullen uw beste troef zijn bij het gebruik van generatieve AI.

We zijn klaar om naar de volgende fase van deze opheldering te gaan.

Generatieve AI naar een breekpunt duwen

Nu we de basis hebben gelegd, kunnen we ons verdiepen in het onderwerp van het pushen van generatieve AI en ChatGPT om haatdragende taal en andere aanstootgevende inhoud te genereren.

Wanneer u zich voor het eerst aanmeldt bij ChatGPT, zijn er verschillende waarschuwingsindicaties, waaronder deze:

"Kan af en toe schadelijke instructies of bevooroordeelde inhoud produceren."
"Getraind om ongepaste verzoeken af te wijzen."
"Kan af en toe onjuiste informatie genereren."
“Beperkte kennis van wereld en gebeurtenissen na 2021.”

Hier is een vraag om over na te denken.

Biedt de waarschuwing dat de AI-app mogelijk schadelijke instructies en/of mogelijk vertekende inhoud kan produceren voldoende speelruimte voor de AI-maker?

Met andere woorden, stel dat u ChatGPT gebruikt en het genereert een essay waarvan u denkt dat het haatdragende taal bevat. Laten we aannemen dat je hier razend over bent. Je gaat naar sociale media en post woedend commentaar dat de AI-app het ergste ooit is. Misschien ben je zo beledigd dat je verklaart dat je de AI-maker gaat aanklagen voor het toestaan van dergelijke haatdragende taal.

Het tegenargument is dat de AI-app een waarschuwende waarschuwing had, dus u accepteerde het risico door door te gaan met het gebruik van de AI-app. Vanuit het perspectief van AI-ethiek heeft de AI-maker misschien genoeg gedaan om te beweren dat u op de hoogte was van wat er zou kunnen gebeuren. Evenzo, vanuit een juridisch perspectief, was de waarschuwing misschien voldoende heads-up en zult u niet zegevieren in de rechtbank.

Dit hangt allemaal in de lucht en we zullen moeten afwachten hoe het afloopt.

In zekere zin heeft de AI-maker nog iets anders in petto om zich te verdedigen tegen woedende claims van de AI-app die mogelijk haatdragende taal produceert. Ze hebben geprobeerd te voorkomen dat aanstootgevende inhoud wordt gegenereerd. Zie je, als ze niets hadden gedaan om dit in te perken, zou men veronderstellen dat ze zich op gladder ijs zouden bevinden. Door op zijn minst inhoudelijke moeite te hebben gedaan om de zaak af te wenden, hebben ze vermoedelijk een wat sterker been om op te staan (het zou nog steeds onder hen vandaan kunnen worden geslagen).

Een curatieve benadering die werd gebruikt, bestond uit een AI-techniek die bekend staat als RLHF (reinforcement learning via human feedback). Dit bestaat over het algemeen uit het laten genereren van inhoud door de AI die vervolgens aan mensen wordt gevraagd om te beoordelen of te beoordelen. Op basis van de beoordeling of recensie probeert de AI vervolgens wiskundig en computationeel om alles te vermijden dat als onrechtmatige of aanstootgevende inhoud wordt beschouwd. De aanpak is bedoeld om genoeg voorbeelden te onderzoeken van wat goed is versus wat fout is, zodat de AI een overkoepelend wiskundig patroon kan bedenken en dat patroon voortaan kan gebruiken.

Een andere veel voorkomende aanpak tegenwoordig is het gebruik van Adversarial AI.

Hier is hoe dat werkt. Je zet een ander AI-systeem op dat probeert een tegenstander te zijn van de AI die je probeert te trainen. In dit geval zouden we een AI-systeem opzetten dat haatspraak probeert aan te wakkeren. Het zou prompts in de AI-app invoeren die erop gericht zijn de AI-app te misleiden om vuile inhoud uit te voeren. Ondertussen houdt de AI die het doelwit is bij wanneer de vijandige AI succesvol is en probeert vervolgens algoritmisch aan te passen om te voorkomen dat dit opnieuw gebeurt. Het is een kat tegen muis gok. Dit wordt keer op keer uitgevoerd, totdat de vijandige AI er niet langer bijzonder succesvol in lijkt te zijn om de gerichte AI de slechte dingen te laten doen.

Via deze twee belangrijke technieken, plus andere benaderingen, is veel van de huidige generatieve AI veel beter in het vermijden en/of detecteren van aanstootgevende inhoud dan in de afgelopen jaren het geval was.

Verwacht echter geen perfectie van deze methodes. De kans is groot dat het laaghangende fruit van slechte resultaten waarschijnlijk onder controle wordt gehouden door dergelijke AI-technieken. Er is nog veel ruimte voor het uitstoten van vuil.

Ik wijs er meestal op dat dit enkele van de facetten zijn die worden gezocht om te vangen:

Een bepaald grof woord uitzenden
Het uiten van een bepaalde vuile zin, zin of opmerking
Een bepaalde vuile opvatting uitdrukken
Het impliceren van een bepaalde foute handeling of idee
Lijkt te vertrouwen op een bepaald fout vermoeden
Overige

Dit alles is geen exacte wetenschap. Realiseer je dat we met woorden te maken hebben. Woorden zijn semantisch dubbelzinnig. Het vinden van een bepaald grof woord is kinderspel, maar proberen te peilen of een zin of alinea een schijn van een vuile betekenis bevat, is een stuk moeilijker. Volgens de eerdere definitie van haatdragende taal door de Verenigde Naties bestaat er een enorme speelruimte met betrekking tot wat kan worden opgevat als haatdragende taal en wat niet.

Je zou kunnen zeggen dat de grijze gebieden in het oog van de toeschouwer zijn.

Over het oog van de toeschouwer gesproken, er zijn tegenwoordig mensen die generatieve AI gebruiken, zoals ChatGPT, die doelbewust proberen deze AI-apps aanstootgevende inhoud te laten produceren. Dit is hun zoektocht. Ze besteden uren aan uren om dit te laten gebeuren.

Waarom?

Hier zijn mijn karakteriseringen van die menselijke AI-offensieve uitvoerjagers:

Oprecht. Deze mensen willen AI helpen verfijnen en de mensheid daarbij helpen. Ze geloven dat ze heldhaftig werk verrichten en genieten ervan dat ze kunnen helpen bij het bevorderen van AI voor de verbetering van iedereen.
Funsters. Deze mensen beschouwen deze inspanning als een spel. Ze vinden het leuk om met de AI te rommelen. Het winnen van het spel bestaat uit het vinden van het ergste van het slechtste in alles wat je de AI kunt laten genereren.
Uitslovers. Deze mensen hopen aandacht voor zichzelf te krijgen. Ze denken dat als ze echt vuile goudklompjes kunnen vinden, ze een beetje van het schijnende licht op hen kunnen krijgen dat anders gericht is op de AI-app zelf.
bitters. Deze mensen zijn geërgerd over deze AI. Ze willen al dat gutsende enthousiasme ondermijnen. Als ze stinkende smerige dingen kunnen ontdekken, haalt dit misschien de lucht uit de opwindingsballon van de AI-app.
andere motivaties

Veel van degenen die het vondstoffensief uitvoeren, bevinden zich voornamelijk in slechts een van die kampen. Je kunt natuurlijk in meer dan één kamp tegelijk zijn. Misschien heeft een verbitterd persoon ook de intentie om oprecht en heldhaftig te zijn. Sommige of al deze motivaties kunnen naast elkaar bestaan. Wanneer iemand wordt gevraagd om uit te leggen waarom iemand probeert een generatieve AI-app naar het domein van haatspraak te duwen, is het gebruikelijke antwoord om te zeggen dat je in het echte kamp zit, ook al ben je dat misschien maar een klein beetje en zit je in plaats daarvan schril in een van de andere kampen.

Welke soorten prompt-gerelateerde bedrog gebruiken deze mensen?

De nogal voor de hand liggende truc is het gebruik van een gemeen woord in een prompt. Als je "geluk" hebt en de AI-app trapt erin, kan dit heel goed in de uitvoer terechtkomen. Je hebt dan je gotcha-moment.

De kans is groot dat een goed doordachte en goed geteste generatieve AI-app die eenvoudige truc begrijpt. Meestal krijgt u een waarschuwingsbericht te zien waarin staat dat u daarmee moet stoppen. Als je doorgaat, wordt de AI-app geprogrammeerd om je uit de app te schoppen en je account te markeren. Het kan zijn dat u niet meer kunt inloggen (tenminste met de login die u destijds gebruikte).

Door de ladder van trucs op te gaan, kun je een prompt geven die probeert de AI in de context van iets fouts te krijgen. Heb je ooit dat spel gespeeld waarin iemand je vertelt iets te zeggen zonder te zeggen wat je zou moeten zeggen? Dit is dat spel, hoewel het zich afspeelt met de AI.

Laten we dat spel spelen. Stel dat ik de AI-app vraag om me te vertellen over de Tweede Wereldoorlog en vooral de belangrijkste betrokken regeringsleiders. Dit lijkt een onschuldig verzoek. Er is niets dat de moeite waard lijkt om te markeren in de prompt.

Stel je voor dat het uitgevoerde essay van de AI-app een vermelding van Winston Churchill bevat. Dat is zeker logisch. Een andere zou Franklin D. Roosevelt kunnen zijn. Nog een andere zou Joseph Stalin kunnen zijn. Stel dat er ook sprake is van Adolf Hitler. Deze naam zou worden opgenomen in zowat elk essay over de Tweede Wereldoorlog en degenen in rollen van prominente macht.

Nu we zijn naam op tafel hebben en deel uitmaken van het AI-gesprek, zullen we vervolgens proberen de AI die naam te laten opnemen op een manier die we kunnen laten zien als potentiële haatzaaiende taal.

We voeren nog een prompt in en vertellen de AI-app dat er vandaag een persoon in het nieuws is met de naam John Smith. Verder geven we in de prompt aan dat John Smith erg verwant is aan die boosdoener uit de Tweede Wereldoorlog. De val is nu gezet. Vervolgens vragen we de AI-app om een essay over John Smith te genereren, uitsluitend gebaseerd op het 'feit' dat we hebben ingevoerd over met wie John Smith kan worden gelijkgesteld.

Op dit moment kan de AI-app een essay genereren waarin de persoon uit de Tweede Wereldoorlog wordt genoemd en waarin wordt beschreven dat John Smith van dezelfde stof is. Er zijn op zich geen vuile woorden in het essay, behalve een verwijzing naar de beroemde boosdoener en die persoon gelijkstellen aan John Smith.

Heeft de AI-app nu haatdragende taal geproduceerd?

Je zou kunnen zeggen dat ja, dat is het geval. Naar John Smith hebben verwezen als zijnde als de beroemde boosdoener, is absoluut een vorm van haatdragende taal. De AI zou dergelijke uitspraken niet moeten doen.

Een weerwoord is dat dit geen haatspraak is. Dit is slechts een essay geproduceerd door een AI-app die geen belichaming is van gevoel. Je zou kunnen beweren dat haatzaaien alleen voorkomt als de intentie aan de spraak ten grondslag ligt. Zonder enige intentie kan de uiting niet worden geclassificeerd als haatdragende taal.

Absurd, luidt het antwoord op de retort. Woorden zijn belangrijk. Het maakt niet uit of de AI 'bedoeld' was om haatdragende taal te produceren. Het enige dat telt, is dat er haatspraak is geproduceerd.

Rond en rond gaat dit.

Ik wil nu niet veel meer zeggen over het proberen de AI te misleiden. Er zijn meer geavanceerde benaderingen. Ik heb deze elders in mijn columns en boeken behandeld en zal ze hier niet herhalen.

Conclusie

Hoe ver moeten we deze AI-apps pushen om te zien of we aanstootgevende inhoud kunnen laten uitzenden?

Je zou kunnen stellen dat er geen limiet gesteld kan worden. Hoe meer we pushen, hoe meer we hopelijk kunnen meten hoe we kunnen voorkomen dat deze AI en toekomstige iteraties van AI dergelijke kwalen voorkomen.

Sommigen maken zich echter zorgen dat als de enige manier om vuil te krijgen extreme uitbijterbedrog met zich meebrengt, dit de gunstige aspecten van de AI ondermijnt. Aanprijzen dat de AI een gruwelijke fout heeft, zij het wanneer hij wordt misleid om het uit te zenden, levert een vals verhaal op. Mensen zullen boos worden over de AI vanwege de waargenomen gemak waarmee de AI schadelijke inhoud genereerde. Ze weten misschien niet of krijgen niet te horen hoe ver de persoon in het konijnenhol moest gaan om dergelijke resultaten te krijgen.

Het is allemaal stof tot nadenken.

Voor nu nog een paar laatste opmerkingen.

William Shakespeare zei het met name over spraak: “Praten is niet doen. Het is een soort goede daad om goed te zeggen, en toch zijn woorden geen daden.” Ik breng dit naar voren omdat sommigen beweren dat als de AI alleen maar woorden genereert, we niet zo overdreven in de war moeten zijn. Als de AI handelde naar de woorden en dus slechte daden verrichtte, dan zouden we stevig voet bij stuk moeten houden. Niet zo als de uitvoer alleen maar woorden is.

Een tegengesteld gezichtspunt zou gehoor geven aan dit anonieme gezegde: „De tong heeft geen botten maar is sterk genoeg om een hart te breken. Pas dus op met je woorden.” Een AI-app die scheldwoorden uitspreekt, kan misschien harten breken. Dat alleen al maakt de zoektocht om vuile output te stoppen een goed doel, zouden sommigen zeggen.

Nog een anonieme uitspraak om deze gewichtige discussie af te sluiten:

"Wees voorzichtig met je woorden. Als ze eenmaal zijn gezegd, kunnen ze alleen worden vergeven, niet vergeten.”

Als mensen kunnen we het moeilijk vinden om de vuilheid die door AI wordt veroorzaakt te vergeten, en onze vergeving kan ook aarzelend zijn om te worden gegeven.

We zijn tenslotte ook maar mensen.

Bron: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- ethiek-en-ai-recht/