Juridische dag des oordeels voor generatieve AI-chatGPT indien betrapt op plagiaat of inbreuk, waarschuwt AI-ethiek en AI-wetgeving

Haalt generatieve AI zoals ChatGPT onze websites en door mensen bedachte inhoud weg? Wees je bewust, wees ... [+] boos, wees klaar.

getty

Geef krediet waar krediet verschuldigd is.

Dat is een beetje wijze wijsheid waar je misschien mee bent opgevoed om vast in te geloven. Inderdaad, je veronderstelt of stelt je voor dat we het er allemaal enigszins redelijk over eens zijn dat dit een eerlijke en verstandige vuistregel in het leven is. Als iemand iets doet dat erkenning verdient, zorg er dan voor dat ze hun verdiende erkenning krijgen.

Het tegendraadse standpunt lijkt een stuk minder overtuigend.

Als iemand rondliep en erop aandrong dat krediet zou moeten niet worden erkend als ere toekomt, nou, je zou kunnen beweren dat een dergelijke overtuiging onbeleefd en mogelijk achterbaks is. We merken vaak dat we luid verontrust zijn als de eer wordt bedrogen van iemand die iets opmerkelijks heeft bereikt. Ik durf te zeggen dat we er vooral een hekel aan hebben als anderen ten onrechte de eer opeisen voor het werk van anderen. Dat is een verontrustende dubbele klap. De persoon die de eer had moeten krijgen, wordt zijn moment in de zon ontzegd. Bovendien geniet de bedrieger van de schijnwerpers, hoewel ze ons ten onrechte voor de gek houden door onze gunstige genegenheid te verduisteren.

Waarom al dit gepraat over het vergaren van krediet op de meest juiste manieren en het afwenden van de verkeerde en verachtelijke manieren?

Omdat we voor een soortgelijke situatie lijken te staan als het gaat om het nieuwste op het gebied van kunstmatige intelligentie (AI).

Ja, er wordt beweerd dat dit aantoonbaar gebeurt via een type AI dat bekend staat als generatieve AI. Er is veel handwringing dat Generative AI, de populairste AI in het nieuws tegenwoordig, al de eer heeft opgeëist voor wat het niet verdient om met de eer te strijken. En dit zal waarschijnlijk nog erger worden naarmate generatieve AI steeds meer wordt uitgebreid en gebruikt. Er wordt steeds meer krediet verleend aan de generatieve AI, terwijl helaas degenen die de echte eer verdienen, in het stof achterblijven.

Mijn aangeboden manier om dit vermeende fenomeen scherp aan te duiden, is door middel van twee hippe kreten:

1) Plagiaat op grote schaal
2) Inbreuk op het auteursrecht op grote schaal

Ik neem aan dat je misschien op de hoogte bent van generatieve AI vanwege een zeer populaire AI-app die bekend staat als ChatGPT en die in november door OpenAI werd uitgebracht. Ik zal binnenkort meer zeggen over generatieve AI en ChatGPT. Hou vol.

Laten we meteen naar de kern gaan van wat de geiten van mensen als het ware krijgt.

Sommigen hebben vurig geklaagd dat generatieve AI mogelijk mensen die inhoud hebben gemaakt, oplicht. Zie je, de meeste generatieve AI-apps zijn gegevens die zijn getraind door gegevens die op internet zijn gevonden te onderzoeken. Op basis van die gegevens kunnen de algoritmen een enorm intern patroonvergelijkingsnetwerk binnen de AI-app aanscherpen dat vervolgens ogenschijnlijk nieuwe inhoud kan produceren die er verbazingwekkend uitziet alsof het door mensenhand is bedacht in plaats van een stuk automatisering

Deze opmerkelijke prestatie is voor een groot deel te danken aan het gebruik van op internet gescande inhoud. Zonder het volume en de rijkdom van internetinhoud als bron voor gegevenstraining, zou de generatieve AI vrijwel leeg zijn en van weinig of geen interesse zijn om te worden gebruikt. Door de AI miljoenen en miljoenen online documenten en tekst te laten onderzoeken, samen met allerlei bijbehorende inhoud, wordt de patroonovereenkomst geleidelijk afgeleid om te proberen door mensen geproduceerde inhoud na te bootsen.

Hoe meer inhoud er wordt onderzocht, hoe groter de kans dat de patroonafstemming sterker wordt verbeterd en nog beter wordt in het nabootsen, terwijl al het andere gelijk is.

Hier is dan de vraag van een miljoen dollar:

Grote vraag: Als u of anderen inhoud op internet hebben waarop een generatieve AI-app is getraind, vermoedelijk zonder uw directe toestemming en misschien helemaal zonder uw medeweten, zou u dan recht moeten hebben op een stukje van de taart met betrekking tot welke waarde dan ook voortvloeit uit die generatieve AI-datatraining?

Sommigen beweren heftig dat het enige juiste antwoord is Ja, met name dat die makers van menselijke inhoud inderdaad hun deel van de actie verdienen. Het punt is dat het moeilijk zou zijn om iemand te vinden die zijn deel heeft gekregen, en erger nog, bijna niemand heeft enig deel gekregen. De makers van internetinhoud die onvrijwillig en onbewust hebben bijgedragen, wordt in wezen hun rechtmatige eer ontzegd.

Dit kan worden gekarakteriseerd als afschuwelijk en schandalig. We hebben zojuist de wijze wijsheid uitgepakt dat eer moet worden gegeven waar eer toekomt. In het geval van generatieve AI blijkbaar niet. De aloude en deugdzame vuistregel over krediet lijkt meedogenloos te worden geschonden.

Whoa, het antwoord luidt, je overdrijft en geeft de situatie verkeerd weer. Natuurlijk, de generatieve AI heeft de inhoud op internet onderzocht. Zeker, dit was enorm nuttig als onderdeel van de datatraining van de generatieve AI. Toegegeven, de indrukwekkende generatieve AI-apps van vandaag zouden niet zo indrukwekkend zijn zonder deze weloverwogen aanpak. Maar je bent een brug te ver gegaan door te zeggen dat de makers van inhoud een bepaalde schijn van eer moeten krijgen.

De logica is als volgt. Mensen gaan naar internet en leren dingen van internet, en doen dit routinematig en zonder enige poespas op zich. Iemand die blogs over loodgieterswerk leest en vervolgens gratis beschikbare video's over het repareren van loodgieters kijkt, kan de volgende dag uitgaan en werk als loodgieter zoeken. Moeten ze een deel van hun overmaking in verband met loodgieterswerk geven aan de blogger die schreef over het loodgieten van een gootsteen? Moeten ze een vergoeding betalen aan de vlogger die de video heeft gemaakt met de stappen om een lekkende badkuip te repareren?

Bijna zeker niet.

De datatraining van de generatieve AI is slechts een middel om patronen te ontwikkelen. Zolang de output van generatieve AI niet louter een herhaling is van wat er precies is onderzocht, zou je overtuigend kunnen beweren dat ze hebben "geleerd" en daarom niet onderworpen zijn aan het toekennen van een specifiek krediet aan een specifieke bron. Tenzij je de generatieve AI kunt betrappen op het uitvoeren van een exacte regurgitatie, zijn de indicaties dat de AI zich buiten een bepaalde bron heeft gegeneraliseerd.

Aan niemand is krediet verschuldigd. Of, zou je kunnen zeggen, de eer gaat naar iedereen. De collectieve tekst en andere inhoud van de mensheid die op internet wordt gevonden, krijgt de eer. We krijgen allemaal de eer. Proberen krediet aan een bepaalde bron te geven is zinloos. Wees blij dat AI wordt geavanceerd en dat de mensheid er allemaal van zal profiteren. Die berichten op internet zouden zich vereerd moeten voelen dat ze hebben bijgedragen aan een toekomst van vooruitgang in AI en hoe dit de mensheid voor de eeuwigheid zal helpen.

Ik zal meer te zeggen hebben over beide contrasterende opvattingen.

Neigt u intussen naar het kamp dat zegt dat krediet verschuldigd is en laattijdig voor degenen die websites op internet hebben, of vindt u dat de andere kant die zegt dat makers van internetinhoud beslist zijn niet opgelicht worden is een meer overtuigende houding?

Een raadsel en een raadsel, allemaal in elkaar gepropt.

Laten we dit uitpakken.

In de column van vandaag zal ik ingaan op deze geuite zorgen dat generatieve AI in wezen plagiaat pleegt of mogelijk inbreuk maakt op de auteursrechten van inhoud die op internet is geplaatst (beschouwd als een intellectueel eigendomsrecht of IP-kwestie). We zullen kijken naar de basis voor deze twijfels. Ik zal tijdens deze discussie af en toe verwijzen naar ChatGPT, aangezien het de 600-pond gorilla van generatieve AI is, maar houd er rekening mee dat er tal van andere generatieve AI-apps zijn en dat ze over het algemeen op dezelfde algemene principes zijn gebaseerd.

Ondertussen vraag je je misschien af wat generatieve AI eigenlijk is.

Laten we eerst de grondbeginselen van generatieve AI behandelen en dan kunnen we de dringende kwestie onder de loep nemen.

Bij dit alles komt een hele reeks overwegingen op het gebied van AI-ethiek en AI-wetgeving kijken.

Houd er rekening mee dat er voortdurende inspanningen worden geleverd om ethische AI-principes te integreren in de ontwikkeling en uitvoering van AI-apps. Een groeiend contingent van bezorgde en voormalige AI-ethici probeert ervoor te zorgen dat bij het bedenken en toepassen van AI rekening wordt gehouden met de visie van doen AI voorgoed en afwenden AI voor slecht. Evenzo worden er nieuwe AI-wetten voorgesteld die worden gebruikt als mogelijke oplossingen om te voorkomen dat AI-inspanningen amok maken op het gebied van mensenrechten en dergelijke. Zie voor mijn doorlopende en uitgebreide berichtgeving over AI-ethiek en AI-wetgeving de link hier en de link hier, om er een paar te noemen.

De ontwikkeling en afkondiging van ethische AI-voorschriften wordt nagestreefd om hopelijk te voorkomen dat de samenleving in een groot aantal AI-inducerende valkuilen vervalt. Zie voor mijn berichtgeving over de principes van de VN-ethiek op het gebied van AI, zoals bedacht en ondersteund door bijna 200 landen via de inspanningen van UNESCO, de link hier. In dezelfde geest worden nieuwe AI-wetten onderzocht om te proberen AI in evenwicht te houden. Een van de nieuwste opnames bestaat uit een reeks voorgestelde AI Bill van rechten dat het Amerikaanse Witte Huis onlangs heeft vrijgegeven om de mensenrechten in een tijdperk van AI te identificeren, zie de link hier. Er is een dorp voor nodig om AI en AI-ontwikkelaars op het juiste pad te houden en de doelbewuste of onbedoelde achterbakse inspanningen die de samenleving zouden kunnen ondermijnen, af te schrikken.

Ik zal AI-ethiek en AI-wetgerelateerde overwegingen in deze discussie verweven.

Grondbeginselen van generatieve AI

Het meest bekende voorbeeld van generatieve AI wordt vertegenwoordigd door een AI-app genaamd ChatGPT. ChatGPT kwam in november in het publieke bewustzijn toen het werd vrijgegeven door het AI-onderzoeksbureau OpenAI. Sindsdien heeft ChatGPT buitensporige krantenkoppen gehaald en verbazingwekkend genoeg de toegewezen vijftien minuten roem overschreden.

Ik vermoed dat je waarschijnlijk wel eens van ChatGPT hebt gehoord of misschien zelfs iemand kent die het heeft gebruikt.

ChatGPT wordt beschouwd als een generatieve AI-toepassing omdat het als invoer wat tekst van een gebruiker nodig heeft en vervolgens genereert of produceert een output die bestaat uit een essay. De AI is een tekst-naar-tekst-generator, hoewel ik de AI beschrijf als een tekst-naar-essay-generator, omdat dat gemakkelijker verduidelijkt waarvoor het gewoonlijk wordt gebruikt. Je kunt generatieve AI gebruiken om lange composities samen te stellen of je kunt ervoor zorgen dat het vrij korte, kernachtige opmerkingen geeft. Het is allemaal op uw verzoek.

Het enige dat u hoeft te doen, is een prompt invoeren en de AI-app genereert voor u een essay dat probeert op uw prompt te reageren. De samengestelde tekst zal lijken alsof het essay door de menselijke hand en geest is geschreven. Als u een prompt zou invoeren met de tekst "Vertel me over Abraham Lincoln", zal de generatieve AI u een essay over Lincoln geven. Er zijn andere vormen van generatieve AI, zoals tekst-naar-kunst en tekst-naar-video. Ik zal me hierin concentreren op de tekst-naar-tekstvariatie.

Je eerste gedachte zou kunnen zijn dat dit generatieve vermogen niet zo belangrijk lijkt als het gaat om het produceren van essays. U kunt eenvoudig online op internet zoeken en gemakkelijk tonnen en tonnen essays over president Lincoln vinden. De kicker in het geval van generatieve AI is dat het gegenereerde essay relatief uniek is en een originele compositie biedt in plaats van een copycat. Als je zou proberen het door AI geproduceerde essay ergens online te vinden, zou je het waarschijnlijk niet ontdekken.

Generatieve AI is vooraf getraind en maakt gebruik van een complexe wiskundige en computationele formulering die is opgezet door patronen in geschreven woorden en verhalen op internet te onderzoeken. Als resultaat van het onderzoeken van duizenden en miljoenen geschreven passages, kan de AI nieuwe essays en verhalen uitspuwen die een mengelmoes zijn van wat werd gevonden. Door verschillende probabilistische functionaliteit toe te voegen, is de resulterende tekst vrijwel uniek in vergelijking met wat er in de trainingsset is gebruikt.

Er zijn tal van zorgen over generatieve AI.

Een cruciaal nadeel is dat de essays die door een op generatieve gebaseerde AI-app worden geproduceerd, verschillende onwaarheden kunnen bevatten, waaronder duidelijk onware feiten, feiten die misleidend worden weergegeven en schijnbare feiten die volledig verzonnen zijn. Die verzonnen aspecten worden vaak een vorm van genoemd AI-hallucinaties, een slogan waar ik een hekel aan heb, maar die helaas toch populair lijkt te worden (voor mijn gedetailleerde uitleg over waarom dit een waardeloze en ongeschikte terminologie is, zie mijn berichtgeving op de link hier).

Een andere zorg is dat mensen gemakkelijk met de eer kunnen strijken voor een door generatieve AI geproduceerd essay, ondanks dat ze het essay niet zelf hebben geschreven. Je hebt misschien gehoord dat leraren en scholen nogal bezorgd zijn over de opkomst van generatieve AI-apps. Studenten kunnen mogelijk generatieve AI gebruiken om hun toegewezen essays te schrijven. Als een student beweert dat een essay door zijn eigen hand is geschreven, is de kans klein dat de leraar kan onderscheiden of het in plaats daarvan is vervalst door generatieve AI. Voor mijn analyse van dit verwarrende facet tussen leerling en leraar, zie mijn berichtgeving op de link hier en de link hier.

Er zijn een aantal maffe buitensporige claims op sociale media over generatieve AI beweren dat deze nieuwste versie van AI in feite is bewuste AI (nee, ze hebben ongelijk!). Degenen in AI-ethiek en AI-recht maken zich met name zorgen over deze snelgroeiende trend van uitgestrekte claims. Je zou beleefd kunnen zeggen dat sommige mensen overdrijven wat de huidige AI eigenlijk kan doen. Ze gaan ervan uit dat AI mogelijkheden heeft die we nog niet hebben kunnen bereiken. Dat is jammer. Erger nog, ze kunnen zichzelf en anderen in benarde situaties laten komen door de veronderstelling dat de AI bewust of menselijk zal zijn in het kunnen ondernemen van actie.

Antropomorfiseer AI niet.

Als u dit doet, raakt u verstrikt in een kleverige en stugge afhankelijkheidsval door te verwachten dat de AI dingen doet die hij niet kan uitvoeren. Dat gezegd hebbende, het nieuwste op het gebied van generatieve AI is relatief indrukwekkend voor wat het kan doen. Houd er echter rekening mee dat er aanzienlijke beperkingen zijn waarmee u voortdurend rekening moet houden bij het gebruik van een generatieve AI-app.

Een laatste waarschuwing voor nu.

Wat je ook ziet of leest in een generatieve AI-reactie daarop lijkt om te worden overgebracht als puur feitelijk (data, plaatsen, mensen, enz.), zorg ervoor dat u sceptisch blijft en bereid bent om dubbel te controleren wat u ziet.

Ja, datums kunnen worden verzonnen, plaatsen kunnen worden verzonnen en elementen waarvan we normaal gesproken verwachten dat ze onberispelijk zijn allen onderhevig aan verdenkingen. Geloof niet wat u leest en blijf sceptisch bij het onderzoeken van essays of outputs van generatieve AI. Als een generatieve AI-app je vertelt dat Abraham Lincoln in zijn privéjet door het land vloog, zou je ongetwijfeld weten dat dit malarky is. Helaas realiseren sommige mensen zich misschien niet dat er in zijn tijd geen vliegtuigen bestonden, of ze wisten het misschien maar merkten niet op dat het essay deze brutale en buitensporig valse bewering doet.

Een sterke dosis gezonde scepsis en een aanhoudende mentaliteit van ongeloof zullen uw beste troef zijn bij het gebruik van generatieve AI.

We zijn klaar om naar de volgende fase van deze opheldering te gaan.

Het internet en generatieve AI zitten hier samen in

Nu je een idee hebt van wat generatieve AI is, kunnen we de lastige vraag onderzoeken of generatieve AI op een eerlijke of oneerlijke manier 'gebruikmaakt', of sommigen zouden zeggen schaamteloos uitbuiten Internet-inhoud.

Hier zijn mijn vier essentiële onderwerpen die relevant zijn voor deze kwestie:

1) Dubbel probleem: plagiaat en inbreuk op auteursrechten
2) Proberen om plagiaat of inbreuk op het auteursrecht te bewijzen, zal proberen
3) Pleiten voor plagiaat of inbreuk op het auteursrecht
4) Er wachten legale landmijnen

Ik zal elk van deze belangrijke onderwerpen behandelen en inzichtelijke overwegingen aandragen waar we allemaal bewust over zouden moeten nadenken. Elk van deze onderwerpen is een integraal onderdeel van een grotere puzzel. Je kunt niet naar één stuk kijken. Evenmin kun je naar een stuk afzonderlijk van de andere stukken kijken.

Dit is een ingewikkeld mozaïek en de hele puzzel moet de juiste harmonieuze aandacht krijgen.

Double Trouble: plagiaat en inbreuk op auteursrechten

Het dubbele probleem waarmee degenen die generatieve AI maken en in het veld maken, wordt geconfronteerd, is dat hun waren twee slechte dingen kunnen doen:

1) Plagiaat. De generatieve AI zou kunnen worden opgevat als plagiaat inhoud die op internet bestaat volgens de internetscan die plaatsvond tijdens datatraining van de AI.
2) Schending van het auteursrecht. De generatieve AI zou als onderneming kunnen worden geclaimd schending van het auteursrecht gekoppeld aan de internetinhoud die tijdens datatraining is gescand.

Ter verduidelijking: er is veel meer inhoud op internet dan er doorgaans wordt gescand voor de gegevenstraining van generatieve AI. Gewoonlijk wordt slechts een klein deel van het internet gebruikt. We kunnen dus vermoedelijk aannemen dat alle inhoud die niet is gescand tijdens datatraining, niet bepaald in het voordeel is van generatieve AI.

Dit is echter enigszins discutabel, aangezien u mogelijk een lijn kunt trekken die andere inhoud die is gescand, verbindt met de inhoud die niet is gescand. Een ander belangrijk voorbehoud is ook dat zelfs als er inhoud is die niet is gescand, deze nog steeds kan worden aangevoerd als plagiaat en/of inbreuk op het auteursrecht als de uitvoer van de generatieve AI mogelijk op dezelfde woordenstroom terechtkomt. Mijn punt is dat er veel zachtheid in dit alles zit.

Bottom line: Generatieve AI staat bol van de potentiële AI Ethische en AI-juridische juridische raadsels als het gaat om plagiaat en inbreuk op auteursrechten ter ondersteuning van de heersende praktijken op het gebied van gegevenstraining.

Tot nu toe hebben AI-makers en AI-onderzoekers hier vrijwel ongeschonden doorheen geschaatst, ondanks het dreigende en gevaarlijk bungelende zwaard dat boven hen hangt. Tegen deze praktijken zijn tot op heden slechts enkele rechtszaken aangespannen. U hebt misschien nieuwsartikelen gehoord of gezien over dergelijke juridische acties. Een daarvan betreft bijvoorbeeld de tekst-naar-beeldbedrijven van Midjourney en Stability AI voor inbreuk op artistieke inhoud die op internet is geplaatst. Een andere houdt in dat er sprake is van tekst-naar-code-inbreuk tegen GitHub, Microsoft en OpenAI vanwege de Copilot-software die AI-apps produceert. Getty Images heeft er ook naar gestreefd Stability AI aan te pakken voor inbreuk op tekst-naar-beeld.

U kunt zich voorstellen dat er meer van dergelijke rechtszaken zullen worden aangespannen.

Op dit moment is het een beetje riskant om die rechtszaken te starten, aangezien de uitkomst relatief onbekend is. Zal de rechtbank de kant van de AI-makers kiezen of zullen degenen die geloven dat hun inhoud oneerlijk is uitgebuit, de overwinnaars zijn? Een kostbare juridische strijd is altijd een serieuze zaak. Het uitgeven van de grootschalige juridische kosten moet worden afgewogen tegen de kansen op winst of verlies.

De AI-makers lijken bijna geen andere keuze te hebben dan de strijd aan te gaan. Als ze zouden instorten, zelfs maar een klein beetje, is de kans groot dat er een stortvloed aan extra rechtszaken zal volgen (in wezen de deur openend voor verhoogde kansen dat anderen ook de overhand krijgen). Als er eenmaal legaal bloed in het water is, zullen de overgebleven legale haaien zich naar de weloverwogen "gemakkelijke score" haasten en zou er zeker een slaand en mishandelend monetair bloedbad plaatsvinden.

Sommigen vinden dat we nieuwe AI-wetten moeten aannemen die de AI-makers zouden beschermen. De bescherming kan zelfs met terugwerkende kracht zijn. De basis hiervoor is dat als we generatieve AI-ontwikkelingen willen zien, we de AI-makers een veilige zone moeten geven. Zodra rechtszaken overwinningen beginnen te behalen tegen de AI-makers, als dat gebeurt (we weten het nog niet), is de zorg dat generatieve AI zal verdampen, aangezien niemand bereid zal zijn om enige steun te geven aan de AI-bedrijven.

Zoals treffend wordt opgemerkt in een recent stuk van Bloomberg Law getiteld "ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI" door Dr. Ilia Kolochenko en Gordon Platt, Bloomberg Law, februari 2023, zijn hier twee essentiële fragmenten die deze standpunten weerspiegelen:

“Er woedt nu een verhitte discussie onder Amerikaanse juristen en hoogleraren in het IP-recht over de vraag of het ongeoorloofd schrapen en daaropvolgend gebruik van auteursrechtelijk beschermde gegevens neerkomt op een inbreuk op het auteursrecht. Als de mening van beoefenaars van juridische beroepen die schendingen van het auteursrecht in een dergelijke praktijk zien, de overhand krijgt, kunnen gebruikers van dergelijke AI-systemen ook aansprakelijk worden gesteld voor secundaire inbreuk en mogelijk juridische consequenties hebben.
"Om de uitdaging volledig aan te gaan, zouden wetgevers niet alleen moeten overwegen om de bestaande auteursrechtwetgeving te moderniseren, maar ook om een reeks AI-specifieke wetten en voorschriften te implementeren."

Bedenk dat we als samenleving wettelijke bescherming hebben ingesteld voor de uitbreiding van het internet, zoals nu wordt gezien door het Hooggerechtshof dat de beroemde of beruchte Sectie 230 herziet. Het lijkt dus in redelijkheid en precedent dat we bereid zouden kunnen zijn om een soort bescherming te bieden voor de vooruitgang van generatieve AI. Misschien kunnen de beveiligingen tijdelijk worden ingesteld en verlopen nadat generatieve AI een vooraf bepaald vaardigheidsniveau heeft bereikt. Er zouden andere vrijwaringsbepalingen kunnen worden bedacht.

Ik zal binnenkort mijn analyse posten van hoe de beoordeling van het Hooggerechtshof en de uiteindelijke uitspraak over sectie 230 de komst van generatieve AI kunnen beïnvloeden. Wees op je hoede voor dat aankomende bericht!

Terug naar de fel uitgesproken mening dat we ruimte moeten geven aan de maatschappelijke ontzagwekkende technologische innovatie die bekend staat als generatieve AI. Sommigen zouden zeggen dat zelfs als de beweerde inbreuk op het auteursrecht heeft of plaatsvindt, de samenleving als geheel bereid zou moeten zijn om dit toe te staan voor de specifieke doeleinden van het bevorderen van generatieve AI.

De hoop is dat nieuwe AI-wetten zorgvuldig worden opgesteld en afgestemd op de bijzonderheden die verband houden met datatraining voor generatieve AI.

Er zijn tal van tegenargumenten voor het idee om hiervoor nieuwe AI-wetten te bedenken. Een zorg is dat een dergelijke nieuwe AI-wet de sluisdeuren zal openen voor allerlei vormen van inbreuk op het auteursrecht. We zullen de dag betreuren dat we zulke nieuwe AI-wetten in de boeken hebben laten belanden. Hoe hard je ook probeert om dit te beperken tot alleen AI-datatraining, anderen zullen stiekem of slim mazen in de wet vinden die neerkomen op een ongebreidelde en ongebreidelde inbreuk op het auteursrecht.

Rond en rond gaan de argumenten.

Een argument dat niet echt steek houdt, heeft te maken met het proberen de AI zelf aan te klagen. Merk op dat ik heb verwezen naar de AI-maker of de AI-onderzoekers als de schuldige belanghebbenden. Dit zijn mensen en bedrijven. Sommigen suggereren dat we ons moeten richten op AI als de aan te klagen partij. Ik heb in mijn column uitvoerig besproken dat we nog geen rechtspersoonlijkheid toekennen aan AI, zie de link hier bijvoorbeeld, en dus zouden dergelijke rechtszaken gericht op AI op zich op dit moment als zinloos worden beschouwd.

Als aanvulling op de vraag wie of wat moet worden aangeklaagd, brengt dit een ander sappig onderwerp naar voren.

Stel dat een bepaalde generatieve AI-app is bedacht door een AI-maker die we de Widget Company zullen noemen. Widget Company is relatief klein van formaat en heeft niet veel inkomsten, noch veel activa. Ze aanklagen zal waarschijnlijk niet de grote rijkdom opleveren die men zou kunnen zoeken. Je zou hoogstens de voldoening hebben om recht te zetten wat je als verkeerd beschouwt.

Je wilt achter de grote vissen aan gaan.

Hier is hoe dat gaat ontstaan. Een AI-maker kiest ervoor om zijn generatieve AI beschikbaar te stellen aan Big Time Company, een groot conglomeraat met tonnen deeg en tonnen activa. Een rechtszaak met de naam Widget Company zou nu een beter doel voor ogen hebben, namelijk ook door de naam Big Time Company te noemen. Dit is een gevecht tussen David en Goliath waar advocaten van zouden genieten. Natuurlijk zal de Big Time Company ongetwijfeld proberen van de vishaak af te komen. Of ze dat kunnen is opnieuw een juridische vraag die onzeker is, en ze kunnen hopeloos in de modder terechtkomen.

Voordat we hier veel verder op ingaan, wil ik graag iets cruciaals op tafel leggen over de betwiste inbreuken van generatieve AI als gevolg van datatraining. Ik weet zeker dat je intuïtief beseft dat plagiaat en inbreuk op het auteursrecht twee enigszins verschillende beesten zijn. Ze hebben veel gemeen, hoewel ze ook aanzienlijk verschillen.

Hier is een handig beknopte beschrijving van Duke University die de twee uitlegt:

“Plagiaat kun je het beste omschrijven als het onerkende gebruik van andermans werk. Het is een ethische kwestie waarbij krediet wordt geclaimd voor werk dat de eiser niet heeft gemaakt. Men kan het werk van iemand anders plagiaat plegen, ongeacht de auteursrechtelijke status van dat werk. Zo is het toch plagiaat om over te nemen uit een boek of artikel dat te oud is om nog auteursrecht op te hebben. Het is ook plagiaat om gegevens te gebruiken die afkomstig zijn van een niet-erkende bron, ook al is feitelijk materiaal zoals gegevens mogelijk niet auteursrechtelijk beschermd. Plagiaat is echter gemakkelijk te verhelpen – correcte verwijzing naar de oorspronkelijke bron van het materiaal.”
“Inbreuk op het auteursrecht is daarentegen het ongeoorloofd gebruik van andermans werk. Dit is een juridische kwestie die afhangt van het feit of het werk in de eerste plaats al dan niet auteursrechtelijk beschermd is, maar ook van details zoals hoeveel er wordt gebruikt en het doel van het gebruik. Als iemand te veel van een beschermd werk kopieert, of kopieert voor ongeautoriseerde doeleinden, zal het simpelweg erkennen van de originele bron het probleem niet oplossen. Alleen door voorafgaande toestemming te vragen aan de houder van het auteursrecht vermijdt men het risico van een aanklacht wegens inbreuk.”

Ik wijs op het belang van deze twee zorgen, zodat u zich realiseert dat remedies dienovereenkomstig kunnen verschillen. Ze zijn ook allebei verstrikt in overwegingen die de AI-ethiek en AI-wetgeving doordringen, waardoor ze even de moeite waard zijn om te onderzoeken.

Laten we een geclaimde remedie of oplossing onderzoeken. U zult zien dat het een van de problemen met dubbele problemen kan helpen, maar niet de andere.

Sommigen hebben erop aangedrongen dat de AI-makers alleen maar hun bronnen hoeven te vermelden. Wanneer generatieve AI een essay produceert, neem dan alleen specifieke citaten op voor wat er in het essay staat. Geef verschillende URL's en andere indicaties van welke internetcontent is gebruikt. Dit lijkt hen vrij te maken van plagiaat. Het uitgevoerde essay zou vermoedelijk duidelijk aangeven welke bronnen werden gebruikt voor de formulering die werd geproduceerd.

Er zijn enkele haarkloverijen over die geclaimde oplossing, maar op een niveau van 30,000 voet laten we zeggen dat dit een semi-bevredigende remedie is voor het plagiaatdilemma. Zoals hierboven vermeld in de uitleg over inbreuk op het auteursrecht, haalt het citeren van bronmateriaal je niet per se uit het hondenhok. Ervan uitgaande dat de inhoud auteursrechtelijk beschermd was, en afhankelijk van andere factoren, zoals hoeveel van het materiaal werd gebruikt, kan het wachtende zwaard van inbreuk op het auteursrecht scherp en definitief neerslaan.

Double trouble is hier het parool.

Proberen om plagiaat of inbreuk op het auteursrecht te bewijzen, zal proberen

Bewijs het!

Dat is het veelgebruikte refrein dat we allemaal op verschillende momenten in ons leven hebben gehoord.

Je weet hoe het gaat. Je zou kunnen beweren dat er iets gebeurt of is gebeurd. Misschien weet u diep in uw hart dat dit heeft plaatsgevonden. Maar als het gaat om push-versus-shove, moet je het bewijs hebben.

In het spraakgebruik van vandaag moet je de ontvangsten, zoals ze zeggen.

Mijn vraag aan jou is deze: Hoe gaan we aantoonbaar bewijzen dat generatieve AI op ongepaste wijze internetcontent heeft uitgebuit?

Men veronderstelt dat het antwoord eenvoudig moet zijn. U vraagt of vertelt de generatieve AI om een uitgevoerd essay te produceren. Vervolgens pak je het essay en vergelijk je het met wat er op internet te vinden is. Als je het essay vindt, bam, heb je de generatieve AI aan de spreekwoordelijke muur genageld.

Het leven lijkt nog nooit zo gemakkelijk te zijn.

Stel je voor dat we generatieve AI een essay laten produceren dat ongeveer 100 woorden bevat. We gaan rond en proberen alle uithoeken van het internet te bereiken, op zoek naar die 100 woorden. Als we de 100 woorden vinden, weergegeven in exact dezelfde volgorde en op identieke wijze, lijken we onszelf een hete te hebben betrapt.

Stel echter dat we op internet een ogenschijnlijk "vergelijkbaar" essay vinden, hoewel het maar overeenkomt met 80 van de 100 woorden. Dit lijkt misschien nog voldoende. Maar stel je voor dat we slechts een voorbeeld vinden van 10 woorden van de 100 die overeenkomen. Is dat genoeg om te roepen dat er plagiaat is gepleegd of dat er sprake is van inbreuk op het auteursrecht?

Grijsheid bestaat.

Tekst is op die manier grappig.

Vergelijk dit met de tekst-naar-beeld of tekst-naar-kunst omstandigheden. Wanneer generatieve AI een tekst-naar-afbeelding- of tekst-naar-kunst-mogelijkheid biedt, voert u een tekstprompt in en produceert de AI-app een afbeelding op basis van de prompt die u hebt opgegeven. Het beeld kan anders zijn dan elk ander beeld dat ooit op deze of een andere planeet is gezien.

Aan de andere kant kan de afbeelding doen denken aan andere afbeeldingen die wel bestaan. We kunnen naar het door generatieve AI geproduceerde beeld kijken en enigszins instinctief zeggen dat het zeker lijkt op een ander beeld dat we eerder hebben gezien. Over het algemeen, de visuele aspecten van vergelijking en contrast worden iets gemakkelijker ondernomen. Dat gezegd hebbende, weet alsjeblieft dat enorme juridische debatten bepalen wat de overlapping of replicatie is van het ene beeld van het andere.

Een andere soortgelijke situatie bestaat met muziek. Er zijn generatieve AI-apps waarmee u een tekstprompt kunt invoeren en de uitvoer die door de AI wordt geproduceerd, is audiomuziek. Deze AI-mogelijkheden voor tekst-naar-audio of tekst-naar-muziek beginnen nu pas op te komen. Een ding waarop u uw beste dollar kunt inzetten, is dat de muziek geproduceerd door generatieve AI zeer nauwkeurig zal worden onderzocht op inbreuk. We lijken te weten wanneer we muzikale inbreuk horen, hoewel dit opnieuw een complexe juridische kwestie is die niet alleen gebaseerd is op hoe we denken over de waargenomen replicatie.

Sta me nog een voorbeeld toe.

Tekst-naar-code generatieve AI biedt u de mogelijkheid om een tekstprompt in te voeren en de AI zal programmeercode voor u produceren. U kunt deze code vervolgens gebruiken voor het maken van een computerprogramma. U kunt de code precies gebruiken zoals deze is gegenereerd, of u kunt ervoor kiezen om de code te bewerken en aan te passen aan uw behoeften. Het is ook nodig om ervoor te zorgen dat de code geschikt en werkbaar is, aangezien het mogelijk is dat er fouten en onwaarheden in de gegenereerde code voorkomen.

Uw eerste aanname zou kunnen zijn dat programmeercode niet anders is dan tekst. Het is maar tekst. Zeker, het is een tekst die een bepaald doel verschaft, maar het is nog steeds tekst.

Nou, niet precies. De meeste programmeertalen hebben een strikt formaat en structuur voor de aard van de coderingsverklaringen van die taal. Dit is in zekere zin veel enger dan vrij vloeiende natuurlijke taal. U bent enigszins ingesloten over hoe de coderingsverklaringen zijn geformuleerd. Evenzo zijn de volgorde en de manier waarop de uitspraken worden gebruikt en opgesteld enigszins ingekaderd.

Al met al is de mogelijkheid om aan te tonen dat programmeercode is geplagieerd of geschonden, bijna gemakkelijker dan natuurlijke taal. Dus wanneer een generatieve AI programmeercode op internet gaat scannen en later programmeercode genereert, zullen de kansen om te beweren dat de code schaamteloos is gerepliceerd, relatief overtuigender zijn. Geen slam dunk, dus verwacht hier bittere gevechten over.

Mijn overkoepelende punt is dat we dezelfde AI-ethiek en AI-wetgevingskwesties zullen krijgen waarmee alle vormen van generatieve AI worden geconfronteerd.

Plagiaat en inbreuk op het auteursrecht zullen problematisch zijn voor:

Tekst-naar-tekst of tekst-naar-essay
Tekst-naar-beeld of tekst-naar-kunst
Tekst-naar-audio of tekst-naar-muziek
Tekst-naar-video
Tekst-naar-code
Enz.

Ze hebben allemaal dezelfde zorgen. Sommige zijn misschien wat gemakkelijker te 'bewijzen' dan andere. Ze zullen allemaal hun eigen nachtmerries hebben over een AI-ethiek en AI-wet.

Pleiten voor plagiaat of inbreuk op het auteursrecht

Laten we ons voor discussiedoeleinden concentreren op tekst-naar-tekst of tekst-naar-essay generatieve AI. Ik doe dit gedeeltelijk vanwege de enorme populariteit van ChatGPT, het type tekst-naar-tekst generatieve AI. Er zijn veel mensen die ChatGPT gebruiken, samen met vele anderen die verschillende vergelijkbare tekst-naar-tekst generatieve AI-apps gebruiken.

Weten de mensen die generatieve AI-apps gebruiken dat ze mogelijk vertrouwen op plagiaat of inbreuk op het auteursrecht?

Het lijkt twijfelachtig of ze dat doen.

Ik zou durven zeggen dat de heersende veronderstelling is dat als de generatieve AI-app beschikbaar is voor gebruik, de AI-maker of het bedrijf dat de AI heeft ingezet, moet weten of erop moet vertrouwen dat er niets onaangenaams is aan de waren die ze aanbieden voor gebruik. Als je het kunt gebruiken, moet het bovenboord zijn.

Laten we nog eens terugkomen op mijn eerdere opmerking over hoe we gaan proberen te bewijzen dat een bepaalde generatieve AI op een onterechte basis werkt met betrekking tot de datatraining.

Ik zou er ook aan kunnen toevoegen dat als we één generatieve AI kunnen betrappen, de kans groter is dat we de anderen pakken. Ik zeg niet dat alle generatieve AI-apps in hetzelfde schuitje zouden zitten. Maar zodra een van hen aan de muur is vastgepind, komen ze in nogal ruwe zeeën terecht.

Ook daarom zal het enorm de moeite waard zijn om de bestaande rechtszaken in de gaten te houden. De eerste die wint met betrekking tot de beweerde inbreuk, als dit gebeurt, zal mogelijk kommer en kwel betekenen voor de andere generatieve AI-apps, tenzij enige bekrompenheid ontsnapt aan de bredere problemen die voorhanden zijn. Degenen die verliezen met betrekking tot de beweerde inbreuk, betekenen niet noodzakelijkerwijs dat de generatieve AI-apps klokken kunnen luiden en feestvieren. Het kan zijn dat het verlies wordt toegeschreven aan andere factoren die niet zo relevant zijn voor de andere generatieve AI-apps, enzovoort.

Ik had gezegd dat als we een essay van 100 woorden nemen en proberen die exacte woorden in exact dezelfde volgorde op internet te vinden, we een relatief solide argument kunnen hebben voor plagiaat of inbreuk op het auteursrecht, als al het andere gelijk blijft. Maar als het aantal overeenkomende woorden laag is, lijken we ons op glad ijs te bevinden.

Ik wil daar graag dieper op ingaan.

Een voor de hand liggend aspect van het maken van een vergelijking bestaat uit exact dezelfde woorden in exact dezelfde volgorde. Dit kan gebeuren voor hele passages. Dit zou handig zijn om te herkennen, bijna alsof het ons op een presenteerblaadje wordt overhandigd.

We kunnen ook achterdochtig zijn als er maar een woordfragment overeenkomt. Het idee zou zijn om te zien of het cruciale woorden zijn of misschien vulwoorden die we gemakkelijk kunnen verwijderen of negeren. We willen ons ook niet laten misleiden door het gebruik van woorden in de verleden of toekomende tijd, of andere onzin. Die variaties in woorden moeten ook worden overwogen.

Een ander vergelijkingsniveau zou zijn wanneer de woorden niet in grote mate dezelfde woorden zijn, maar de woorden, zelfs in een gevarieerde staat, nog steeds dezelfde punten lijken te maken. Een samenvatting zal bijvoorbeeld vaak vrij gelijkaardige woorden gebruiken als een originele bron, maar we kunnen zien dat de samenvatting lijkt te zijn gebaseerd op de originele bron.

Het moeilijkste vergelijkingsniveau zou gebaseerd zijn op concepten of ideeën. Stel dat we een essay zien dat niet dezelfde of vergelijkbare woorden heeft als vergelijkingsbasis, maar de essentie of ideeën zijn hetzelfde. Toegegeven, we begeven ons op ruig terrein. Als we zomaar zouden zeggen dat ideeën goed beschermd zijn, zetten we bijna alle vormen van kennis en kennisverruiming de kop in.

We kunnen wederom verwijzen naar een handige uitleg van Duke University:

“Auteursrecht beschermt geen ideeën, alleen de specifieke uitdrukking van een idee. Zo oordeelde een rechtbank dat Dan Brown bij het schrijven geen inbreuk maakte op het copyright van een eerder boek De Da Vinci Code omdat alles wat hij leende van het eerdere werk de basisideeën waren, niet de details van plot of dialoog. Aangezien auteursrecht bedoeld is om creatieve productie aan te moedigen, ondersteunt het gebruik van de ideeën van iemand anders om een nieuw en origineel werk te maken het doel van het auteursrecht, het schendt het niet. Alleen als iemand de uiting van een ander zonder toestemming kopieert, wordt er mogelijk inbreuk gemaakt op het auteursrecht.
“Om plagiaat te voorkomen, moet men daarentegen de bron erkennen, zelfs van ideeën die van iemand anders zijn geleend, ongeacht of de uitdrukking van die ideeën daarmee is geleend. Een parafrase moet dus worden geciteerd, ook al levert het zelden auteursrechtproblemen op.”

Let op, zoals eerder geïdentificeerd, de verschillen tussen de facetten met dubbele problemen.

Welnu, het in de praktijk brengen van de vergelijkingsbenaderingen is iets dat al vele jaren plaatsvindt. Zie het op deze manier. Studenten die essays schrijven voor hun schoolwerk, kunnen in de verleiding komen om inhoud van internet te halen en te doen alsof ze de A-klasse Pulitzer Prize-winnende woorden hebben geschreven.

Docenten gebruiken al geruime tijd plagiaatcontroleprogramma's om hiermee om te gaan. Een docent neemt het essay van een student en voert het in de plagiaatcontrole in. In sommige gevallen geeft een hele school toestemming voor het gebruik van een programma voor plagiaatcontrole. Wanneer studenten een essay inleveren, moeten ze het essay eerst opsturen naar het programma voor plagiaatcontrole. De docent wordt geïnformeerd over wat de opleiding meldt.

Helaas moet je uiterst voorzichtig zijn met wat deze plagiaatcontroleprogramma's te zeggen hebben. Het is belangrijk om bewust te beoordelen of de gemelde indicaties geldig zijn. Zoals eerder vermeld, kan de mogelijkheid om vast te stellen of een werk is gekopieerd, wazig zijn. Als je de uitkomst van het nakijkprogramma gedachteloos accepteert, kun je een leerling valselijk beschuldigen van kopiëren terwijl hij dat niet heeft gedaan. Dit kan zielsverpletterend zijn.

Verderop kunnen we proberen plagiaatcontroleprogramma's te gebruiken op het gebied van het testen van generatieve AI-outputs. Behandel de uitgevoerde essays van een generatieve AI-app alsof deze door een student is geschreven. Vervolgens peilen we wat de plagiaatchecker zegt. Dit gebeurt met een korreltje zout.

Er is een recent onderzoek dat op deze manier probeerde dit soort vergelijkingen te operationaliseren in de context van generatieve AI. Ik wil graag enkele interessante bevindingen met u doornemen.

Ten eerste is wat extra achtergrond vereist. Generatieve AI wordt soms LLM's (grote taalmodellen) of kortweg LM's (taalmodellen) genoemd. Ten tweede is ChatGPT gebaseerd op een versie van een ander OpenAI generatief AI-pakket genaamd GPT-3.5. Vóór GPT-3.5 was er GPT-3 en daarvoor was er GPT-2. Tegenwoordig wordt GPT-2 als nogal primitief beschouwd in vergelijking met de latere series, en we kijken allemaal reikhalzend uit naar de aanstaande onthulling van GPT-4, zie mijn bespreking op de link hier.

Het onderzoek dat ik kort wil verkennen, bestond uit het onderzoeken van GPT-2. Dat is belangrijk om te beseffen, aangezien we nu verder zijn dan de mogelijkheden van GPT-2. Trek geen overhaaste conclusies over de resultaten van deze analyse van GPT-2. Toch kunnen we veel leren van de beoordeling van GPT-2. Het onderzoek heeft als titel “Do Language Models Plagiarize?” door Jooyoung Lee, Thai Le, Jinghui Chen en Dongwon Lee, te zien in de ACM WWW '23, 1–5 mei 2023, Austin, TX, VS.

Dit is hun belangrijkste onderzoeksvraag:

"In welke mate (niet beperkt tot memorisatie) maken LM's gebruik van zinnen of zinnen uit hun trainingsvoorbeelden?"

Ze gebruikten deze drie niveaus of categorieën van mogelijk plagiaat:

"Wereldwijd plagiaat: exacte kopieën van woorden of woordgroepen zonder transformatie."
"Plagiaat parafraseren: synonieme vervanging, herschikking van woorden en / of terugvertaling."
"Idee plagiaat: weergave van kerninhoud in een langwerpige vorm."

GPT-2 is inderdaad getraind op internetgegevens en dus een geschikte kandidaat voor dit type analyse:

“GPT-2 is vooraf getraind op WebText en bevat meer dan 8 miljoen documenten die zijn opgehaald uit 45 miljoen Reddit-links. Aangezien OpenAI WebText niet publiekelijk heeft uitgebracht, gebruiken we OpenWebText, een open-source recreatie van het WebText-corpus. Het is op betrouwbare wijze gebruikt door eerdere literatuur.”

Selectieve kernbevindingen zoals overgenomen uit het onderzoek bestaan uit:

"We ontdekten dat vooraf getrainde GPT-2-families plagiaat plegen vanuit de OpenWebText."
"Onze bevindingen tonen aan dat fine-tuning het aantal letterlijke plagiaatgevallen van OpenWebText aanzienlijk vermindert."
“In overeenstemming met Carlini et al. en Carlini et al. vinden we dat grotere GPT-2-modellen (groot en xl) over het algemeen vaker geplagieerde sequenties genereren dan kleinere.”
"Verschillende LM's kunnen echter verschillende patronen van plagiaat vertonen, en daarom kunnen onze resultaten niet direct worden gegeneraliseerd naar andere LM's, inclusief recentere LM's zoals GPT-3 of BLOOM."
“Bovendien is bekend dat automatische plagiaatdetectoren veel faalmodi hebben (zowel in fout-negatieven als fout-positieven).
"Aangezien de meeste trainingsgegevens van LM's van het web worden geschraapt zonder de eigenaren van de inhoud te informeren, heeft hun herhaling van woorden, zinsdelen en zelfs kernideeën uit trainingssets in gegenereerde teksten ethische implicaties."

We hebben zeker nog veel meer van dit soort studies nodig.

Als je nieuwsgierig bent naar hoe GPT-2 zich verhoudt tot GPT-3 met betrekking tot datatraining, is er een behoorlijk groot contrast.

Volgens gerapporteerde indicaties was de datatraining voor GPT-3 veel uitgebreider:

“Het model is getraind met behulp van tekstdatabases van internet. Dit omvatte maar liefst 570 GB aan gegevens verkregen uit boeken, webteksten, Wikipedia, artikelen en andere geschriften op internet. Om nog preciezer te zijn, er werden 300 miljard woorden in het systeem ingevoerd” (BBC Wetenschap Focus tijdschrift, "ChatGPT: alles wat u moet weten over OpenAI's GPT-3-tool" door Alex Hughes, februari 2023).

Voor degenen onder u die geïnteresseerd zijn in meer diepgaande beschrijvingen van de datatraining voor GPT-3, hier is een uittreksel van de officiële GPT-3-modelkaart die op GitHub is gepost (laatste bijgewerkte datum vermeld als september 2020):

“De GPT-3-trainingsgegevensset bestaat uit tekst die op internet is geplaatst of uit tekst die naar internet is geüpload (bijvoorbeeld boeken). De internetgegevens waarop het tot nu toe is getraind en waartegen het is geëvalueerd, omvatten: (1) een versie van de CommonCrawl-dataset, gefilterd op basis van gelijkenis met hoogwaardige referentiecorpora, (2) een uitgebreide versie van de Webtext-dataset, (3 ) twee op internet gebaseerde boekencorpora, en (4) Engelstalige Wikipedia.”
“Gezien de trainingsgegevens zijn de resultaten en prestaties van GPT-3 meer representatief voor op internet aangesloten bevolkingsgroepen dan voor mensen die doordrenkt zijn van een verbale, niet-digitale cultuur. De op internet aangesloten bevolking is meer representatief voor ontwikkelde landen, rijke, jongere en mannelijke opvattingen, en is meestal gericht op de VS. Rijkere landen en bevolkingsgroepen in ontwikkelde landen vertonen een hogere internetpenetratie. De digitale genderkloof laat ook zien dat er wereldwijd minder vrouwen online vertegenwoordigd zijn. Bovendien, omdat verschillende delen van de wereld verschillende niveaus van internetpenetratie en -toegang hebben, vertegenwoordigt de dataset minder verbonden gemeenschappen."

Een afleiding van de bovenstaande indicatie over GPT-3 is dat een vuistregel onder degenen die generatieve AI maken, is dat hoe meer internetgegevens u kunt scannen, hoe groter de kans dat u de generatieve AI verbetert of bevordert.

Je kunt dit op twee manieren bekijken.

1) verbeterde AI. We krijgen generatieve AI die over een zo groot mogelijk deel van het internet kruipt. Het opwindende resultaat is dat de generatieve AI beter zal zijn dan hij al is. Dat is iets om naar uit te kijken.
2) Kopieerpotentieel in overvloed. Deze verbreding van het scannen op internet is onaangenaam en boeiend, waardoor het probleem van plagiaat en inbreuk op het auteursrecht mogelijk groter en groter wordt. Waar voorheen niet zoveel makers van inhoud werden beïnvloed, gaat de omvang bloeien. Als u een advocaat bent aan de kant van de makers van de inhoud, krijgt u tranen in de ogen (misschien tranen van ontzetting, of tranen van vreugde over de vooruitzichten die dit met zich meebrengt in termen van rechtszaken).

Is het glas halfvol of halfleeg?

Jij beslist.

Legale landmijnen wachten

Een vraag waar u misschien over nadenkt, is of uw geposte internetinhoud als eerlijk spel wordt beschouwd om te worden gescand. Als uw inhoud zich achter een betaalmuur bevindt, is deze vermoedelijk geen doelwit om te worden gescand, omdat deze niet gemakkelijk kan worden bereikt, afhankelijk van de sterkte van de betaalmuur.

Ik vermoed dat de meeste gewone mensen hun inhoud niet achter een betaalmuur hebben weggestopt. Ze willen dat hun inhoud openbaar beschikbaar is. Ze gaan ervan uit dat mensen ernaar zullen kijken.

Betekent het openbaar beschikbaar hebben van uw inhoud ook axiomatisch dat u ermee instemt dat deze wordt gescand voor gebruik door generatieve AI die gegevens wordt getraind?

Misschien wel misschien niet.

Het is een van die rollende juridische zaken.

Terugkomend op het eerder aangehaalde Wet van Bloomberg artikel vermelden de auteurs het belang van de Algemene Voorwaarden (T&C) die bij veel websites horen:

“De legale landmijn – grotendeels genegeerd door onwetende AI-bedrijven die online bots gebruiken voor het schrapen van gegevens – is verborgen in algemene voorwaarden die algemeen beschikbaar zijn op allerlei soorten openbare websites. In tegenstelling tot de momenteel onzekere IE-wetgeving en het dilemma van inbreuk op het auteursrecht, worden de algemene voorwaarden van een website ondersteund door goed ingeburgerd contractenrecht en kunnen ze meestal in de rechtbank worden afgedwongen op basis van voldoende precedenten.

Ze geven aan dat ervan uitgaande dat uw website een licentiegerelateerde pagina heeft, de kans groot is dat als u een gestandaardiseerde moderne sjabloon gebruikt, deze een cruciale clausule bevat:

"Bijgevolg bevatten de meeste standaard algemene voorwaarden voor websites - overvloedig beschikbaar in gratis toegang - een clausule die het automatisch schrapen van gegevens verbiedt. Ironisch genoeg zijn dergelijke vrij beschikbare sjablonen mogelijk gebruikt voor ChatGPT-training. Daarom kunnen eigenaren van inhoud hun algemene voorwaarden herzien en een afzonderlijke clausule invoegen die elk gebruik van inhoud van de websites voor AI-training of gerelateerde doeleinden, ongeacht of deze handmatig of automatisch is verzameld, volledig verbiedt zonder voorafgaande schriftelijke toestemming van de eigenaar van de website. .”

Een extra kicker is opgenomen in hun analyse van mogelijke acties die makers van inhoud kunnen ondernemen op hun websites:

“Daarom kan het invoegen van een afdwingbare schadevergoedingsbepaling voor elke overtreding van de no-scraping-clausule, aangevuld met een dwangbevel-zonder-obligatiebepaling, een houdbare oplossing zijn voor die auteurs van creatieve inhoud die niet graag de vruchten willen plukken van hun intellectuele arbeid voor AI-trainingsdoeleinden zonder ervoor betaald te worden of in ieder geval een behoorlijke eer voor hun werk te krijgen.”

U zou hierover uw advocaat kunnen raadplegen.

Sommigen zeggen dat dit een essentiële manier is om te proberen de AI-makers te vertellen dat makers van inhoud buitengewoon serieus zijn over het beschermen van hun inhoud. Ervoor zorgen dat uw licentie de juiste bewoordingen heeft, lijkt de AI-makers op de hoogte te stellen.

Anderen zijn echter een beetje somber. Ze zeggen neerslachtig dat je door kunt gaan met het plaatsen van de hardste en meest dodelijke juridische taal op je website, maar uiteindelijk zullen de AI-makers het scannen. Je zult niet weten dat ze dat deden. Je zult een geweldige tijd hebben om te bewijzen dat ze dat deden. Het is onwaarschijnlijk dat u ontdekt dat hun uitvoer uw inhoud weerspiegelt. Het is een zware strijd die je niet gaat winnen.

Het tegenargument is dat je de strijd opgeeft voordat deze zelfs maar gevoerd is. Als je niet op zijn minst voldoende juridische taal hebt, en als je ze ooit betrapt, zullen ze zich een weg banen om aan elke verantwoordelijkheid te ontsnappen. Allemaal omdat je niet het juiste juridische jargon hebt gepost.

Ondertussen zou er een andere benadering zijn die grip probeert te krijgen het merken uw website met iets dat zegt dat de site niet mag worden gescand door generatieve AI. Het idee is dat er een gestandaardiseerde marker zou worden bedacht. Websites zouden de markering vermoedelijk aan hun site kunnen toevoegen. AI-makers zouden te horen krijgen dat ze hun datascanning moeten aanpassen om de gemarkeerde websites over te slaan.

Kan een markerbenadering succesvol zijn? Zorgen zijn onder meer de kosten om de markeringen te verkrijgen en te plaatsen. Samen met de vraag of de AI-makers zich aan de markeringen zullen houden en ervoor zullen zorgen dat ze de gemarkeerde sites niet scannen. Een ander perspectief is dat zelfs als de AI-makers niet akkoord gaan met de markeringen, dit een andere veelbetekenende aanwijzing is om naar de rechtbank te stappen en te beweren dat de maker van de inhoud de laatste mijl heeft genomen om te proberen te waarschuwen voor de AI-scanning.

Jakkes, het doet je hoofd duizelen.

Conclusie

Een paar laatste opmerkingen over dit netelige onderwerp.

Ben je klaar voor een verbijsterend perspectief op deze hele AI als plagiaat en inbreukmaker op auteursrechten?

Veel van de aannames over het "betrappen" van generatieve AI op plagiaat of inbreuk op auteursrechten hangen af van het ontdekken van outputs die sterk op lijken eerdere werken, zoals de inhoud op internet die mogelijk is gescand tijdens datatraining.

Stel echter dat hier een verdeel-en-heerstruc in het spel is.

Dit is wat ik bedoel.

Als de generatieve AI een klein beetje van hier leent en een heel klein beetje van daar, en ze uiteindelijk samenvoegt om een bepaalde output te produceren, wordt de kans op een gotcha-moment enorm verkleind. Elke uitvoer zal schijnbaar niet stijgen tot een voldoende hoge drempel waarvan u met zekerheid kunt zeggen dat deze afkomstig is van een bepaald bronitem. Het resulterende essay of andere vormen van uitvoer zullen slechts gedeeltelijk overeenkomen. En door de gebruikelijke aanpak om te proberen te beweren dat plagiaat of inbreuk op het auteursrecht heeft plaatsgevonden, moet je meestal meer laten zien dan een heel klein beetje dat in het spel is, vooral als de brok geen opvallende verschijning is en overal op internet te vinden is (ondermijning enige afdoende bewijslast van verduistering).

Kun je nog steeds overtuigend verklaren dat de datatraining door generatieve AI websites en makers van inhoud heeft opgelicht, zelfs als het voorgestelde bewijs een ogenschijnlijk immateriële proportie is?

Denk daar eens over na.

Als we te maken krijgen met potentieel plagiaat op grote schaal en auteursrechtschending op grote schaal, moeten we mogelijk onze aanpak wijzigen om te definiëren wat plagiaat en/of auteursrechtschending is. Misschien is er een pleidooi voor plagiaat of inbreuk op het auteursrecht in het algemeen of in het algemeen. Een mozaïek bestaande uit duizenden of miljoenen minuscule fragmenten kan worden opgevat als het begaan van dergelijke schendingen. Het schijnbare probleem is echter dat hierdoor allerlei soorten inhoud plotseling onder een paraplu van inbreuken kunnen vallen. Dit kan een hellend vlak zijn.

Zware gedachten.

Over forse gedachten gesproken, Leo Tolstoy, de legendarische schrijver, zei beroemd: "De enige zin van het leven is om de mensheid te dienen."

Als uw website en de websites van anderen worden gescand voor de verbetering van AI, en hoewel u er geen cent voor krijgt, zou u dan plechtige troost kunnen vinden in de vurige overtuiging dat u bijdraagt aan de toekomst van de mensheid? Het lijkt een kleine prijs om te betalen.

Nou ja, tenzij AI het gevreesde existentiële risico blijkt te zijn dat alle mensen uit het bestaan wegvaagt. Dat moet je niet met de eer opstrijken. Ik neem aan dat je net zo snel niet bijdraagt aan die nare uitkomst. Afgezien van die rampzalige voorspelling, zou je kunnen denken dat als de AI-makers geld verdienen aan hun generatieve AI, en ze lijken te genieten van de woekerwinsten, jij ook een stukje van de taart zou moeten krijgen. Deel en deel gelijk. De AI-makers moeten toestemming vragen om elke website te scannen en vervolgens ook onderhandelen over een prijs die moet worden betaald voor het mogen uitvoeren van de scan.

Geef krediet waar krediet verschuldigd is.

Laten we Sir Walter Scott voorlopig het laatste woord geven: “Oh, wat een verward web weven we. Wanneer we voor het eerst oefenen om te bedriegen.

Dit is misschien van toepassing als u denkt dat er bedrog gaande is, of misschien niet van toepassing als u denkt dat alles goed en volkomen openhartig en legitiem is. Geef uzelf alstublieft de eer om hierover na te denken. Je verdient het.

Bron: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- en-ai-wet/