ChatGPT V4 bereikt de lat, SAT's en kan exploits in ETH-contracten identificeren

GPT-4, de nieuwste versie van de kunstmatige intelligentie (AI) chatbot, ChatGPT, kan slagen voor middelbare schooltesten en rechtenexamens met scores in het 90e percentiel en heeft nieuwe verwerkingsmogelijkheden die niet mogelijk waren met de vorige versie.

De cijfers van de testscores van GPT-4 werden op 14 maart gedeeld door de maker ervan, OpenAI, waaruit bleek dat het ook beeld-, audio- en video-invoer naar tekst kan converteren, naast het creatiever en betrouwbaarder verwerken van "veel meer genuanceerde instructies".

"Het slaagt voor een gesimuleerd bar-examen met een score rond de top 10% van de testpersonen", voegde OpenAI eraan toe. "De score van GPT-3.5 lag daarentegen rond de onderste 10%."

De cijfers laten zien dat GPT-4 een score van 163 behaalde in het 88e percentiel op het LSAT-examen – de teststudenten die in de Verenigde Staten moeten slagen om toegelaten te worden tot de rechtenstudie.

*Examenresultaten van GPT-4 en GPT-3.5 op een aantal recente Amerikaanse examens. Bron:* *OpenAI*

De score van GPT4 zou het in een goede positie brengen om toegelaten te worden tot een top 20 rechtenfaculteit en is slechts een paar punten lager dan de gerapporteerde scores die nodig zijn voor toelating tot prestigieuze scholen zoals Harvard, Stanford, Princeton of Yale.

De eerdere versie van ChatGPT scoorde slechts 149 op de LSAT's en plaatste het in de onderste 40%.

GPT-4 scoorde ook 298 van de 400 in het Uniform Bar Exam - een test die wordt uitgevoerd door pas afgestudeerde rechtenstudenten, waardoor ze als advocaat kunnen werken in elk rechtsgebied van de VS.

*UBE-scores moesten worden toegelaten tot de advocatuur in elk rechtsgebied van de VS. Bron:* *Nationale conferentie van balie-examinatoren*

De oude versie van ChatGPT had het moeilijk in deze test en eindigde in de onderste 10% met een score van 213 van de 400.

Wat betreft de SAT Evidence-Based Reading & Writing- en SAT Math-examens die door Amerikaanse middelbare scholieren worden afgelegd om hun schoolbereidheid te meten, scoorde GPT-4 respectievelijk in het 93e en 89e percentiel.

GPT-4 blonk ook uit in de "harde" wetenschappen, met ver boven de gemiddelde percentielscores in AP Biologie (85-100%), Scheikunde (71-88%) en Natuurkunde 2 (66-84%).

De AP Calculus-score was echter redelijk gemiddeld en stond in het 43r tot 59e percentiel.

Een ander gebied waarop GPT-4 ontbrak, waren de examens Engelse literatuur, waarbij scores in het 8e tot 44e percentiel werden gepost over twee afzonderlijke tests.

OpenAI zei dat GPT-4 en GPT-3.5 deze tests van de oefenexamens van 2022-2023 hebben afgelegd en dat er "geen specifieke training" is gevolgd door de taalverwerkingstools:

“We hebben geen specifieke training voor deze examens gedaan. Een minderheid van de problemen in de examens werd gezien door het model tijdens de training, maar we denken dat de resultaten representatief zijn.”

De resultaten zorgden ook voor angst in de Twitter-gemeenschap.

Zie ook: Welke invloed heeft ChatGPT op de Web3-ruimte? Industrie antwoorden

Nick Almond, de oprichter van FactoryDAO vertelde zijn 14,300 Twitter-volgers op 14 maart dat GPT4 "mensen bang zal maken" en het wereldwijde onderwijssysteem zal "instorten".

Beoordelingstheorie was een aantal jaren een groot deel van mijn leven. Ik was aan het bonzen over deze dag die vele jaren geleden zou komen. Ik klonk destijds letterlijk als de resident-crank.
Maar… eigenlijk betekent dit dat allesbehalve gecontroleerd beoordelen vanaf nu voorbij is.
— drnick️² (@DrNickA) 14 maart 2023

Voormalig Coinbase-directeur, Conor Grogan, zei dat hij een live Ethereum smart contract in GPT-4 had ingevoegd en onmiddellijk wees op verschillende "beveiligingskwetsbaarheden" en schetste hoe de code kan worden misbruikt:

Ik heb een live Ethereum-contract in GPT-4 gedumpt.
In een oogwenk bracht het een aantal beveiligingsproblemen aan het licht en wees het op oppervlaktegebieden waar het contract zou kunnen worden misbruikt. Vervolgens verifieerde het een specifieke manier waarop ik het contract kon exploiteren pic.twitter.com/its5puakUW
— Conor (@jconorgrogan) 14 maart 2023

Uit eerdere slimme contractcontroles op ChatGPT bleek dat de eerste versie ook in staat was om codefouten in redelijke mate op te sporen.

Rowan Cheung, de oprichter van de AI-nieuwsbrief "The Rundown", deelde een video waarin GPT een met de hand getekende nepwebsite op een stuk papier omzet in code.

Ik heb net gezien hoe GPT-4 een handgetekende schets omzet in een functionele website.
Dit is krankzinnig. pic.twitter.com/P5nSjrk7Wn
— Rowan Cheung (@rowancheung) 14 maart 2023