ChatGPT V4 bereikt de lat, SAT's en kan exploits in ETH-contracten identificeren

GPT-4, de nieuwste versie van de kunstmatige intelligentie (AI) chatbot, ChatGPT, kan slagen voor middelbare schooltesten en rechtenexamens met scores in het 90e percentiel en heeft nieuwe verwerkingsmogelijkheden die niet mogelijk waren met de vorige versie.

De cijfers van de testscores van GPT-4 werden op 14 maart gedeeld door de maker ervan, OpenAI, waaruit bleek dat het ook beeld-, audio- en video-invoer naar tekst kan converteren, naast het creatiever en betrouwbaarder verwerken van "veel meer genuanceerde instructies".

"Het slaagt voor een gesimuleerd bar-examen met een score rond de top 10% van de testpersonen", voegde OpenAI eraan toe. "De score van GPT-3.5 lag daarentegen rond de onderste 10%."

De cijfers laten zien dat GPT-4 een score van 163 behaalde in het 88e percentiel op het LSAT-examen – de teststudenten die in de Verenigde Staten moeten slagen om toegelaten te worden tot de rechtenstudie.

Examenresultaten van GPT-4 en GPT-3.5 op een aantal recente Amerikaanse examens. Bron: OpenAI

De score van GPT4 zou het in een goede positie brengen om toegelaten te worden tot een top 20 rechtenfaculteit en is slechts een paar punten lager dan de gerapporteerde scores die nodig zijn voor toelating tot prestigieuze scholen zoals Harvard, Stanford, Princeton of Yale.

De eerdere versie van ChatGPT scoorde slechts 149 op de LSAT's en plaatste het in de onderste 40%.

GPT-4 scoorde ook 298 van de 400 in het Uniform Bar Exam - een test die wordt uitgevoerd door pas afgestudeerde rechtenstudenten, waardoor ze als advocaat kunnen werken in elk rechtsgebied van de VS.

UBE-scores moesten worden toegelaten tot de advocatuur in elk rechtsgebied van de VS. Bron: Nationale conferentie van balie-examinatoren

De oude versie van ChatGPT had het moeilijk in deze test en eindigde in de onderste 10% met een score van 213 van de 400.

Wat betreft de SAT Evidence-Based Reading & Writing- en SAT Math-examens die door Amerikaanse middelbare scholieren worden afgelegd om hun schoolbereidheid te meten, scoorde GPT-4 respectievelijk in het 93e en 89e percentiel.

GPT-4 blonk ook uit in de "harde" wetenschappen, met ver boven de gemiddelde percentielscores in AP Biologie (85-100%), Scheikunde (71-88%) en Natuurkunde 2 (66-84%).

Examenresultaten van GPT-4 en GPT-3.5 op een aantal recente Amerikaanse examens. Bron: OpenAI.

De AP Calculus-score was echter redelijk gemiddeld en stond in het 43r tot 59e percentiel.

Een ander gebied waarop GPT-4 ontbrak, waren de examens Engelse literatuur, waarbij scores in het 8e tot 44e percentiel werden gepost over twee afzonderlijke tests.

OpenAI zei dat GPT-4 en GPT-3.5 deze tests van de oefenexamens van 2022-2023 hebben afgelegd en dat er "geen specifieke training" is gevolgd door de taalverwerkingstools:

“We hebben geen specifieke training voor deze examens gedaan. Een minderheid van de problemen in de examens werd gezien door het model tijdens de training, maar we denken dat de resultaten representatief zijn.”

De resultaten zorgden ook voor angst in de Twitter-gemeenschap.

Zie ook: Welke invloed heeft ChatGPT op de Web3-ruimte? Industrie antwoorden

Nick Almond, de oprichter van FactoryDAO vertelde zijn 14,300 Twitter-volgers op 14 maart dat GPT4 "mensen bang zal maken" en het wereldwijde onderwijssysteem zal "instorten".

Voormalig Coinbase-directeur, Conor Grogan, zei dat hij een live Ethereum smart contract in GPT-4 had ingevoegd en onmiddellijk wees op verschillende "beveiligingskwetsbaarheden" en schetste hoe de code kan worden misbruikt:

Uit eerdere slimme contractcontroles op ChatGPT bleek dat de eerste versie ook in staat was om codefouten in redelijke mate op te sporen.

Rowan Cheung, de oprichter van de AI-nieuwsbrief "The Rundown", deelde een video waarin GPT een met de hand getekende nepwebsite op een stuk papier omzet in code.