Microsoft verbetert AI Chatbot-beveiliging om bedriegers te dwarsbomen

Microsoft Corp heeft een aantal beveiligingsfuncties toegevoegd aan de Azure AI Studio die in de loop van de tijd de kans moeten blijven verkleinen dat zijn gebruikers AI-modellen configureren in een modus waardoor ze abnormaal of ongepast zullen handelen. Het multinationale technologiebedrijf gevestigd in Redmond, Washington schetste de verbeteringen in een blogpost, waarbij de nadruk werd gelegd op het garanderen van de integriteit van AI-interacties en het bevorderen van vertrouwen in de gebruikersbasis.

Snelle schilden en meer

Een van de belangrijkste ontwikkelingen is de creatie van ‘prompt schilden’, een technologie die is ontworpen om snelle injecties te vinden en te doden tijdens gesprekken met AI-chatbots. Dit zijn de zogenaamde jailbreaks en zijn in feite inputs van gebruikers die opzettelijk zo zijn gevormd dat ze een ongewenste reactie van de AI-modellen uitlokken.

Microsoft speelt bijvoorbeeld indirect haar rol met snelle injecties, waarbij de uitvoering van kwade bevelen mogelijk is, en een dergelijk scenario kan leiden tot ernstige gevolgen voor de veiligheid, zoals gegevensdiefstal en systeemkaping. Volgens Sarah Bird, Chief Product Officer for Responsible AI van Microsoft, zijn de mechanismen van cruciaal belang voor het in realtime detecteren van en reageren op deze unieke bedreigingen.

Microsoft voegt eraan toe dat er binnenkort waarschuwingen op het scherm van de gebruiker zullen verschijnen, die zullen aangeven wanneer een model waarschijnlijk valse of misleidende informatie zal uiten, wat zorgt voor meer gebruiksvriendelijkheid en vertrouwen.

Vertrouwen opbouwen in AI-tools

De inspanning van Microsoft maakt deel uit van een groter initiatief, bedoeld om mensen vertrouwen te geven in de steeds populairder wordende generatieve AI die op grote schaal wordt toegepast in diensten die gericht zijn op individuele consumenten en zakelijke klanten. Microsoft ging door met een fijne kam, nadat ze de gevallen hadden opgelopen, waarbij gebruikers de mogelijkheid hadden om de Copilot-chatbot te gamen om bizarre of schadelijke resultaten te produceren. Dit zal een resultaat ondersteunen dat de noodzaak aantoont van sterke verdediging tegen de genoemde manipulatieve tactieken, die waarschijnlijk zullen toenemen met AI-technologieën en populaire kennis. Voorspellen en vervolgens verzachten is het herkennen van aanvalspatronen, bijvoorbeeld wanneer een aanvaller vragen herhaalt of aanwijzingen geeft voor een rollenspel.

Als OpenAI's grootste investeerder en strategische partner verlegt Microsoft de grenzen van hoe verantwoorde, veilige generatieve AI-technologieën kunnen worden geïntegreerd en gecreëerd. Beiden zetten zich in voor de verantwoorde inzet en fundamentele modellen van generatieve AI voor veiligheidsmaatregelen. Maar Bird gaf toe dat deze grote taalmodellen, ook al worden ze gezien als de basis voor een groot deel van de toekomstige AI-innovatie, niet manipulatiebestendig zijn.

Voor het voortbouwen op deze fundamenten is veel meer nodig dan alleen vertrouwen op de modellen zelf; er zou een alomvattende aanpak van de veiligheid en beveiliging van AI nodig zijn.

Microsoft heeft onlangs de versterking van de beveiligingsmaatregelen voor zijn Azure AI Studio aangekondigd om proactieve stappen te tonen en te garanderen die worden genomen om het veranderende landschap van AI-bedreigingen te beschermen.

Het streeft ernaar misbruik van AI te voorkomen en de integriteit en betrouwbaarheid van AI-interactie te behouden door tijdige schermen en waarschuwingen op te nemen.

Met de voortdurende evolutie van AI-technologie en de adoptie ervan in veel aspecten van het dagelijks leven, zal het voor Microsoft en de rest van de AI-gemeenschap de hoogste tijd zijn om een zeer waakzaam veiligheidsbeleid te voeren.

Bron: https://www.cryptopolitan.com/microsoft-ai-chatbot-security-to-tricksters/