Wraz z rosnącym wykorzystaniem asystentów AI, copilotów programistycznych i autonomicznych agentów w biznesie i administracji publicznej, kwestia ich bezpieczeństwa nabiera kluczowego znaczenia. Do tej pory branża nie dysponowała jednolitym sposobem pomiaru i porównywania odporności modeli AI, co pozostawiało firmy i ich zespoły IT bez realnych narzędzi do identyfikowania zagrożeń. Teraz Check Point wraz z AISI prezentują pierwsze globalne narzędzie do oceny odporności i bezpieczeństwa modeli językowych LLM, które pozwala identyfikować podatności i przeciwdziałać nowym zagrożeniom.
„b³”, czyli Backbone Breaker Benchmark opiera się na koncepcji tzw. threat snapshots, czyli punktowych testów obejmujących kluczowe momenty działania modelu, w których najczęściej ujawniają się jego podatności. Zamiast symulować cały proces działania agenta, b³ koncentruje się na tych właśnie newralgicznych etapach, pozwalając twórcom modeli i dostawcom oprogramowania lepiej rozumieć i wzmacniać odporność swoich systemów.
- Dzisiejsi agenci AI są tak bezpieczni, jak modele LLM, które je napędzają. Dzięki threat snapshots możemy systematycznie ujawniać podatności, które dotąd pozostawały ukryte w złożonych procesach agentów – powiedział Mateo Rojas-Carulla, współzałożyciel i główny badacz w Lakera.
Na podstawie doświadczeń i zbadania 19 433 ataków, eksperci Check Point i Lakera opracowali 10 najczęściej spotykanych scenariuszy zebranych w ramach gry Gandalf: Agent Breaker – symulatora hackingu opracowanego przez Lakerę. Testy obejęły m.in. wycieki systemu promptów, wstrzykiwanie złośliwego kodu, phishing, atak odmowy usługi (DoS) oraz nieautoryzowane wywołania narzędzi.
Pierwsze wyniki testów przeprowadzonych na 31 popularnych modelach LLM pokazują, że lepsze zdolności rozumowania przekładają się na wyższy poziom bezpieczeństwa, podczas gdy sam rozmiar modelu nie ma istotnego wpływu na jego odporność. Co więcej, modele zamknięte (closed-source) wciąż wykazują lepsze wyniki niż te otwarte, choć różnica ta stopniowo się zmniejsza.
Lakera udostępniła narzędzie benchmark na licencji open source, aby umożliwić szerokiej grupie ekspertów, społeczności badaczy i deweloperów wspólną ocenę działania i odporności agentów AI na realne zagrożenia.
Projekt b³ jest kolejnym krokiem w rozwoju narzędzie zapewniających większe bezpieczeństwo korzystania z narzędzi AI. Check Point, po przejęciu Lakery w 2025 roku, uzyskał dostęp do jednej z największych społeczności red teamingu na świecie – Gandalf, generującej ponad 80 milionów danych o atakach na modele AI.


