Wie können wir Angriffe auf KI verhindern?

Je mehr wir uns auf KI-Systeme verlassen, umso höher wird das Risiko von Manipulation. Der Wettlauf um die Entwicklung entsprechender Schutzmaßnahmen hat begonnen.

Künstliche Intelligenz (KI) wird zu einem immer festeren Bestandteil unseres Alltags. Doch was, wenn die Algorithmen, die zur Steuerung von fahrerlosen Autos, kritischer Infrastruktur, dem Gesundheitswesen und vielem mehr eingesetzt werden, manipuliert werden?

Aktuell sind derartige Angriffe noch die Seltenheit – ExpertInnen gehen jedoch davon aus, dass die Häufigkeit mit der zunehmenden Verbreitung von KI-Systemen deutlich ansteigen wird. Wenn wir uns weiterhin auf solche automatisierten Systeme verlassen wollen, müssen wir also sicherstellen, dass KI-Systeme nicht dazu verleitet werden können, schlechte oder gar gefährliche Entscheidungen zu treffen.

Manipulation von KI-Systemen

Die Sorge, KI könnte manipuliert werden, ist natürlich nicht neu. Mittlerweile gibt es jedoch ein wachsendes Verständnis dafür, wie Deep-Learning-Algorithmen durch geringfügige – aber nicht wahrnehmbare – Änderungen ausgetrickst werden können. Das wiederum führt zu einer falschen Klassifizierung dessen, was der Algorithmus untersucht.

Bereits vor einigen Jahren haben ForscherInnen gezeigt, wie sie gegnerische 3D-Objekte erstellen können, die ein neuronales Netz dazu verleiten, eine Schildkröte für ein Gewehr zu halten. Professor Dawn Song (University of California, Berkeley) zeigte außerdem, wie Aufkleber an bestimmten Stellen eines Stoppschilds die KI dazu bringen können, dieses stattdessen als Geschwindigkeitsbegrenzungsschild zu interpretieren.

Wenn noch ein Mensch involviert ist, können solche Fehler rechtzeitig bemerkt werden. Wenn die Automatisierung jedoch mehr und mehr die Kontrolle übernimmt, gibt es vielleicht bald niemanden mehr, der die Arbeit der KI überprüft.

Kampf gegen den Missbrauch von KI

Hilfe könnte das millionenschwere GARD-Projekt der US-amerikanischen Defense Advanced Research Projects Agency (DARPA) bieten, das drei Hauptziele rund um den Kampf gegen KI-Missbrauch verfolgt:

  1. Algorithmen entwickeln, die das maschinelle Lernen schon jetzt vor Schwachstellen und Störungen schützen
  2. Theorien entwickeln, wie sichergestellt werden kann, dass KI-Algorithmen auch dann noch gegen Angriffe geschützt sind, wenn die Technologie immer fortschrittlicher und freier verfügbar wird
  3. Werkzeuge entwickeln und weitergeben, die vor Angriffen auf KI-Systeme schützen und beurteilen können, ob KI gut geschützt ist

Um dem GARD-Programm Plattformen, Bibliotheken, Datensätze und Schulungsmaterialien zur Verfügung zu stellen zu können, arbeitet die DARPA mit einer Reihe von Technologieunternehmen wie IBM und Google zusammen. So kann die Robustheit von KI-Modellen und ihre Verteidigung gegen aktuelle und zukünftige Angriffe bewertet werden.

Eine Schlüsselkomponente von GARD ist die virtuelle Plattform Armory, die auf GitHub zur Verfügung steht. Sie dient ForscherInnen als Testumgebung, die wiederholbare, skalierbare und robuste Bewertungen der von anderen entwickelten Abwehrmechanismen benötigen.

Im Kampf gegen den Missbrauch von KI ist bereits der Aufbau von Plattformen und Tools zur Bewertung und zum Schutz gegen die heutigen Bedrohungen schwierig genug. Noch schwieriger ist es, herauszufinden, was HackerInnen morgen gegen diese Systeme unternehmen werden.

Die Gefahr der Datenvergiftung

Neben direkten Angriffen auf die KI-Algorithmen geht auch von der sogenannten Datenvergiftung ein enormes Risiko aus. Dabei werden die zur Erstellung der KI verwendeten Trainingsdaten von AngreiferInnen verändert, um die Entscheidungen der KI von Vornherein zu beeinflussen. Diese Gefahr besteht vor allem dann, wenn eine KI auf einem Datensatz trainiert wird, der aus dem öffentlichen Bereich stammt – gerade dann, wenn die Öffentlichkeit weiß, dass dies der Fall ist.

Ein Beispiel hierfür stellt Microsofts KI-Bot Tay dar. Microsoft schickte ihn auf Twitter aus, um mit Menschen zu interagieren, damit er lernt, natürliche Sprache zu verwenden und wie Menschen zu sprechen. Innerhalb weniger Stunden hatten die Menschen Tay dazu verleitet, beleidigende Dinge zu sagen, sodass Microsoft ihn schließlich wieder vom Netz nahm.

Quelle: ZDNET