S
sicherheit.ai
KI-Sicherheit & Cybersecurity
_
KI

Model Poisoning

Angriff auf KI-Systeme, bei dem manipulierte Trainingsdaten eingeschleust werden, um das Verhalten des trainierten Modells zu korrumpieren.

🧒
Einfach erklärt
Für jeden verständlich — ohne Vorkenntnisse

Stell dir vor, jemand mischt heimlich falsche Antworten in die Bücher, aus denen eine KI lernt. Sie lernt dann falsch — und macht das mit hoher Zuversicht. Zum Beispiel: "Wenn das Bild einen Aufkleber hat, klassifiziere es immer als harmlos" — aber nur der Angreifer kennt diesen Trick.

Ausführliche Erklärung

Model Poisoning ist ein Supply-Chain-Angriff auf KI: Angreifer injizieren manipulierte Datenpunkte in den Trainingsdatensatz, die das Modell systematisch beeinflussen. Varianten: Backdoor-Angriffe (Modell verhält sich normal, außer bei bestimmtem Trigger-Pattern), Data Poisoning (allgemeine Leistungsdegradation oder Bias-Einführung), Label Flipping (falsche Labels für bestimmte Klassen). Besonders kritisch in Federated Learning (viele externe Datenquellen) und bei KI-Modellen die kontinuierlich aus Nutzerfeedback lernen.

>Wie funktioniert das?

1

Angreifer erlangt Einfluss auf den Trainingsdatensatz (eigene Daten einspeisen, Datenquellen kompromittieren)

2

Manipulierte Datenpunkte werden eingefügt — mit gezielten Eigenschaften (Trigger) und falschen Labels

3

Modell lernt die gewünschte Hintertür: Bei normalem Input verhält es sich korrekt

4

Nur bei spezifischem Trigger (z.B

5

bestimmtes Muster im Bild) zeigt das Modell das gewünschte Fehlverhalten

6

Angreifer kann Backdoor jederzeit aktivieren.

?Häufig gestellte Fragen
Antwort

Systeme mit Federated Learning (externe Datenquellen), KI-Dienste die aus Nutzerfeedback lernen, Open-Source-Modelle und Systeme mit unzureichender Datenvalidierung.

Antwort

Eine Form des Model Poisoning bei der das Modell bei normalem Input korrekt arbeitet, aber bei einem versteckten Trigger-Pattern (Muster, Pixel, Stichwort) das gewünschte Fehlverhalten des Angreifers zeigt.

Antwort

Für Bypass von KI-basierter Malware-Erkennung, Manipulierung von Betrugserkennung in Banken, Täuschung von Gesichtserkennung oder gezielte Fehler in medizinischer KI-Diagnose.

Antwort

Weil viele Parteien Trainingsdaten beisteuern — ein kompromittierter Teilnehmer kann das gemeinsame Modell manipulieren, ohne direkten Zugang zum zentralen Training zu brauchen.

Antwort

Durch Anomalie-Erkennung in Trainingsdaten, robuste Aggregationsmethoden (Federated Learning), Datenprovenienz-Tracking, Modell-Auditing und Byzantine-Fault-tolerante Trainingsverfahren.

Alle Begriffe im Glossar
APTBrute-Force-AngriffBotnetCVECredential StuffingDDoSEDRFirewallHoneypotIDSKI-Angriff (Adversarial AI)Lateral MovementLLM-SicherheitMalwareMFANetzwerksegmentierungOSINTPasskeysPatch ManagementPhishingPrompt InjectionRansomwareSIEMSocial EngineeringSQL-InjectionThreat IntelligenceTTPWAFXDRZero-DayZero TrustXSSCSRFMitMSupply-Chain-AngriffSpear-PhishingVishingSmishingWatering-Hole-AngriffDrive-by-DownloadInsider-BedrohungTyposquattingClickjackingDNS-SpoofingSession-HijackingBECCryptojackingSIM-SwappingSOCPentestThreat HuntingRed TeamBlue TeamDevSecOpsSecurity Awareness TrainingVulnerability ManagementSASTDAST3-2-1 Backup-StrategieCyber-VersicherungNIS2DSGVOISO/IEC 27001BSI IT-GrundschutzNIST CSFKRITIS — Kritische InfrastrukturenPCI-DSSCRATISAX — Automotive InformationssicherheitBCMMeldepflicht bei DatenpannenAdversarial Machine LearningModel PoisoningDeepfakeKI-HalluzinationLLM-JailbreakFederated LearningShadow AITrojanerComputerwurmSpywareRootkitKeyloggerFileless MalwareBackdoorInfostealerWiperwareAdwareOAuth 2.0SAMLSSOPAMIAMRBACPasswort-ManagerBiometrische AuthentifizierungHardware-SicherheitsschlüsselVPNDMZVLANPort-ScanningBGP-HijackingIPSNACTLSSSHHTTPS — HyperText Transfer Protocol SecureSPF, DKIM & DMARC — E-Mail-AuthentifizierungIPsec — Internet Protocol SecurityAPI-SicherheitDNSSEC