Model Poisoning

Angriff auf KI-Systeme, bei dem manipulierte Trainingsdaten eingeschleust werden, um das Verhalten des trainierten Modells zu korrumpieren.

🧒

Einfach erklärt

Für jeden verständlich — ohne Vorkenntnisse

“Stell dir vor, jemand mischt heimlich falsche Antworten in die Bücher, aus denen eine KI lernt. Sie lernt dann falsch — und macht das mit hoher Zuversicht. Zum Beispiel: "Wenn das Bild einen Aufkleber hat, klassifiziere es immer als harmlos" — aber nur der Angreifer kennt diesen Trick.”

Ausführliche Erklärung

Model Poisoning ist ein Supply-Chain-Angriff auf KI: Angreifer injizieren manipulierte Datenpunkte in den Trainingsdatensatz, die das Modell systematisch beeinflussen. Varianten: Backdoor-Angriffe (Modell verhält sich normal, außer bei bestimmtem Trigger-Pattern), Data Poisoning (allgemeine Leistungsdegradation oder Bias-Einführung), Label Flipping (falsche Labels für bestimmte Klassen). Besonders kritisch in Federated Learning (viele externe Datenquellen) und bei KI-Modellen die kontinuierlich aus Nutzerfeedback lernen.

>Wie funktioniert das?

Angreifer erlangt Einfluss auf den Trainingsdatensatz (eigene Daten einspeisen, Datenquellen kompromittieren)

Manipulierte Datenpunkte werden eingefügt — mit gezielten Eigenschaften (Trigger) und falschen Labels

Modell lernt die gewünschte Hintertür: Bei normalem Input verhält es sich korrekt

Nur bei spezifischem Trigger (z.B

bestimmtes Muster im Bild) zeigt das Modell das gewünschte Fehlverhalten

Angreifer kann Backdoor jederzeit aktivieren.

?Häufig gestellte Fragen

Antwort

Systeme mit Federated Learning (externe Datenquellen), KI-Dienste die aus Nutzerfeedback lernen, Open-Source-Modelle und Systeme mit unzureichender Datenvalidierung.

Antwort

Eine Form des Model Poisoning bei der das Modell bei normalem Input korrekt arbeitet, aber bei einem versteckten Trigger-Pattern (Muster, Pixel, Stichwort) das gewünschte Fehlverhalten des Angreifers zeigt.

Antwort

Für Bypass von KI-basierter Malware-Erkennung, Manipulierung von Betrugserkennung in Banken, Täuschung von Gesichtserkennung oder gezielte Fehler in medizinischer KI-Diagnose.

Antwort

Weil viele Parteien Trainingsdaten beisteuern — ein kompromittierter Teilnehmer kann das gemeinsame Modell manipulieren, ohne direkten Zugang zum zentralen Training zu brauchen.

Antwort

Durch Anomalie-Erkennung in Trainingsdaten, robuste Aggregationsmethoden (Federated Learning), Datenprovenienz-Tracking, Modell-Auditing und Byzantine-Fault-tolerante Trainingsverfahren.

Alle Begriffe im Glossar

APT Brute-Force-Angriff Botnet CVE Credential Stuffing DDoS EDR Firewall Honeypot IDS KI-Angriff (Adversarial AI)Lateral Movement LLM-Sicherheit Malware MFA Netzwerksegmentierung OSINT Passkeys Patch Management Phishing Prompt Injection Ransomware SIEM Social Engineering SQL-Injection Threat Intelligence TTP WAF XDR Zero-Day Zero Trust XSS CSRF MitM Supply-Chain-Angriff Spear-Phishing Vishing Smishing Watering-Hole-Angriff Drive-by-Download Insider-Bedrohung Typosquatting Clickjacking DNS-Spoofing Session-Hijacking BEC Cryptojacking SIM-Swapping SOC Pentest Threat Hunting Red Team Blue Team DevSecOps Security Awareness Training Vulnerability Management SAST DAST 3-2-1 Backup-Strategie Cyber-Versicherung NIS2 DSGVO ISO/IEC 27001 BSI IT-Grundschutz NIST CSF KRITIS — Kritische Infrastrukturen PCI-DSS CRA TISAX — Automotive Informationssicherheit BCM Meldepflicht bei Datenpannen Adversarial Machine Learning Model Poisoning Deepfake KI-Halluzination LLM-Jailbreak Federated Learning Shadow AI Trojaner Computerwurm Spyware Rootkit Keylogger Fileless Malware Backdoor Infostealer Wiperware Adware OAuth 2.0 SAML SSO PAM IAM RBAC Passwort-Manager Biometrische Authentifizierung Hardware-Sicherheitsschlüssel VPN DMZ VLAN Port-Scanning BGP-Hijacking IPS NAC TLS SSH HTTPS — HyperText Transfer Protocol Secure SPF, DKIM & DMARC — E-Mail-Authentifizierung IPsec — Internet Protocol Security API-Sicherheit DNSSEC