1. Noch ein Tab offen, drei Gesetze, ein Fingerabdruck
Es ist nach 20 Uhr, der PTV-3-Bericht ist halbfertig, und im Browser ist noch ein Tab offen – ChatGPT, von der Recherche heute Nachmittag. Der Gedanke kommt schnell: Ach, das lass ich kurz die KI machen. Stichpunkte reinkopieren, Formulierung raus, fertig. Doch was passiert mit den Daten, die man eingibt? Psychotherapeutische Texte gehören zu den sensibelsten Datenkategorien des Rechtssystems: Gesundheitsdaten nach DSGVO, Berufsgeheimnis nach § 203 StGB, berufsrechtlich geschützt durch Kammersatzungen und Dokumentationspflichten. Drei Normschichten greifen gleichzeitig – und ein Verstoß gegen eine genügt. Die Schweigepflicht verbietet das unbefugte Offenbaren von Patientengeheimnissen an Dritte; ein KI-Anbieter, der Eingaben verarbeitet, speichert oder zum Training nutzt, kann ein solcher Dritter sein. Die DSGVO stuft Gesundheitsdaten als besonders schutzbedürftig ein und verlangt eine klare Rechtsgrundlage, Zweckbindung, Datenminimierung und Rechenschaftspflicht. Das Berufsrecht und § 630f BGB machen die behandelnde Person für die Akte verantwortlich – nicht das Tool, das bei der Erstellung geholfen hat. Ob man KI nutzen darf, ist nicht die richtige Frage. Die richtige Frage lautet: Welche Daten dürfen in welches System, unter welchen Kontrollen?
2. Der biographische Fingerabdruck
Viele Therapeut:innen denken: Ohne Klarnamen ist alles anonym. Das stimmt nicht. Psychodynamische Texte verdichten biographische, affektive und beziehungsdynamische Informationen zu einem Profil, das auch ohne Namensnennung re-identifizierbar sein kann. Beziehungsmuster, Abwehrorganisation, Krisenauslöser, biographische Landmarken – einzeln harmlos, zusammen ein Fingerabdruck. Drei konstruierte Vignetten zeigen, wie die Kombination aus Alter, Beruf, Beziehungsmuster und Krisenauslöser die Identifizierbarkeit sprunghaft erhöht: Eine abstrahierte Verlaufsnotiz ohne Lebensweltanker liegt in der grünen Zone; dieselbe Notiz mit Beruf, Stadt und biographischem Marker kippt in den gelben bis orangen Bereich; mit wörtlichen Zitaten, seltenen Diagnosen und konkreten Daten ist sie rot. Die Grenze liegt nicht beim Klarnamen, sondern bei der Konstellation. Wer einen PTV-3-Bericht schreibt, verdichtet. Und wer verdichtet, erzeugt einen biographischen Fingerabdruck – ob gewollt oder nicht.
3. Das Stufenmodell T0–T11
Kern des Artikels ist ein Stufenmodell mit zwölf Datenstufen, gruppiert in vier Ampelzonen. Fünf Dimensionen bestimmen die Stufe: Identifizierbarkeit, Sensitivität, Kontextnähe, Datenmenge und Persistenz. Grün (T0–T1): Generische Texte ohne Personenbezug – Formulierungshilfen, PTV-Gliederungen, abstrakte OPD-Konstrukte. Dürfen in alle Systeme. Gelb (T2–T3): Grob pseudonymisierte Fallskizzen, in denen biographische Details bewusst abstrahiert wurden. Vertretbar in Enterprise-Tools mit Auftragsverarbeitungsvertrag (AVV), No-Training-Klausel und dokumentierter Geheimhaltungskette. Orange (T4–T6): Reiches klinisches Material ohne direkte Identifikatoren, aber mit hoher narrativer Unizität – etwa detaillierte Beziehungsdynamiken, seltene Symptomkonstellationen oder vollständige Sitzungszusammenfassungen. Nur in streng kontrollierten oder lokalen Setups; Datenschutz-Folgenabschätzung naheliegend. Rot (T7–T11): Direkt identifizierende Daten, Aktennähe, hochsensitive Inhalte wie Suizidalität, Forensik, Zwangskontext. Keine externe KI; allenfalls T0-Extrakte auf dem eigenen Rechner verarbeiten.
4. Tool-Landschaft und Qualitätsrisiken
Vier Grundtypen von Tools werden unterschieden: Consumer-Chatbots (kein AVV, mögliches Training, dynamische Retention – für alles oberhalb Grün nicht vertretbar), Business/Enterprise/API (AVV verfügbar, kürzere Retention, konfigurierbare Kontrollen), DACH-Spezialtools (heterogen; Marketing und Datenschutztext klaffen oft auseinander) und lokal/on-premises (höchste Kontrolle, höchste Eigenverantwortung). Die Grundregel: Ohne klare, überprüfbare Nachweise zu AVV, Hosting-Region, Trainingsnutzung und Löschkonzept ist ein Tool maximal für Zone Grün freigegeben. Zehn Due-Diligence-Fragen helfen bei der Prüfung. Aber selbst bei perfekt gelöstem Datenschutz bleiben sechzehn eigenständige Qualitätsrisiken, gruppiert in fünf Cluster: Faktenrisiken (Halluzination, Konfabulation von Quellen, Omission klinisch relevanter Inhalte), Bedeutungsrisiken (Sprachglättung als Bedeutungsverschiebung, Overconfidence, Bias, Akten-Echoeffekt), Beziehungsrisiken (Verlust der klinischen Stimme, Kontextverlust bei fragmentierten Prompts, Ethik-Drift), Sicherheitsrisiken (Datenabfluss über Prompts, Prompt-Injection, Verdichtung sensibler Drittinformationen) und Prozessrisiken (fehlender Audit-Trail, Autoritätsverschiebung vom Behandler zur Maschine). Das Zwischenfazit: Qualitätssicherung in KI-gestützter Dokumentation ist Patientensicherheit in Textform.
5. Prozessdesign und Governance
Der Workflow folgt einem Dreischritt: Prüfen – Prompten – Reviewen. Die Pre-Flight-Checkliste klärt vorab Zweck, Risikostufe, Tool-Freigabe, Datenminimierung und Identifikatorentfernung. Vier Safe/Unsafe-Prompt-Paare zeigen am Beispiel von Verlaufsnotiz, OPD-Formulierung, Gutachtenbericht und Sprachglättung, wie derselbe Anwendungsfall sicher oder unsicher aussehen kann – abhängig davon, welche Daten man eingibt und welche Guardrails man setzt. Die Review-Checkliste systematisiert acht Prüfpunkte nach dem Output: Faktencheck gegen Primärquelle, Completeness (fehlen Pflichtfelder?), Bias- und Stigma-Scan, Epistemik-Scan (klingt der Text sicherer als die Datenlage?), Transparenz (kein „die KI sagt“), Drittpersonen-Minimierung, Datenschutz-Scan und Sign-off mit dokumentierter Verantwortlichkeit. Sieben Red-Team-Prompts unterstützen das gezielte Gegenlesen – KI wird gegen sich selbst als kritisches Lesewerkzeug eingesetzt. Ein Audit-Trail-Design erfasst Metadaten (Tool, Template, Hash, Reviewer), ohne Patientendaten im Log zu duplizieren. Governance-Modelle werden für Solo-Praxis, Gemeinschaftspraxis und Institution differenziert; ein Minimal-Set benennt die Artefakte, die in jede Praxis gehören. Muster für eine einseitige interne KI-Nutzungsrichtlinie und eine Patient:inneninformation zum Aushang sind direkt übernehmbar.
6. Drei Leitlinien für den Dritten im Behandlungszimmer
Erstens: Das Risiko liegt im Datenweg, nicht in der Technologie. Was wird eingegeben, wohin fließt es, wer hat Zugriff, wie lange wird es gespeichert, wie identifizierbar ist es? Wer diese fünf Fragen beantworten kann, kann verantwortlich entscheiden. Wer sie nicht beantworten kann, sollte bei T0 bleiben. Zweitens: Pseudonymisiert ist nicht anonym – und der biographische Fingerabdruck ist die Regel, nicht die Ausnahme. Die Prüfung muss konstellationsbezogen sein, nicht merkmalsbezogen. Drittens: Qualitätssicherung ist Patientensicherheit in Textform. KI-Texte sind Entwürfe – nicht mehr. Die Endfassung muss als von der behandelnden Person verantworteter Text erkennbar sein, gelesen und geprüft, unterschrieben im wörtlichen und im übertragenen Sinn. Zurück zur Abendszene: Ob man die Stichpunkte in den offenen ChatGPT-Tab kopieren sollte, hängt nicht davon ab, ob man Freund oder Feind der Technologie ist. Es hängt davon ab, ob man weiß, was man eingibt, wohin es fließt und wie man prüft, was zurückkommt.
Es ist spät – und der Bericht ist nicht fertig
Es ist nach acht Uhr abends. Der Gutachterbericht für die Krankenkasse ist halbfertig. Sie sind müde. Der nächste Patient kommt morgen früh. Im Browser ist noch ein Tab offen – ChatGPT, von vorhin. Der Gedanke liegt nahe: Stichpunkte rein, Formulierung raus, fertig. Schnell, flüssig, überzeugend. Aber dürfen Sie das? Und sollten Sie das?
Dieser Artikel ist für Psychotherapeut:innen geschrieben, die darüber nachdenken, KI als Schreibhilfe zu nutzen. Er sagt nicht: Ja, machen. Er sagt auch nicht: Nein, lassen. Er sagt: Es kommt darauf an. Und er erklärt, worauf.
Drei Gesetze, die gleichzeitig gelten
Wenn Sie Patientendaten in ein KI-System eingeben, greifen drei Regeln gleichzeitig. Erstens: die Schweigepflicht. Sie dürfen Geheimnisse Ihrer Patient:innen nicht an Dritte weitergeben. Ein KI-Anbieter kann ein Dritter sein. Zweitens: der Datenschutz. Gesundheitsdaten sind besonders geschützt. Sie brauchen eine Rechtsgrundlage, wenn Sie sie verarbeiten. Drittens: das Berufsrecht. Sie müssen dokumentieren, was Sie tun. Und Sie sind verantwortlich für das, was in der Akte steht.
Das klingt kompliziert. Ist es auch. Aber die gute Nachricht: Man kann es sortieren.
Was macht Daten erkennbar?
Viele denken: Wenn ich den Namen weglasse, ist alles anonym. Das stimmt nicht. In der Psychotherapie beschreiben wir Menschen so genau, dass sie auch ohne Namen erkennbar sein können. Eine Frau, Ende dreißig, in leitender Position an einem Kulturbetrieb, die nach einem öffentlichen Vorfall in Behandlung kommt – das ist kein Name. Aber es ist ein Fingerabdruck.
Je mehr Details zusammenkommen, desto leichter kann jemand erkannt werden. Beruf, Alter, Wohnort, Beziehungsmuster, Krisenauslöser – einzeln harmlos, zusammen eindeutig. Das nennt man den biographischen Fingerabdruck. Er ist in psychotherapeutischen Texten fast immer vorhanden.
Ein Ampel-System: Was darf wohin?
Der Artikel schlägt ein Ampel-System mit zwölf Stufen vor. Die Idee ist einfach:
Grün – Kein Personenbezug. Sie fragen die KI nach einer Gliederung für den PTV-Bericht. Oder nach einer Formulierungshilfe für einen OPD-Konflikt, ohne biographische Details. Das ist unbedenklich. Das dürfen Sie überall machen.
Gelb – Wenig Personenbezug. Sie geben eine grob abstrahierte Fallskizze ein. Kein Name, kein Ort, keine identifizierbaren Details. Das geht, aber nur in einem System mit Vertrag und klaren Datenschutz-Regeln. Nicht in einem frei zugänglichen Chatbot.
Orange – Viel Personenbezug. Der Text enthält reiches klinisches Material, auch wenn der Name fehlt. Das geht nur in streng kontrollierten Systemen. Am besten lokal auf dem eigenen Rechner.
Rot – Voller Personenbezug. Name, Diagnosen, Termine, wörtliche Zitate. Das gehört nicht in ein externes KI-System. Punkt.
Die Regel ist: Je mehr über einen Menschen erkennbar ist, desto sicherer muss das System sein. Und im Zweifel gilt: weniger eingeben, nicht mehr.
Nicht jedes Tool ist gleich
Es gibt große Unterschiede zwischen KI-Systemen. Frei zugängliche Chatbots speichern Eingaben und nutzen sie möglicherweise zum Training. Enterprise-Versionen bieten Verträge und mehr Kontrolle. Manche deutsche Tools werben mit „Server in Deutschland“ – aber das allein reicht nicht. Man muss prüfen: Gibt es einen Vertrag? Wird mit den Daten trainiert? Wie lange werden sie gespeichert? Wer hat Zugriff?
Wenn ein Anbieter diese Fragen nicht klar beantwortet, ist das kein „vielleicht okay“. Das ist ein Warnsignal.
KI macht Fehler – auch wenn der Text gut klingt
Das größte Risiko ist nicht der Datenschutz. Es ist die Qualität. KI-Systeme erfinden manchmal Dinge. Sie schreiben Symptome hinzu, die nicht genannt wurden. Sie zitieren Leitlinien, die nicht existieren. Sie machen aus „möglicherweise Rückzug“ ein „ist depressiv“. Der Text klingt gut, aber er stimmt nicht.
Das ist gefährlich, weil es schwer zu bemerken ist. Ein schlecht formulierter Text fällt auf. Ein gut formulierter Text mit falschen Inhalten nicht. Deshalb gilt: Jeder KI-Text ist ein Entwurf. Nicht mehr. Sie müssen ihn prüfen, bevor er in die Akte kommt.
Weitere Risiken: KI kann abwertende Sprache verwenden, ohne dass es absichtlich wäre. Sie kann Informationen über Dritte übernehmen, die nicht in die Akte gehören. Und sie kann dazu verleiten, Verantwortung abzugeben: „Die KI hat das so formuliert.“ Das ist keine Entschuldigung. Sie unterschreiben den Text.
Wie man es richtig macht
Drei Schritte: Prüfen, prompten, reviewen.
Vor dem Prompt: Was will ich? Welches Tool darf ich nutzen? Welche Daten gebe ich ein? Habe ich alles Erkennbare entfernt?
Beim Prompt: Klar sagen, was die KI tun soll. Und klar sagen, was sie nicht tun soll: keine neuen Fakten erfinden, keine Quellen ausdenken, Unsicherheiten als Unsicherheiten markieren.
Nach dem Output: Jeden Fakt prüfen. Fehlt etwas Wichtiges? Steht etwas drin, das nicht stimmt? Klingt der Text sicherer, als die Datenlage hergibt? Sind abwertende Formulierungen drin? Wer unterschreibt am Ende?
Bei einfachen Texten reicht ein kurzer Check. Bei Gutachten sollte eine zweite Person drüberschauen.
Was bleibt
KI kann Psychotherapeut:innen bei der Dokumentation helfen. Sie kann Texte strukturieren, Formulierungen verbessern, Vorlagen erstellen. Das spart Zeit. Aber sie ersetzt nicht das klinische Urteil. Sie ersetzt nicht die Verantwortung. Und sie ersetzt nicht die Sorgfalt.
Drei Dinge sollten Sie sich merken: Erstens, das Risiko liegt nicht in der Technologie, sondern im Datenweg. Was geben Sie ein? Wohin fließt es? Wer hat Zugriff? Zweitens, „Name gelöscht“ heißt nicht „anonym“. Psychotherapeutische Texte sind fast immer erkennbar. Drittens, Qualitätssicherung ist Patientensicherheit. Jeder KI-Text muss geprüft werden, bevor er in die Akte kommt.
Wenn Sie diese drei Dinge beachten, können Sie KI verantwortlich nutzen. Wenn nicht, lassen Sie es lieber. Der Bericht kann auch morgen fertig werden.
Hinweis zur Einordnung und Haftung: Dieser Beitrag bietet eine fachlich informierte Orientierung an der Schnittstelle von Datenschutzrecht, Strafrecht, Berufsrecht und psychotherapeutischer Praxis. Er stellt keine Rechtsberatung dar und ersetzt nicht die Prüfung im Einzelfall durch eine qualifizierte Rechtsberatung. Der Text operiert auf drei Ebenen, die im Folgenden durchgängig unterschieden werden: (1) Gesichertes Recht – Gesetzestext und höchstrichterliche Rechtsprechung. (2) Autoritative Auslegung – Orientierungshilfen der Datenschutzkonferenz (DSK), Leitlinien des Europäischen Datenschutzausschusses (EDPB), Richtlinien der Kassenärztlichen Bundesvereinigung (KBV). Diese sind keine Gesetze, aber maßgebliche Behördeninterpretationen. (3) Eigene Subsumtion – die Anwendung dieser Normen auf den konkreten Gegenstand „KI-Textassistenz in der psychotherapeutischen Praxis“. Zu diesem spezifischen Anwendungsfeld gibt es bislang weder Rechtsprechung noch abschließende Behördenpositionen; die hier vorgenommene Einordnung ist die des Autors. Stellen, an denen die dritte Ebene besonders prägend ist, werden im Text durch Wendungen wie „nach hier vertretener Auffassung“, „m. E.“ oder „nach der hier vorgeschlagenen Einordnung“ kenntlich gemacht. Der Autor übernimmt keine Haftung für Entscheidungen, die auf Grundlage dieses Beitrags getroffen werden.
Eine Abendszene: wenn der Bericht nicht fertig wird
Es ist nach 20 Uhr. Der Praxisraum ist längst still, der Computer nicht. Auf dem Bildschirm ein halbfertiger Bericht: Biografie, Symptomatik, Psychodynamik – und diese merkwürdige Mischung aus Nähe und Formalität, die Gutachtertexte so unerquicklich macht. Man weiß, was man meint, aber nicht, wie man es auf gutachtertaugliche Art so formuliert, dass es weder übergriffig noch wolkig klingt.
Und dann ist da noch dieser Browser-Tab: ChatGPT, offen geblieben von der Recherche heute Nachmittag. Ach, das mach ich schnell mit der KI.
Ein Klick – und plötzlich ist da ein Dritter im Raum. Nicht als Mensch, nicht als Kollege, nicht als Supervisor. Sondern als Cloud-Instanz: unsichtbar, freundlich, schnell, ohne Ermüdung. In einem alten Film würde er vermutlich „Der Dritte Mann“ heißen – nur dass er nicht in Wien unter Kanaldeckeln verschwindet, sondern in Logfiles, Trainingspipelines und Subprozessor-Listen.
Die Versuchung ist banal: Es geht ja nur um Formulierungen. Die Gefahr ist auch banal: Es geht eben nie nur um Formulierungen.
Der PTV-3-Leitfaden verlangt für den Erstantrag sieben Punkte – von den soziodemographischen Daten über Symptomatik und Befund bis zur Psychodynamik, Diagnose und Prognose. Das ist keine Schreibarbeit, das ist Verdichtungsarbeit: Monate analytischer Beziehungserfahrung müssen in eine Form gebracht werden, die ein Gutachter lesen, prüfen und bewilligen kann. Eine wachsende Zahl von Kolleg:innen nutzt generative KI-Systeme für genau diese Aufgaben – meist ohne klares Bild davon, welche Daten dabei wohin fließen.
Der Rest dieses Textes ist der Versuch, diese Banalität ernst zu nehmen – ohne Alarmismus, aber auch ohne naives „Wird schon passen“. Ich schlage einen risikobasierten Orientierungsrahmen vor, der eine einzige Leitfrage operationalisiert: Welche KI-Nutzung ist bei welchen Daten in welchem Tool-Setup vertretbar – und wo beginnt der Bereich, in dem es datenschutz-, schweigepflicht- und berufsrechtlich kippt?
Die Antwort ist nicht binär. Zwischen „unbedenklich“ und „strafbar“ liegt ein breites Feld, das sich kartieren lässt. Ich werde zeigen, dass die entscheidende Variable nicht „KI“ ist, sondern der Datenweg: Was genau wird eingegeben? Wohin geht es? Wer kann darauf zugreifen? Wie lange bleibt es gespeichert? Und vor allem: Wie identifizierbar ist das, was man für „anonymisiert“ hält?
Drei Normschichten, ein Problem
Wenn Kolleg:innen über „Datenschutz“ sprechen, meinen sie oft „DSGVO“. In der Psychotherapie ist das aber nur eine Schicht. Darunter und darüber liegen mindestens zwei weitere – und genau die machen KI-Nutzung so tückisch, weil jede ihre eigene Logik hat. Alle drei müssen gleichzeitig erfüllt sein – es genügt nicht, nur eine zu beachten.
Die Schweigepflicht: § 203 StGB
Die älteste und härteste Norm ist die strafbewährte Schweigepflicht. § 203 StGB stellt das unbefugte „Offenbaren“ fremder Geheimnisse unter Strafe – mit Freiheitsstrafe bis zu einem Jahr oder Geldstrafe (Bundesministerium der Justiz, o. J.-a). Psychotherapeut:innen gehören als Berufsgeheimnissträger:innen zum geschützten Personenkreis.
Die zentrale Frage lautet: Ist die Eingabe von Patienteninhalten in ein extern betriebenes KI-System ein „Offenbaren“ im Sinne des Gesetzes? Nach hier vertretener Auffassung tendiert die Antwort Richtung Ja. „Offenbaren“ setzt voraus, dass ein Dritter Kenntnis erlangen kann – nicht, dass er es tatsächlich tut. Bei Cloud-basierten Sprachmodellen ist genau das naheliegend: Prompt-Historien können in Logs gespeichert, von Support-Mitarbeiter:innen eingesehen, für Modellverbesserungen genutzt oder in Drittländer übertragen werden (vgl. dazu die Analyse typischer Retention- und Zugriffslogiken bei EDPB Support Pool of Experts, 2024).
Die 2017er Neufassung des § 203 erlaubt die Einbindung „sonstiger mitwirkender Personen“ – etwa IT-Dienstleister –, setzt aber voraus, dass diese sorgfältig ausgewählt, schriftlich zur Geheimhaltung verpflichtet und überwacht werden (Bundesministerium der Justiz, o. J.-a; Psychotherapeutenkammer Bayern, 2014, § 8). In Bayern verlangt die Berufsordnung die schriftliche Verschwiegenheitsverpflichtung auch für sonstige Mitwirkende und fordert eine strikte Beschränkung der Informationsweitergabe auf das Erforderliche (Psychotherapeutenkammer Bayern, 2014). Für einen US-amerikanischen KI-Anbieter im Consumer-Tarif ist diese Kette m. E. kaum herstellbar.
Vier typische Fallstricke verdienen besondere Aufmerksamkeit: Erstens die Prompt-History als Dauer-Offenbarung: Wenn Eingaben dauerhaft gespeichert oder zur Modellverbesserung genutzt werden, ist die Offenbarung nicht punktuell, sondern strukturell (vgl. Datenschutzkonferenz, 2024, Abschn. 4). Zweitens Subprozessor-Ketten: Hosting, Monitoring und Support können faktisch weitere Zugangspunkte darstellen; ohne vertragliche und technische Kapselung ist das §-203- und Art.-28-kritisch (Europäisches Parlament & Rat, 2016, Art. 28). Drittens: „Pseudonymisiert“ ist nicht automatisch „nicht geheim“ – berufsrechtlich fordert Bayern für Supervision und Lehre Anonymisierung in einem strengen Sinn: Es dürfen „keinerlei Rückschlüsse“ möglich sein (Psychotherapeutenkammer Bayern, 2014, § 8). Viertens: Ein LLM ist keine kollegiale Beratung im Sinne menschlicher Berufsbindung; wer es für Supervision nutzt, erhöht die Rechtfertigungslast gegenüber Kammer und Staatsanwaltschaft.
Der Datenschutz: DSGVO
Die zweite Normschicht ist das Datenschutzrecht. Psychotherapeutische Dokumentation enthält regelmäßig Gesundheitsdaten im Sinne von Art. 9 DSGVO – eine „besondere Kategorie personenbezogener Daten“, deren Verarbeitung grundsätzlich verboten ist und nur unter engen Ausnahmen zulässig wird (Europäisches Parlament & Rat, 2016, Art. 9 Abs. 1–2). Die Eingabe in ein KI-System ist eine Verarbeitung. Die Übermittlung an einen Cloud-Dienst eine weitere. Für beides braucht es eine Rechtsgrundlage, eine Zweckbestimmung und angemessene technisch-organisatorische Maßnahmen.
Fünf DSGVO-Bausteine sind für die Praxis besonders relevant:
Grundsätze (Art. 5): Zweckbindung verlangt, dass die KI-Nutzung einem klar definierten Zweck dient, nicht bloß „praktisch“ ist. Datenminimierung verlangt, dass nur die für diesen Zweck erforderlichen Daten eingegeben werden – keine vollständigen Sitzungsprotokolle, wenn es um Formulierungshilfe geht. Die Rechenschaftspflicht verlangt, dass diese Abwägung dokumentiert werden kann (Europäisches Parlament & Rat, 2016, Art. 5).
Auftragsverarbeitung (Art. 28): Wird ein externer KI-Dienst genutzt, ist zu prüfen, ob der Anbieter als weisungsgebundener Auftragsverarbeiter eingebunden werden kann. Voraussetzung ist ein Auftragsverarbeitungsvertrag (AVV), der Subprozessoren, Löschung, Retention, technische Maßnahmen und Weisungsrechte regelt. Bei „offenen“ Systemen, die Eingaben zum Training nutzen, kann der Anbieter zum (Mit-)Verantwortlichen werden – was die Compliance-Anforderungen zusätzlich erhöht (Europäisches Parlament & Rat, 2016, Art. 28; Datenschutzkonferenz, 2024, Abschn. 4).
Technisch-organisatorische Maßnahmen (Art. 32): Die Sicherheitsanforderungen müssen risikobezogen bestimmt werden. Für KI-Systeme heißt das: Nicht nur Verschlüsselung und Zugriffskontrollen, sondern auch Schutz vor Datenabfluss über Logs, Fehlkonfigurationen, zu weite Admin-Zugriffe und promptbasierte Extraktion (Europäisches Parlament & Rat, 2016, Art. 32; EDPB Support Pool of Experts, 2024, Kap. 3–4).
Datenschutz-Folgenabschätzung (Art. 35): Bei KI-Nutzung mit Gesundheitsdaten ist eine DSFA nach hier vertretener Auffassung vielfach verpflichtend. Die WP29-Leitlinien nennen neun Kriterien, von denen „innovative Technologie“, „schutzbedürftige Betroffene“ und „vertrauliche/höchst persönliche Daten“ im psychotherapeutischen Kontext regelmäßig kumulativ erfüllt sind – was nach den Leitlinien „in den meisten Fällen“ eine DSFA-Pflicht nahelegt (Working Party 29, 2017, S. 10–11). Ergänzend führen deutsche Aufsichtsbehörden KI-gestützte Konversationssysteme als typisches DSFA-Feld auf (Datenschutzkonferenz, 2018).
Drittlandtransfer (Art. 44 ff.): Sobald Daten den EWR verlassen oder ein Zugriff aus einem Drittland erfolgt, greifen die Voraussetzungen des Kapitels V der DSGVO (Europäisches Parlament & Rat, 2016, Art. 44). Der EU-US Data Privacy Framework (DPF) bildet seit Juli 2023 eine Rechtsgrundlage für Transfers an DPF-zertifizierte US-Unternehmen; das Gericht der Europäischen Union hat den Angemessenheitsbeschluss im September 2025 bestätigt. Gleichwohl bleibt politische Fragilität: Die dem DPF zugrunde liegende Executive Order könnte aufgehoben werden. Die EDPB-Empfehlungen 01/2020 operationalisieren das Vorgehen: Transfers vollständig kennen und mappen, Transferinstrument bestimmen, Wirksamkeit prüfen, gegebenenfalls zusätzliche Maßnahmen implementieren – oder den Transfer aussetzen (EDPB, 2021, Kap. 2–4). Praxen, die sich auf den DPF verlassen, sollten die zusätzliche Absicherung durch Standardvertragsklauseln m. E. nicht unterlassen.
Die Datenschutzkonferenz hat 2024 und 2025 in mehreren Orientierungshilfen die Erwartungen an verantwortliche Stellen konkretisiert: Die Orientierungshilfe KI und Datenschutz (Datenschutzkonferenz, 2024) unterscheidet praktisch zwischen „offenen“ und „geschlossenen“ Systemen und warnt vor unkontrolliertem Training und Prompt-Retention. Die Orientierungshilfe zu technisch-organisatorischen Maßnahmen bei KI-Systemen (Datenschutzkonferenz, 2025a) fordert Lebenszyklusbetrachtung von der Dateneingabe bis zur Löschung. Die Orientierungshilfe zu generativen Systemen mit RAG-Methode (Datenschutzkonferenz, 2025b) adressiert Mandantentrennung, Persistenzprobleme und Halluzinationsrisiken. Gemeinsamer Nenner: Zweckfestlegung vor Nutzung, keine Eingabe personenbezogener Daten in offene Systeme, kritische Prüfung der Ergebnisse, Dokumentation der Abwägung.
Berufsrecht und Dokumentationsrecht
Die dritte Normschicht ist das berufsrechtliche Gefüge. Die Berufsordnungen der Psychotherapeutenkammern konkretisieren die Schweigepflicht und fordern für Supervision und Intervision explizit Anonymisierung in einem strengen Sinne: Es dürfen „keinerlei Rückschlüsse“ auf die betroffene Person möglich sein; wenn Anonymisierung nicht sicher gelingt, braucht es eine ausdrückliche Entbindung (Psychotherapeutenkammer Bayern, 2014, § 8; vgl. Bundespsychotherapeutenkammer, 2018). Die Muster-Berufsordnung der BPtK spiegelt die gleichen Kernpflichten: Schweigepflicht, Dokumentation, Datensicherheit (Bundespsychotherapeutenkammer, 2018).
Dokumentationsrechtlich verlangt § 630f BGB die zeitnahe Dokumentation der Behandlung und fordert, dass Änderungen so erfolgen, dass der ursprüngliche Inhalt erkennbar bleibt (Bundesministerium der Justiz, o. J.-b). Das hat direkte Konsequenzen für KI-gestützte Texte: Wenn ein generatives Modell einen Entwurf liefert, der dann überarbeitet wird, muss die Endfassung als von der behandelnden Person verantworteter Text erkennbar sein – nicht als KI-Output. § 630g BGB gewährt Patient:innen ein Einsichtsrecht in die Dokumentation; der EuGH hat in der Rechtssache C-307/22 bestätigt, dass die Kopie medizinischer Unterlagen nach Art. 15 DSGVO unentgeltlich bereitzustellen ist.
Die KBV hat ergänzend eine IT-Sicherheitsrichtlinie nach § 390 SGB V erlassen, die Cloud-Anwendungen unter konkrete Mindestanforderungen stellt (Kassenärztliche Bundesvereinigung, 2025a). Die dort geforderten Nachweise und Prüfprozesse für Cloud-Dienste bilden den naheliegenden sektoralen Unterbau für die Argumentation zu technisch-organisatorischen Maßnahmen nach Art. 32 DSGVO. Im Dezember 2025 hat die KBV zudem ein PraxisWissen-Heft zu Künstlicher Intelligenz veröffentlicht, das Hinweise zum Einsatz in Praxen enthält (Kassenärztliche Bundesvereinigung, 2025b).
Der EU AI Act: Governance-Folie, nicht Papiertiger
Seit Februar 2025 ist die EU-KI-Verordnung schrittweise in Kraft; der Großteil der Pflichten greift ab dem 2. August 2026 (Europäisches Parlament & Rat, 2024, Art. 113). Für die niedergelassene Praxis ist die typische Rolle nicht „Anbieter“ eines KI-Systems, sondern „Betreiber“ – also Nutzer eines eingekauften Systems. Die detaillierten Betreiberpflichten beziehen sich auf Hochrisiko-KI-Systeme: menschliche Aufsicht, Monitoring, Protokollaufbewahrung (Europäisches Parlament & Rat, 2024, Art. 26).
Für „LLM als Schreibassistenz“ ist Hochrisiko m. E. im Regelfall nicht einschlägig – es sei denn, die KI steuert nicht nur Formulierungen, sondern automatisierte Bewertungen oder Selektionsentscheidungen mit erheblichen Auswirkungen. Relevant bleibt jedoch die AI-Literacy-Pflicht (Art. 4): Anbieter und Betreiber müssen sicherstellen, dass Personal, das mit KI-Systemen arbeitet, über ausreichende Kompetenz verfügt (Europäisches Parlament & Rat, 2024, Art. 4). Das ist keine Bürokratiehülse, sondern eine Selbstverpflichtung: Wer KI nutzt, muss verstehen, was dabei geschieht – technisch, rechtlich und klinisch.
Übersicht: Normen-Landkarte
Die folgende Tabelle fasst die relevanten Normen in ihrem Kern zusammen. Sie erhebt keinen Anspruch auf Vollständigkeit, sondern dient als Orientierung für die spätere Stufenlogik.
| Norm / Quelle | Kerninhalt | Relevanz für KI-Nutzung |
|---|---|---|
| § 203 StGB | Strafbewehrte Schweigepflicht; unbefugtes Offenbaren = bis 1 Jahr Freiheitsstrafe | Externes LLM = „Dritter“; Offenbarung naheliegend bei unkontrollierter Retention/Training |
| DSGVO Art. 9 | Gesundheitsdaten: grundsätzlich Verarbeitungsverbot mit engen Ausnahmen | Psychotherapeutische Texte sind regelmäßig Art.-9-Material |
| DSGVO Art. 5 | Zweckbindung, Datenminimierung, Rechenschaftspflicht | KI-Nutzung muss zweckgebunden, dokumentiert und minimal sein |
| DSGVO Art. 28 | Auftragsverarbeitung: AVV, Subprozessoren, Weisungsrecht | AVV für KI-Anbieter Pflicht; Training/Retention prüfen |
| DSGVO Art. 32 | Technisch-organisatorische Maßnahmen risikobasiert | Schutz vor Log-Abfluss, Prompt-Extraktion, Fehlkonfiguration |
| DSGVO Art. 35 | DSFA bei voraussichtlich hohem Risiko | Bei KI + Gesundheitsdaten m.E. vielfach verpflichtend |
| DSGVO Art. 44 ff. | Drittlandtransfer nur bei Angemessenheit/Garantien | US-Cloud: DPF-Status + SCC + Supplementary Measures prüfen |
| BGB § 630f/g | Zeitnahe Dokumentation; Änderungen nachvollziehbar; Einsichtsrecht | KI-Output = Entwurf, nicht Akte; Versionierung im PVS |
| BO PTK Bayern § 8 | Schweigepflicht; Anonymisierung in Supervision; schriftl. Bindung Dritter | LLM-Nutzung ist keine „kollegiale Beratung“; strenge Anonymisierungsschwelle |
| KBV IT-SiRL § 390 | Cloud-Governance; Mindest-IT-Sicherheit | Sektoraler Unterbau für Art.-32-TOMs bei Cloud-LLMs |
| AI Act Art. 4 | AI-Literacy-Pflicht für Betreiber | Wer KI nutzt, muss verstehen, was geschieht |
| DSK OH KI 2024 | „Offene“ vs. „geschlossene“ Systeme; Warnung vor Training/Retention | Consumer-LLMs = „offen“; keine Patientendaten |
| EDPB Opinion 28/2024 | KI-Modelle und personenbezogene Daten; Zweck-/Schutzkonzepte | „Das Modell ist anonym“ ist keine Compliance-Abkürzung |
Zwischenfazit: Drei Logiken, die gleichzeitig passen müssen
Die drei Normschichten sind nicht alternativ, sondern kumulativ. Ein AVV mit einem KI-Anbieter löst das DSGVO-Problem der Auftragsverarbeitung, aber nicht automatisch das Schweigepflichtproblem. Eine Einwilligung der Patient:in in die Datenverarbeitung befreit nicht von der strafbewährten Schweigepflicht, wenn die technische Absicherung fehlt. Berufsrechtliche Anonymisierungspflichten können strenger sein als das, was die DSGVO als „Pseudonymisierung“ genügen lässt.
Oder, als Merksatz: § 203 fragt nach Offenbarung, die DSGVO nach Rechtmäßigkeit, das Berufsrecht nach Anonymisierung – und alle drei müssen gleichzeitig passen. Die Praxis braucht deshalb ein Instrument, das alle drei Schichten gleichzeitig adressiert. Das ist das Stufenmodell, das ich im Folgenden entwickle.
Pseudonymisiert ist nicht anonym – und der biographische Fingerabdruck
Der häufigste Denkfehler in der Praxis lautet: „Ich habe den Namen entfernt, also ist es anonymisiert.“ Das ist falsch – und zwar nicht nur technisch, sondern rechtlich belastbar falsch.
Begriffsfeld: Anonymisierung, Pseudonymisierung, De-Identifikation
Anonymisierung bedeutet, dass die betroffene Person „nicht oder nicht mehr identifizierbar“ ist – unter Berücksichtigung „aller Mittel, die vernünftigerweise eingesetzt werden können“ (Europäisches Parlament & Rat, 2016, ErwG 26). Erst dann fallen die Daten aus dem DSGVO-Regime heraus.
Pseudonymisierung (Art. 4 Nr. 5 DSGVO) bedeutet, dass Zusatzinformationen getrennt gehalten werden – die Daten bleiben aber personenbezogen, die DSGVO gilt weiter. Der EDPB hat 2025 nochmals klargestellt: Pseudonymisierte Daten bleiben personenbezogen, selbst wenn die Zusatzinformationen bei einer anderen Stelle liegen (EDPB, 2025).
De-Identifikation ist kein DSGVO-Rechtsbegriff, sondern ein Sammelbegriff für Techniken, die direkte und indirekte Identifikatoren entfernen oder verändern. Je nach Qualität kann das Ergebnis Pseudonymisierung oder Anonymisierung sein – die Prüfung muss im Einzelfall erfolgen.
Drei Wege zur Re-Identifizierung
Für psychotherapeutische Texte ist die Unterscheidung zwischen Anonymisierung und Pseudonymisierung besonders brisant, weil Identifizierbarkeit in narrativen Kontexten nicht an einem einzelnen Datum hängt, sondern an Konstellationen. Die frühere Art.-29-Datenschutzgruppe hat drei Re-Identifizierungsrisiken beschrieben, die für therapeutische Texte wie maßgeschneidert sind (Article 29 Working Party, 2014):
Singling out – eine Person aus einem Datensatz herausgreifen können. Bereits drei Quasi-Identifikatoren (Geschlecht, Altersbereich, Berufsfeld) reichen in Kombination häufig aus, um eine Person in einem überschaubaren Umfeld eindeutig zuzuordnen (Sweeney, 2000).
Linkability – Datensätze miteinander verknüpfen. Spatio-temporale Marker (Ort plus Zeitpunkt plus Kontext) erzeugen hohe Unizität, wie die Re-Identifizierungsforschung empirisch gezeigt hat (de Montjoye et al., 2013).
Inference – Rückschlüsse auf eine Person ziehen. In psychodynamischen Texten ist das besonders relevant: Die Konstellation aus Beziehungsmuster, Abwehrorganisation, Krisenauslöser und biographischen Landmarken kann so spezifisch sein, dass sie wie ein Fingerabdruck wirkt – auch ohne Klarnamen.
Der biographische Fingerabdruck im Gutachterbericht
Genau das geschieht zum Beispiel in einem Gutachterbericht. Punkt 4 des PTV-3-Leitfadens – „Behandlungsrelevante Angaben zur Lebensgeschichte und zur Psychodynamik“ (in TP und AP) – verlangt eine Verdichtung biographischer und klinischer Informationen, die strukturell re-identifizierend wirkt. Nicht durch den Namen, sondern durch die Konstellation: Herkunftsfamilie, zentrale Beziehungserfahrungen, Konflikte, Abwehrorganisation, berufliche Entwicklung, Krisenauslöser. Dieses Geflecht ist der biographische Fingerabdruck – und er ist häufig einzigartig.
Drei konstruierte Vignetten sollen zeigen, wo der Kipppunkt liegt. Sie orientieren sich an der Struktur eines typischen PTV-Punkt-4-Texts und variieren ausschließlich den Grad der Abstraktion. Die Frage ist jedes Mal: Könnte jemand, der die Person kennt, sie wiedererkennen?
Vignette A – Abstrakt genug: kein Fingerabdruck
Erwachsene Person mittleren Alters mit depressiver Symptomatik auf dem Boden einer überwiegend narzisstischen Persönlichkeitsorganisation (OPD-Strukturniveau: mäßig integriert). Leitkonflikt: Selbstwert vs. Objektwert. Beziehungsgestaltung gekennzeichnet durch Überanpassung an idealisierte Objekte bei gleichzeitiger Entwertungstendenz gegenüber als defizitär erlebten Beziehungspartnern. Auslöser: berufliche Krisensituation.
Diese Formulierung bewegt sich auf der Ebene klinischer Kategorien. Kein Alter, kein Geschlecht, keine Branche, kein Ort, kein konkretes Ereignis. Die Beschreibung trifft auf Hunderte von Fällen zu. Singling out, linkability und inference sind nach hier vertretener Auffassung nicht plausibel. Das darf in ein KI-System – auch in ein Consumer-Tool, wenn es um reine Formulierungshilfe geht.
Vignette B – Grauzone: Merkmalskombination als Risikoverstärker
Frau, Ende 30, in leitender Position in einer kreativen Branche, alleinerziehend. Lebensgeschichtlich prägend: früher Verlust der Mutter in der Adoleszenz, Parentifizierung gegenüber jüngerem Geschwisterkind, narzisstisch bedürftige Vaterbeziehung. Aktueller Auslöser: Zusammenbruch der beruflichen Idealisierung nach Umstrukturierung. Konflikt: Versorgung vs. Autarkie. Depressive Dekompensation mit regressiven Tendenzen.
Hier fehlen Klarname, Adresse, Arbeitgeber. Und doch: „Ende 30, leitende Position, kreative Branche, alleinerziehend, Mutterverlust in der Adoleszenz“ – diese Kombination reduziert die in Frage kommende Population drastisch. In einer kleineren Stadt, in einem überschaubaren Berufsfeld ist das möglicherweise eine einzige Person. Die Re-Identifizierungsforschung zeigt: Bereits drei Quasi-Identifikatoren können in Kombination mit einem seltenen Marker ausreichen (Sweeney, 2000). Hier beginnt die Grauzone, die sorgfältige Abwägung und ein kontrolliertes Tool-Setup verlangt.
Vignette C – Der Fingerabdruck: praktisch identifizierend
Frau M., 38, Architektin in einem renommierten Münchner Büro, berichtet von einem Zusammenbruch im vergangenen Herbst nach der Kündigung durch ihren langjährigen Mentor. In der Sitzung sagt sie wörtlich: „Ich habe alles für diesen Mann getan, und am Ende war ich nichts.“ Die Mutter starb, als die Patientin 14 war. Der Vater, selbst Architekt, überließ ihr die Verantwortung für die jüngere Schwester. Die Patientin inszeniert in der Übertragung eine Idealisierung des Therapeuten bei gleichzeitiger Angst vor Enttäuschung.
Klarname, Alter, Beruf, Stadt, konkreter Arbeitgeber-Typus, Jahreszeitanker, wörtliches Zitat, identifizierbare Dritte (Vater, Schwester, Mentor), spezifische Verlustgeschichte. Wer Frau M. kennt, erkennt sie sofort. Aber auch ohne den Namen: In einem überschaubaren Berufsfeld ist „38, Architektin, München, Kündigung nach langer Zusammenarbeit“ möglicherweise bereits eindeutig (vgl. Sweeney, 2000; de Montjoye et al., 2013). Das darf unter keinen Umständen in ein externes KI-System.
Grenzfälle: Wo das Kippen beginnt
Die Bewegung von A nach C zeigt die Kernlogik: Nicht ein einzelnes Merkmal macht den Fingerabdruck, sondern die Konstellation. Und genau das macht psychodynamische Texte besonders riskant – denn die Psychodynamik ist Konstellation.
Zwei Borderline-Fälle verdienen besondere Aufmerksamkeit:
OPD-Formulierung mit und ohne Lebenswelt. Eine reine OPD-Konflikt-/Strukturformulierung („Konflikt: Abhängigkeit vs. Autarkie; Struktur: mittlere Integration“) ist nach hier vertretener Auffassung nicht re-identifizierend – sie beschreibt einen Typus, keine Person. Sobald jedoch biographisch konkrete Szenen hinzutreten (Arbeitsplatz, Institution, Datum), kippt sie in den Graubereich. Die Risikoreduktion ist einfach: Lebensweltanker entfernen, nur Funktions- und Beziehungsbeschreibung in generischen Termen.
„Altersspanne + Beruf + Ereignis“. Die Kombination „Ende 30, leitende Funktion in einem sehr spezifischen Kulturhaus, nach einem öffentlich bekannten Vorfall“ erzeugt hohe Unizität, weil lokale Ereignisse wie „Zeit-Ort-Punkte“ wirken. Die Risikoreduktion: Beruf zu Berufsgruppe, Ereignis zu Kategorie, Ort zu Region, Datum zu Jahr (vgl. Article 29 Working Party, 2014; Meystre et al., 2010).
Oder, als Grundregel: So wie wir nicht jede Angst „Panik“ nennen sollten, sollten wir nicht jede Namensentfernung „Anonymisierung“ nennen. Die Prüfung muss feingliedriger sein – und genau dafür braucht es das Stufenmodell, das im nächsten Kapitel entwickelt wird.
Das Stufenmodell: Welche Daten dürfen wohin?
Wer nach der Lektüre des vorigen Kapitels den Eindruck hat, dass „Name weg“ nicht genügt, hat verstanden, warum ein feingliedrigeres Instrument nötig ist. Das folgende Stufenmodell ordnet psychotherapeutisches Textmaterial in zwölf Stufen (T0–T11) – nicht nach einem einzelnen Merkmal, sondern nach fünf Dimensionen, die zusammen bestimmen, wie riskant die KI-Verarbeitung ist.
Fünf Dimensionen statt einer Faustregel
Das Modell stützt sich auf fünf Dimensionen, die aus der DSGVO-Logik abgeleitet sind (Europäisches Parlament & Rat, 2016, insb. Art. 5, 9, ErwG 26; Article 29 Working Party, 2014). Sie sind als qualitative Prüfkriterien gedacht, nicht als numerisches Scoring – die Feinheit liegt im Urteilen, nicht im Rechnen:
Identifizierbarkeit – Wie leicht kann eine konkrete Person herausgegriffen oder zugeordnet werden? Hier wirken die drei Re-Identifizierungsrisiken (singling out, linkability, inference) zusammen mit dem Maßstab der „vernünftigerweise einsetzbaren Mittel“ (ErwG 26; Article 29 Working Party, 2014). Drei Quasi-Identifikatoren plus ein seltener Marker können ausreichen (Sweeney, 2000).
Sensitivität – Wie hoch ist das Schadenspotenzial bei Offenlegung? Orientiert an Art. 9 DSGVO und dem psychotherapeutischen „Intimitätsgrad“: Allgemeine Symptomkategorien sind weniger brisant als Trauma-, Suizidalitäts- oder forensische Inhalte; Drittbetroffenheit (Partner, Kinder, Arbeitgeber) erhöht die Sensitivität zusätzlich.
Kontextnähe – Wie nah ist das Material an konkreten Lebensweltmarkern (Zeit, Ort, Institution, Medienereignis)? Spatio-temporale Marker erzeugen hohe Unizität – wenige Punkte genügen (de Montjoye et al., 2013). Die Faustregel: Je konkreter Ort und Zeit, desto höher das Risiko.
Datenmenge – Wie viel Material fließt ein? Ein Stichwort-Tripel ist etwas anderes als ein kompletter Gutachtenentwurf. Mehr Text erhöht singling out und linkability und erlaubt stilometrische Rekonstruktion (vgl. Narayanan & Shmatikov, 2008).
Persistenz – Wie lange und wo wird das Material gespeichert? Flüchtige lokale Verarbeitung ohne Logs ist etwas anderes als Cloud-Speicherung mit unklarer Retention. Die DSK betont die Lebenszyklusbetrachtung von der Dateneingabe bis zur Löschung (Datenschutzkonferenz, 2025a). Unkontrollierte Persistenz – Prompt-Logs, Backups, Trainingspipelines – kann selbst bei moderater Identifizierbarkeit toxisch werden.
Die entscheidende Einsicht ist: Nicht eine einzelne Dimension bestimmt das Risiko, sondern die Kombination. Ein OPD-Stichpunkt (niedrige Identifizierbarkeit, niedrige Kontextnähe) in einem Consumer-Chatbot (hohe Persistenz) ist etwas anderes als derselbe Stichpunkt auf einem lokalen Rechner. Ein biographischer Marker (hohe Kontextnähe) in einem Enterprise-System mit AVV und 30-Tage-Löschung ist etwas anderes als im selben System ohne AVV.
Zwölf Stufen: von generisch bis unvertretbar
Die folgende Taxonomie ordnet psychotherapeutisches Textmaterial in zwölf Stufen. Jede Stufe beschreibt ein typisches Datenprofil, nicht einen einzelnen Text – derselbe Bericht kann je nach Bearbeitungsgrad auf unterschiedlichen Stufen landen. Die Zuordnung ist nach hier vertretener Auffassung ein Orientierungsinstrument, kein Automat: Sie ersetzt nicht die Einzelfallprüfung, strukturiert sie aber.
Die Stufen sind in vier farbcodierte Zonen gruppiert, die die praktische Handlungslogik verdichten:
Grün – Ohne Bauchschmerzen (T0–T1)
T0 – Nicht-personenbezogen, rein generisch. Kein Fallbezug, keine Praxis-Interna. Beispiele: „Formuliere einen neutralen Absatz zur Indikation einer tiefenpsychologisch fundierten Psychotherapie“; Gliederungsvorschläge für PTV-Berichte; psychoedukative Standardtexte. Alle fünf Dimensionen auf Minimum. Darf in alle Systeme, einschließlich Consumer-LLMs. Das Risiko ist hier ausschließlich ein Qualitätsrisiko (Halluzination, Fehlberatung), kein Datenschutzrisiko (vgl. Datenschutzkonferenz, 2024, Abschn. 4).
T1 – Effektiv anonymisiert, stark aggregiert oder abstrahiert. Verdichtete, nicht herausgreifbare Informationen ohne seltene Marker oder Szenen. Beispiele: Supervisionsnotizen in vollständig abstrahierter Form („In einer Stichprobe ambulanter Fälle traten häufig Konflikte auf der Achse Abhängigkeit/Autarkie auf“); Qualitätszirkel-Statistiken ohne Ausreißer. Darf in alle Systeme. Restrisiko: Inference bei sehr kleinen Gruppen oder Ausreißern – die Literatur warnt vor „anonymity-washing“ (Ohm, 2010; NIST, 2015). Empfohlene Kontrolle: bei kleinen Praxen prüfen, ob Ausreißer-Fälle die Anonymität unterlaufen.
Gelb – Nur mit konsequenter Abstraktion (T2–T3)
T2 – Niedrig re-identifizierbar, „klinisch grob“ pseudonymisiert. Fallbezug vorhanden, aber konsequent abstrahiert: keine Orte, keine Daten, keine Originalzitate, keine seltene Kombination. Quasi-Identifikatoren nur grob. Beispiel: „Erwachsene Person, depressive Symptomatik, Arbeitskonflikte, keine Orts-/Datumsdetails“ – im Wesentlichen das, was Vignette A zeigt. Vertretbar in Business-/Enterprise-LLMs mit AVV oder in DACH-Spezialtools mit überprüfbaren TOMs. DSGVO gilt weiter (Gesundheitsdaten, Pseudonymisierung), aber §-203-Risiko ist m. E. gering, wenn Re-Identifizierung nicht plausibel wird (Europäisches Parlament & Rat, 2016, Art. 4 Nr. 5; EDPB, 2025).
T3 – Moderat re-identifizierbar durch Kombinationen. Kein Klarname, aber genug Quasi-Identifikatoren, dass indirekte Identifizierung plausibel wird. Beispiel: „Ende 30, leitende Position in spezifischem Kulturbetrieb, öffentlich bekannter Vorfall“ – das Gebiet von Vignette B. Nur in kontrollierten Setups mit AVV, No-Training-Zusage und Retention-Kontrolle. Linkage-Angriffe über externe Wissensquellen werden bei dieser Merkmalsdichte relevant (Sweeney, 2000; de Montjoye et al., 2013). Empfohlene Risikoreduktion: Beruf zu Berufsgruppe, Ereignis zu Kategorie, Ort zu Region, Datum zu Jahr (vgl. Article 29 Working Party, 2014).
Orange – Nur in High-Control-Setups (T4–T6)
T4 – Hochwertige klinische Darstellung ohne direkte Identifikatoren. Reiches Fallmaterial: detaillierte Psychodynamik, Prozessmaterial, Konflikt-/Strukturhypothesen mit Therapieverlauf – aber keine konkreten Orts-/Datums-/Institutionsanker und keine wörtliche Rede. Die narrative Unizität steigt: Der Text wird „wiedererkennbar“, auch ohne Namen (vgl. Narayanan & Shmatikov, 2008). Nur lokale Systeme oder streng isolierte Enterprise-Umgebungen; DSFA naheliegend (Art. 35 DSGVO). Empfohlene Kontrolle: Segmentierung in Minimalpakete (Task-Splitting), keine Langzeitlogs.
T5 – Hoch re-identifizierbar durch Szenik, Dritte, zeit-/ortnahe Marker. Wörtliche Rede, konkrete Ereignisketten, identifizierbare Dritte („einzige X im Ort“), seltene Lebensereignisse. Hier kippt es: Singling out wird wahrscheinlich, §-203-Risiko steigt, weil „fremde Geheimnisse“ faktisch offenbart werden können (Bundesministerium der Justiz, o. J.-a). Nur lokal und nur mit vorheriger De-Identifikation auf T2-Niveau. Empfohlene Kontrolle: systematische Entnennung aller Dritten, Entfernen wörtlicher Rede, Elimination seltener Ereignisse vor der KI-Eingabe.
T6 – Direkte Identifikatoren im Minimalumfang. Ein Satz mit Klarnamen oder Initialen – wirkt klein, ist strafrechtlich groß: § 203 ist bereits bei minimaler Offenbarung erfüllt. Grundregel: Direkte Identifikatoren grundsätzlich vor jeder KI-Interaktion entfernen. Wenn KI zwingend nötig: nur in Umgebung ohne externe Kenntnismöglichkeit und ohne zusätzliche Speicherung.
Rot – Praktisch „Nein“ für externe KI (T7–T11)
T7 – Direkt identifizierend + klinisch relevante Behandlungsdokumentation. Verlaufsdokumentation über mehrere Sitzungen mit Termindaten, Diagnosen, Umfeld – die „normale“ Akte. Maximales Datenschutz- und §-203-Kollisionspotenzial bei externer Verarbeitung. Keine externe KI. Wenn KI: nur auf T0-Material (Checklisten, Gliederungen) oder strikt lokal (Europäisches Parlament & Rat, 2016, Art. 32, 35).
T8 – Direkt identifizierend + hochsensitiv (Trauma, Forensik, Existenzrisiken). Missbrauchserleben, strafrechtliche Sachverhalte, hochstigmatisierende Diagnostik, Suizidalität, Fremdgefährdung. Neben DSGVO und § 203: gravierendes Schädigungspotenzial durch Fehlklassifikationen oder Halluzinationen. Keine externe KI; keine Volltexte; nur strukturierte Extrakte auf T0-Niveau.
T9 – Volle Aktennähe. Komplette Gutachtenentwürfe inklusive Biografie, Terminen, Institutionen, Zitaten, Fremddokumenten – Vignette C in Reinform. Die „high-dimensionality“-Problematik: Je mehr Merkmale, desto wahrscheinlicher Unizität und Re-Identifikation (Narayanan & Shmatikov, 2008). Keine externe KI.
T10 – Persistenz dominiert. Selbst bei moderater Identifizierbarkeit wird Material toxisch, wenn Speicherung und Löschung nicht kontrollierbar sind – etwa bei KI-Systemen ohne klare Retention-Fristen, bei Logging in Drittländern oder bei Trainingsverwendung ohne Opt-out. Die DSK-RAG-Orientierungshilfe betont: Löschbarkeit in Vektordatenbanken ist möglich, aber im Sprachmodell selbst bleibt Löschung ein strukturelles Problem (Datenschutzkonferenz, 2025b). Nur mit nachweisbarer Retention-Kontrolle und vertraglich gesicherter Löschung.
T11 – Unvertretbares Kollisionsniveau. Maximale Identifizierbarkeit + maximale Sensitivität + maximale Persistenz + Drittbetroffenheit. Volltexte mit Korrespondenz, Verwahrt-Informationen, identifizierbaren Dritten, hochsensiblen Inhalten. KI nur ohne Falltext: Schema, Checklisten, Argumentationslogik auf T0-Niveau.
Die Stufentabelle im Überblick
Die folgende Tabelle fasst die zwölf Stufen mit Zone, typischen Beispielen und empfohlenen Setups zusammen:
| Stufe | Zone | Typische Beispiele | Empfohlenes Setup |
|---|---|---|---|
| T0 | Grün | Allg. Formulierungshilfen, PTV-Gliederung, Psychoedukation ohne Fallbezug | Alle Systeme; Qualitätskontrolle |
| T1 | Grün | Aggregierte Supervisionsstatistik, QZ-Daten ohne Ausreißer | Alle Systeme; Ausreißer-Prüfung |
| T2 | Gelb | Abstrahierte Verlaufsnotiz ohne Identifikatoren (Vignette A) | Business/Enterprise mit AVV oder DACH-Tool mit TOMs |
| T3 | Gelb | Pseudonymisiert mit Quasi-Identifikatoren (Vignette B) | Kontrolliertes Setup mit AVV, No-Training, Retention-Kontrolle |
| T4 | Orange | Reiche Psychodynamik ohne Lebensweltanker | Lokal/isoliert; DSFA; Task-Splitting |
| T5 | Orange | Szenik, Zitate, identifizierbare Dritte | Nur lokal nach De-ID auf T2 |
| T6 | Orange | Klarnamen/Initialen (Minimalmenge) | Identifikatoren vor KI entfernen |
| T7 | Rot | Behandlungsdoku mit Terminen, Diagnosen, Umfeld | Keine externe KI |
| T8 | Rot | Hochsensitiv: Trauma, Forensik, Suizidalität | Keine externe KI; nur T0-Extrakte |
| T9 | Rot | Kompletter Gutachtenentwurf (Vignette C) | Keine externe KI |
| T10 | Rot | Material mit unkontrollierbarer Persistenz | Nur mit nachweisbarer Löschkontrolle |
| T11 | Rot | Maximales Kollisionsniveau (Akte + Korrespondenz + Dritte) | KI nur auf T0-Niveau (Schema/Checklisten) |
Ampelzonen und Wenn-dann-Regeln
Die vier Zonen verdichten die Stufenlogik zu einer Handlungsanleitung:
Grün (T0–T1): KI kann genutzt werden für Struktur, sprachliche Klarheit, Vorlagen, allgemeine Psychoedukation. Tool-Typ: auch externe Tools möglich. Governance: Qualitätskontrolle genügt.
Gelb (T2–T3): Erlaubt: de-identifizierte Fallskizzen, Konflikt-/Strukturhypothesen ohne Lebensweltanker. Pflicht: konsequente De-Identifikation (keine Originalzitate, Ort/Zeit grob, seltene Marker entfernen, Dritte generalisieren). Tool-Typ: vorzugsweise Enterprise/DACH-Tool mit überprüfbaren TOMs. Governance: interne Richtlinie, Tool-Freigabe, Review-Check.
Orange (T4–T6): Reiches klinisches Material, oft ohne Namen, aber hoch identifizierbar durch Unizität. Tool-Typ: nur wenn AVV, No-Training-Zusage, Retention-Kontrolle, Subprozessor-Transparenz und idealerweise EU-Verarbeitung nachvollziehbar. DSFA-Prüfung m. E. naheliegend (Art. 35 DSGVO; Datenschutzkonferenz, 2018).
Rot (T7–T11): Voll identifizierende Dokumentation, Aktennähe, hochsensitive Inhalte, Transkripte, komplette Gutachtenentwürfe. Hier kollidiert KI-Nutzung nicht nur mit der DSGVO-Risikologik, sondern schnell mit § 203 und der berufsrechtlichen Schweigepflichtlogik. KI – wenn überhaupt – nur auf T0-Material (Checklisten, Gliederungen) oder strikt lokal mit maximaler Kontrolle.
Die Pointe ist unspektakulär: Nicht die KI ist das Problem, sondern der unbemerkte Datenweg – und die Gewohnheit, Re-Identifizierbarkeit zu unterschätzen.
Die Entscheidungssequenz
Vor jeder KI-Nutzung empfiehlt sich nach hier vorgeschlagener Systematik die folgende Prüfsequenz:
1. Personenbezug prüfen – nicht nur Klarnamen, sondern Konstellationsrisiko. Leitfrage: Könnte jemand, der die Person kennt, sie aus diesem Text wiedererkennen?
2. Art.-9-Daten? – Wenn ja: mindestens Zone Gelb, auch bei abstrakter Formulierung.
3. Drittzugriff? – Cloud, Vendor, Support? Dann zusätzlich §-203-Check: Ist die Geheimhaltungskette herstellbar?
4. AVV, TOMs, ggf. DSFA dokumentieren.
5. Qualitätskontrolle festlegen – bei Gutachten: Vier-Augen-Prinzip, keine automatisierte Beurteilung.
Tool-Landschaft: Wo „der Dritte“ wohnt
Datenstufen allein reichen nicht. Entscheidend ist auch, wo die Verarbeitung stattfindet – und welche „Gedächtnisse“ dabei entstehen: Logs, Backups, Telemetrie, menschliche Review-Pfade, Training, Subprozessoren, Drittlandtransfers. Das Stufenmodell braucht deshalb eine zweite Achse: die Tool-Umgebung.
Vier Grundtypen
Ein praxistaugliches Raster unterscheidet vier Grundtypen von KI-Umgebungen, die sich in ihrer Kontrollierbarkeit fundamental unterscheiden:
Consumer-Chatbots (offene Online-Tools). Die öffentlich zugänglichen Versionen von ChatGPT, Gemini, Claude und vergleichbaren Diensten. In der Regel: individuelle Nutzungsbedingungen, dynamische Retention-Logiken, kein sauberer Art.-28-Rahmen. Bei einigen Anbietern können Eingaben zur Modellverbesserung genutzt werden – mit Opt-out-Möglichkeiten, die konfigurativ und nicht vertraglich gesichert sind. Die DSK ordnet solche Systeme als „offen“ ein und warnt vor der Eingabe personenbezogener Daten (Datenschutzkonferenz, 2024, Abschn. 4). Für alles oberhalb Zone Grün nach hier vertretener Auffassung nicht vertretbar.
Business-/Enterprise-Varianten und API-Zugang. Substanziell anderes Profil: kein Training mit Kundendaten als Standard, AVV/DPA verfügbar, kürzere und kontrollierbare Retention, Zugriffskontrollen (SSO, RBAC), Verschlüsselung. Für Zone-Gelb-Material m. E. in Betracht, wenn drei Dinge gleichzeitig erfüllt sind: (a) AVV ist unterschrieben – nicht nur verfügbar; (b) kein Training ist vertraglich zugesichert – nicht nur Default-Einstellung; (c) Retention und Drittlandtransfer sind geprüft und dokumentiert (vgl. EDPB, 2021, Kap. 2–4; Europäisches Parlament & Rat, 2016, Art. 28). Zu beachten: Auch bei europaweit beworbenen Diensten kann Support-Zugriff aus den USA bestehen – das ist ein Drittlandtransfer.
Spezialisierte DACH-Tools für psychotherapeutische Dokumentation. Eine heterogene Landschaft: Sie reicht von browser-lokaler Verarbeitung ohne Serverübertragung über Cloud-Dienste mit konkreten Hosting-Partnern, eigenen Transkriptionsservern und definierten Löschfristen bis zu Tools, bei denen zwischen Marketing-Claims und Datenschutzerklärung erhebliche Diskrepanzen bestehen.
Lokal / on-premises / air-gapped. Höchste Kontrolle über Datenflüsse, aber auch höchste Eigenverantwortung: IT-Sicherheit, Updates, Zugriffsschutz, Backups. Für Orange-Material der sicherste Pfad, wenn die IT-Infrastruktur professionell betrieben wird – was in einer Einzelpraxis nicht selbstverständlich ist (vgl. Kassenärztliche Bundesvereinigung, 2025a, Anl. 1).
Vergleichsmatrix
Die folgende Matrix vergleicht die vier Grundtypen anhand der Kriterien, die für die DSGVO- und §-203-Compliance zentral sind:
| Kriterium | Consumer-LLM | Business/Enterprise | DACH-Spezialtool | Lokal/on-prem |
|---|---|---|---|---|
| AVV/DPA | Typisch: keiner | Verfügbar; muss unterschrieben werden | Gemischt: von öffentlich bis fehlend | Entfällt (Eigenverantwortung) |
| Training mit Eingaben | Möglich (Opt-out konfigurativ) | Kein Training als Default + vertragl. Zusage | Von „nur mit Einwilligung“ bis unklar | Kein Training (lokales Modell) |
| Retention | Wochen bis Jahre; anbieterabhängig | Konfigurierbar; teils 30 Tage | Von 72h-Löschung bis unklar | Vollständige Kontrolle |
| Human Review | Möglich (Support, Safety) | Restriktiver; vertraglich regelbar | Unterschiedlich dokumentiert | Kein externer Review |
| Drittlandtransfer | Wahrscheinlich (USA) | EU-Residency teils verfügbar; US-Support möglich | Von EU-Hosting bis US-Infrastruktur | Kein Transfer |
| Verschlüsselung | Nicht immer dokumentiert | AES-256 at rest, TLS in transit (typisch) | Unterschiedlich; teils TLS/AES | Eigenverantwortung |
| Audit-Artefakte | Keine für Kunden | SOC 2, Trust Center (typisch) | Selten; teils ISO 27001 | Eigenverantwortung |
Lesehinweis: „Gemischt“ und „unterschiedlich“ sind in dieser Matrix keine Entlastungen, sondern Warnzeichen. Was nicht dokumentiert ist, zählt als Risiko, nicht als Entlastung.
Das Diskrepanz-Muster: Marketing vs. Datenschutztext
Ein wiederkehrendes Muster verdient besondere Aufmerksamkeit: Tools, die auf der Landingpage mit „Server in Deutschland“ oder „DSGVO-konform“ werben, während die Datenschutzerklärung eine andere Sprache spricht. Ein illustratives Beispiel: Ein PTV-Berichtgenerator wirbt prominent mit „Server in Deutschland“ und „kein KI-Training“. Die Datenschutzerklärung nennt jedoch einen US-amerikanischen Hosting-Provider und räumt ein, dass Datenübertragungen in die USA möglich sind. Der veröffentlichte AVV fehlt. Die App gibt an, Eingaben „0 Tage“ zu speichern – aber Logs existieren.
Solche Diskrepanzen sind nach hier vertretener Auffassung ein Muster-Warnsignal. Die Prüfung muss nicht auf der Landingpage stattfinden, sondern in der Datenschutzerklärung, im AVV und in den Subprozessor-Listen.
Red Flags bei der Tool-Prüfung
• Diskrepanz zwischen Marketing („Server in DE“) und Datenschutztext (US-Hosting) • Kein AVV verfügbar oder nur auf Anfrage „im B2B-Vertrag“ • Training: nur Opt-out statt vertraglich ausgeschlossen • Retention: unklar, keine Fristen, keine nachweisbare Löschung • Subprozessoren: nicht transparent oder nur „auf Anfrage“ • Zertifizierungen: Behauptung ohne Artefakte (kein SOC 2, kein C5, kein ISO 27001) • Support-Zugriff: keine Angabe zum Ort der Support-Mitarbeitenden
Green Flags bei der Tool-Prüfung
• AVV nach Art. 28 DSGVO unterschrieben und aktuell • No-Training vertraglich zugesichert (Default + Vertragsklausel) • Hosting: EU/EWR mit benanntem Partner • Retention: definierte Fristen, nachweisbare Löschung • Subprozessor-Liste öffentlich und aktuell • Audit-Artefakte vorhanden (SOC 2, ISO 27001, C5-Testat) • Human-Review-Bedingungen vertraglich geregelt • Support-Zugriff: Ort und Bedingungen dokumentiert
Zehn Fragen für die Tool-Prüfung
Die Frage „Ist Tool X sicher?“ ist verständlich, aber in dieser Form kaum seriös zu beantworten – weil Sicherheit kein Label ist, sondern eine Kette: Vertrag → Architektur → Betrieb → Menschen → Löschung. Die folgenden zehn Fragen bilden eine Due-Diligence-Prüfung, die jedes Tool durchlaufen muss, bevor Daten oberhalb von T1 eingegeben werden. Das ist keine Bürokratie – das ist Schweigepflicht-Hygiene.
1. Rolle: Wer ist Verantwortlicher, wer Auftragsverarbeiter? (EDPB, 2022).
2. AVV: Gibt es einen Art.-28-konformen Vertrag – unterschrieben, nicht nur verlinkbar? (Europäisches Parlament & Rat, 2016, Art. 28).
3. Training: Wird Inhalt zur Modellverbesserung genutzt? Ist „No training“ Default und vertraglich zugesichert?
4. Human Review: Gibt es menschliche Einsicht oder Moderation? Unter welchen Bedingungen?
5. Retention: Wie lange werden Prompts, Outputs, Logs und Backups gespeichert? Wie wird gelöscht?
6. Subprozessoren: Wer verarbeitet mit? Ist die Liste transparent? Gibt es Vorab-Information bei Änderungen?
7. Datenlokalität und Transfers: EU-Verarbeitung? Drittlandtransfer? Welche ergänzenden Maßnahmen? (EDPB, 2021).
8. Zugriffsschutz: MFA, Rollen, Protokollierung, Admin-Kontrollen?
9. Incident Response: Meldewege, Fristen, Verantwortlichkeiten bei Datenpannen (Art. 33/34 DSGVO).
10. Beweisbarkeit: Gibt es auditierbare Nachweise (Zertifikate, Pen-Test-Attest, Security-Whitepaper) – oder nur Marketing?
Unknown ist dabei kein „vielleicht okay“, sondern ein Risiko. Die Grundregel: Ohne klare, überprüfbare Nachweise zu AVV, Hosting-Region, Trainingsnutzung und Löschkonzept ist ein Tool maximal für Zone Grün freigegeben.
Jenseits des Datenschutzes: Klinische Qualität als Risikodimension
Die Datenschutzdebatte kann verdecken, dass KI-Nutzung ein zweites, unabhängiges Risikocluster erzeugt: klinische Qualitätsrisiken. Perfekter Datenschutz plus ein halluzinierter ICD-Code im Gutachterbericht ist ein anderes, aber nicht weniger gravierendes Problem. Im Folgenden die sechzehn Risiken, die in psychotherapeutischen Texten besonders relevant sind – gruppiert in fünf Cluster.
Faktenrisiken: Was die KI erfindet
Halluzination: Generative Sprachmodelle können falsche oder erfundene Inhalte erzeugen – das ist eine strukturelle Eigenschaft, keine seltene Fehlfunktion (WHO, 2021; Ji et al., 2023). Für psychotherapeutische Texte heißt das: Das Modell kann Symptomhäufigkeiten „ergänzen“, die nie erhoben wurden („Panikattacken 3×/Woche“), Leitlinien zitieren, die nicht existieren, oder ICD-Codes zuordnen, die es nicht gibt. Im Gutachterbericht, der juristisch relevant ist, entsteht daraus ein Haftungsrisiko.
Konfabulation von Quellen: Ein Sonderfall der Halluzination: Die KI erfindet Rechtsgrundlagen, Leitlinienempfehlungen oder Studienergebnisse und präsentiert sie im Duktus gesicherter Fakten. In einem forensischen Gutachten kann das katastrophale Folgen haben.
Omission: Nicht nur das Erfundene ist gefährlich, sondern auch das Fehlende. Studien zu LLM-gestützter Textumformung zeigen, dass Auslassungen häufig auftreten (Tam et al., 2024). Im Gutachten können fehlende Gegenargumente, Risikofaktoren, Schutzfaktoren oder Setting-Änderungen die Aussagekraft zerstören. Die WHO benennt „incomplete statements“ und „automation bias“ als zentrale Risiken (WHO, 2021).
Grundregel: Jede konkrete Tatsachenbehauptung im KI-Output – Symptome, Zeitangaben, Diagnosen, Scores, Zitate, rechtliche Kriterien – gegen Primärquelle prüfen. Was nicht verifizierbar ist: streichen.
Bedeutungsrisiken: Was die KI verschiebt
Sprachglättung als Bedeutungsverschiebung: Weniger offensichtlich als Halluzination, klinisch ebenso relevant. Aus „Patient wirkt heute ungewöhnt still; möglicherweise Rückzug, möglicherweise Nachdenklichkeit“ wird „Patient ist depressiv und zieht sich zurück.“ Die Ambivalenz – in analytischer Arbeit klinisch kostbar – wird eliminiert. Das Modell erzeugt Klarheit, wo Uneindeutigkeit angemessener wäre (vgl. Tam et al., 2024). In psychodynamischen Texten, deren Wert oft gerade in der Wahrung von Mehrdeutigkeit liegt, ist das ein substanzieller Eingriff.
Overconfidence: Verwandt mit der Sprachglättung, aber auf der epistemischen Ebene: Das Modell formuliert „Eindeutig traumabezogene Symptomatik“, wo „Hinweise auf traumabezogene Symptomatik; Differentialdiagnosen bleiben offen“ angemessener wäre. In Gutachten, die juristische Konsequenzen haben, kann Über-Sicherheit zur Fehlentscheidung führen.
Bias in der Beschreibung: KI-generierte Texte können abwertende Labels transportieren („manipulativ“, „unzuverlässig“, „resistent“), die nicht auf dokumentierten Verhaltensankern basieren. Studien zeigen, dass stigmatisierende Sprache in klinischen Notizen systematisch vorkommt und die nachfolgende Versorgung beeinflusst (Sun et al., 2022; Himmelstein et al., 2022). KI verstärkt dieses Muster, weil sie vorhandene Sprachmuster reproduziert.
Der Akten-Echoeffekt: Wenn ein einmal generierter stigmatisierender Satz in späteren Zusammenfassungen erneut aufgegriffen wird, entsteht ein Verhärtungseffekt: Die Zuschreibung reproduziert sich ohne neue Beobachtung. Studien zur „copy-forward“-Problematik in elektronischen Akten zeigen das Muster (Tsou et al., 2017). Gegenmaßnahme: Jede KI-Zusammenfassung gegen den Sitzungsinhalt validieren, nicht gegen frühere Aktentexte.
Beziehungsrisiken: Was die KI an Haltung verliert
Verlust der klinischen Stimme: Oft unterschätzt, klinisch relevant. Psychotherapeutische Dokumentation ist nicht nur Information, sondern Ausdruck klinischer Haltung. Wenn alle Berichte „gleich klingen“ – sprachlich geglättet, stilistisch uniform, klinisch unpersönlich – geht etwas verloren, das für Gutachterverfahren und eigene Reflexion wesentlich ist: die hörbare Präsenz der behandelnden Person im Text. Frage bei jedem KI-assistierten Text: Welche Passagen sind reine Formatierung – welche inhaltliche Ergänzung? Nur Ersteres ist unproblematisch.
Kontextverlust und Beziehungssprache: Aus einer fein balancierten, nicht-beschämenden Formulierung wird eine sachlich korrekte, aber beziehungsgefährdende „Akte-Sprache“. Im psychotherapeutischen Kontext, in dem Patient:innen zunehmend ihre Akten einsehen (Open Notes), ist risikosensible Dokumentation eine zentrale Implementationsbedingung.
Ethik-Drift: Das Team übernimmt KI-Formulierungen, die implizit Schuld oder Scham verstärken; die Therapeut:in verschiebt Verantwortung („Das Tool empfiehlt …“). Die WHO fordert menschenrechts- und würdesensible Regulierung und Verwendung (WHO, 2021). Leitregel: KI darf administrativ entlasten, aber nicht Beziehung oder Verantwortung ersetzen.
Sicherheitsrisiken: Was die KI nach außen trägt
Datenabfluss über Prompts: Sitzungsinhalte, die in ein Consumer-Frontend kopiert werden, können in Logs gespeichert, zu Trainingszwecken verwendet oder in Drittländer übertragen werden. Die DSK warnt vor besonderer Vorsicht bei Eingabe personenbezogener Daten und fordert Zweckfestlegung, DSFA bei hohem Risiko sowie klare Verantwortlichkeiten (Datenschutzkonferenz, 2024, Abschn. 3–4). Das EDPB-Material zu LLM-Privacy-Risiken betont Input-Daten, Retention und Logging als zentrale Bedrohungsvektoren (EDPB Support Pool of Experts, 2024).
Schweigepflichtverletzung durch unzureichend eingebundene Dienstleister: Wenn ein KI-Anbieter Zugriff auf Patientengeheimnisse hat, ohne dass eine nachweisbare Geheimhaltungskette hergestellt ist, droht straf- und berufsrechtliche Eskalation. Die Kette muss dokumentiert sein: Geheimhaltungsverpflichtung, Art.-28-Vertrag, Zugriffsbeschränkung, Protokollierung (Psychotherapeutenkammer Bayern, 2014, § 8; Bundesministerium der Justiz, o. J.-a).
Prompt-Injection: Ein fehlerhafter Satz in einer Akte wird von der KI übernommen und konsistent ausgebaut; oder ein eingeschmuggelter Textblock steuert den Output. Die BfDI-Handreichung zu KI hebt Prompt-Injection als relevantes Sicherheitsrisiko hervor (Bundesbeauftragte für den Datenschutz und die Informationsfreiheit, 2025; vgl. OWASP, 2025).
Unzulässige Verdichtung sensibler Drittinformationen: Partner-, Familien- oder Arbeitgeberinformationen werden ohne Not in ein Gutachten übernommen; die KI macht daraus eine „stimmige“ Narrative, die Dritte unverhältnismäßig betrifft. Die DSGVO-Grundsätze der Zweckbindung und Datenminimierung gelten auch für Drittpersonen im KI-Output (Europäisches Parlament & Rat, 2016, Art. 5).
Prozessrisiken: Was nicht nachvollziehbar ist
Fehlender Audit-Trail: In der Akte liegt nur der Endtext; unklar, ob und was KI beigetragen hat. Bei Qualitätsprüfung oder Haftungsfall fehlen Prozessdaten. § 630f BGB verlangt Nachvollziehbarkeit von Änderungen; der AI Act sieht für Betreiber von Hochrisiko-Systemen Protokollaufbewahrung vor – als Governance-Signal, auch wenn der konkrete psychotherapeutische Use Case meist nicht „high-risk“ im Sinne des AI Act ist (Europäisches Parlament & Rat, 2024, Art. 26). Lösung: Versionierung im Praxis-Informationssystem (Entwurf → geprüft → final), nicht im KI-Tool; Kennzeichnung „KI-assistiert“; Reviewer-Sign-off bei wesentlichen Texten.
Autoritätsverschiebung: „Die KI zeigt mangelnde Compliance“ – als wäre das Modell eine diagnostische Instanz. Die WHO warnt vor „automation bias“ (WHO, 2021). Sprachregel: KI ist Werkzeug, nicht epistemische Instanz. Zulässig sind Formulierungen wie „im Gespräch ergab sich …“, „in der Akte dokumentiert …“, „klinischer Eindruck …“.
Zwischenfazit: Datenschutz allein genügt nicht
Die sechzehn Risiken machen deutlich: Selbst wenn der Datenschutz vollständig gelöst wäre, bliebe ein eigenständiges Qualitätsproblem. Halluzinationsschutz gehört in den Workflow, nicht in die Hoffnung. Bedeutungsverschiebung, Bias und der Verlust klinischer Stimme erfordern eigene Kontrollen – und ein Bewusstsein dafür, dass „Qualitätssicherung“ in der KI-gestützten Dokumentation nicht weniger ist als Patientensicherheit in Textform.
Prozessdesign: Vom Prompt zur fertigen Akte
Die bisherigen Kapitel haben das „Was darf wohin?“ und „Welches Tool?“ behandelt. Dieses Kapitel beantwortet die dritte Frage: Wie sieht ein sicherer Workflow aus, wenn die Entscheidung für KI-Nutzung gefallen ist? Der Dreischritt ist einfach: Prüfen → Prompten → Reviewen. Die Komplexität liegt im Detail.
Pre-Flight: Vor dem Prompt
Bevor ein einziges Wort in ein KI-System eingeht, sind sieben Prüfpunkte zu klären. Die Reihenfolge ist nicht zufällig – sie spiegelt die Eskalationslogik: zuerst Zweck, dann Daten, dann Tool, dann Guardrails.
1. Zweck und Dokumenttyp festlegen. Was soll die KI tun? Strukturieren? Zusammenfassen? Formulierungshilfe? Oder interpretieren? Die DSK betont: Zweckfestlegung ist datenschutzrechtlich „elementar“ – und zwar vor der Verarbeitung, nicht danach (Datenschutzkonferenz, 2024, Abschn. 3). Für den Workflow heißt das: Der „erlaubte Modus“ wird vorab definiert – Formatieren/Strukturieren (Standard), Zusammenfassen (nur mit Omissions-Guardrails), Interpretieren/Hypothesen (nur klar markiert; psychotherapeutisch heikel).
2. Risikostufe bestimmen. Drei Stufen, die die Review-Intensität steuern: Low (reine Rechtschreibung, Layout, Satzbau) – Selbstreview genügt. Medium (Zusammenfassung von Sitzungsinhalten, Verlaufsnotizen) – strukturierter Review-Check. High (Gutachten, forensische Texte, Krisendokumentation, rechtliche Bewertungen) – Vier-Augen-Prinzip: eine zweite Person oder zumindest eine dokumentierte Second-Look-Prozedur (vgl. WHO, 2021).
3. Tool-Freigabe prüfen. Ist das System organisatorisch freigegeben? Das heißt konkret: AVV unterschrieben (nicht nur verlinkbar), Geheimhaltungskette hergestellt (§ 203), Hosting und Retention dokumentiert, Trainingsnutzung geprüft. Kein „ich schau mal schnell in ChatGPT“ für Material oberhalb von T1.
4. Datenminimierung. Nur die Informationen eingeben, die für den definierten Zweck erforderlich sind (Europäisches Parlament & Rat, 2016, Art. 5 Abs. 1 lit. c). In der Praxis: nicht den ganzen Absatz kopieren, wenn ein Stichwort-Tripel reicht. Task-Splitting: lieber drei kurze Prompts als einen mit dem gesamten Verlauf.
5. Identifikatoren entfernen. Klarnamen, Geburtsdaten, konkrete Orte, Arbeitgeber, seltene biographische Marker, wörtliche Rede – alles, was die Stufe über T2 heben würde (vgl. Kapitel 3 und 4). Bei Gutachten zusätzlich: Drittpersonen-Details minimieren. Die Grundregel aus Kapitel 3 gilt: Nicht ein einzelnes Merkmal macht den Fingerabdruck, sondern die Konstellation.
6. Trainings-/Opt-in-Status klären. Wenn das System Eingaben für Training oder Verbesserung nutzen kann: Ist das vertraglich ausgeschlossen? Oder nur konfigurativ abschaltbar? Konfigurativ ≠ vertraglich (vgl. Kapitel 5).
7. Prompt mit Guardrails formulieren. Der Prompt selbst sollte die Leitplanken enthalten: „Keine neuen Fakten hinzufügen; Unsicherheiten als Unsicherheiten markieren; Beobachtung und Hypothese sprachlich trennen; keine Quellen erfinden.“ Das ist keine Magie, sondern Prompt-Hygiene – die klinische Entsprechung dessen, was in der Akte „saubere Form“ heißt.
Pre-Flight-Checkliste (Kurzfassung)
1. Zweck + Dokumenttyp festgelegt?
2. Risikostufe (Low / Medium / High) bestimmt?
3. Tool organisatorisch freigegeben (AVV, § 203-Kette, Hosting, Retention)?
4. Datensparsamkeit: nur erforderliche Inhalte im Prompt?
5. Identifikatoren + Drittpersonen-Details entfernt/abstrahiert?
6. Kein Training mit Eingaben (vertraglich gesichert)?
7. Prompt enthält Guardrails (keine erfundenen Fakten, Unsicherheit markieren, Beobachtung ≠ Hypothese)?
Safe und Unsafe: Prompt-Beispiele
Abstrakte Regeln werden durch konkrete Beispiele greifbar. Die folgenden Prompt-Paare zeigen jeweils eine unsichere und eine sichere Variante für typische psychotherapeutische Anwendungsszenarien:
Prompt-Paar 1: Verlaufsnotiz formulieren
UNSAFE: „Frau Müller, 38, Architektin in München, berichtete gestern, dass sie nach der Kündigung durch ihren Chef Thomas im Oktober wieder Panikattacken hat. Formuliere das als Verlaufsnotiz.“
→ Klarname, Alter, Beruf, Stadt, Name Dritter, konkretes Datum = T7+ (Rot)
SAFE: „Erwachsene Patientin berichtet von erneuten Angstsymptomen nach beruflichem Verlusterlebnis. Formuliere das als strukturierte Verlaufsnotiz mit Trennung von Beobachtung und Hypothese. Keine zusätzlichen Fakten hinzufügen.“
→ Abstrakt, kein Klarname, kein Ort, kein Datum, kein Dritter = T2 (Gelb)
Prompt-Paar 2: OPD-Konfliktformulierung
UNSAFE: „Mein Patient Jonas, der in der Berliner Startup-Szene arbeitet und dessen Vater Alkoholiker war, zeigt einen Konflikt zwischen Abhängigkeit und Autarkie. Schreibe das als OPD-Formulierung für den PTV-3.“
→ Klarname, Branche + Stadt, biographischer Marker = T5+ (Orange/Rot)
SAFE: „Formuliere eine OPD-Konfliktbeschreibung für den PTV-3: Leitkonflikt Abhängigkeit vs. Autarkie, Strukturniveau mäßig integriert, Beziehungsgestaltung geprägt durch Überanpassung an idealisierte Objekte. Keine biographischen Details erforderlich.“
→ Rein klinisch-abstrakt, keine Lebensweltanker = T0–T1 (Grün)
Prompt-Paar 3: Gutachterliche Zusammenfassung
UNSAFE: „Hier ist der komplette Verlaufsbericht meiner Patientin (Name, Diagnosen, 40 Sitzungen, alle Termine, wortwörtliche Zitate). Fasse zusammen und formuliere den Gutachterbericht.“
→ Volle Aktennähe = T9–T11 (Rot). Nicht in externes System.
SAFE: „Ich schreibe einen Gutachterbericht (PTV-3, Punkt 4). Folgende abstrahierte Stichpunkte: Leitkonflikt X, Strukturniveau Y, zentrale Beziehungsdynamik Z, Behandlungsverlauf (Phasen grob). Formuliere daraus einen kohärenten Absatz. Keine neuen klinischen Informationen hinzufügen; keine Quellenangaben erfinden.“
→ Abstrahierte Stichpunkte, kein Personenbezug, klare Guardrails = T1–T2 (Grün/Gelb)
Prompt-Paar 4: Sprachliche Glättung
UNSAFE: „Hier ist mein Rohentwurf für das Gutachten über Herrn Schmidt (Aktenzeichen, Diagnosen, Termine, Zitate). Mach den Stil besser.“
→ Direkte Identifikatoren + voller Falltext = T9+ (Rot)
SAFE: „Hier ist ein de-identifizierter Textabsatz aus einem PTV-Gutachtenentwurf. Verbessere den Satzbau und die sprachliche Klarheit, ohne den Inhalt zu verändern. Füge keine Informationen hinzu; markiere Stellen, an denen der Text unklar ist.“
→ De-identifiziert, begrenzter Umfang, klarer Zweck = T2–T3 (Gelb)
Review: Nach dem Output
Der KI-Output ist ein Entwurf – nicht mehr und nicht weniger. Er wird „klinisch signierbar“ erst durch einen strukturierten Review. Die DSK fordert die kritische Prüfung personenbezogener Ergebnisse (Datenschutzkonferenz, 2024, Abschn. 5); die KBV betont Plausibilitätsprüfung und Vermeidung von Automation Bias (Kassenärztliche Bundesvereinigung, 2025b). Die folgende Checkliste systematisiert beide Anforderungen:
1. Faktencheck: Jede konkrete Tatsachenbehauptung im KI-Output – Symptome, Zeitangaben, Häufigkeiten, Diagnosen, Scores, Zitate, rechtliche Kriterien – gegen die Primärquelle prüfen (Sitzungsnotiz, Audio, Akte). Was nicht verifizierbar ist: streichen oder als Unsicherheit markieren.
2. Completeness-Check: Pflichtfelder gegen den Dokumenttyp prüfen. Für Verlaufsnotizen: Risiko-/Schutzfaktoren, Setting-Änderungen, Interventionskern, nächste Schritte. Für Gutachten: Gegenargumente, Differentialdiagnosen, Behandlungsplan-Begründung. Fehlende Pflichtfelder sind klinisch gefährlicher als falsche Details – weil sie unsichtbar sind.
3. Bias-/Stigma-Scan: Abwertende Labels? Moralische Wertungen? Diagnostische Zuschreibungen ohne dokumentierte Verhaltensanker? Perspektivenklarheit: Wessen Erleben wird dargestellt? (Vgl. Sun et al., 2022; Himmelstein et al., 2022.)
4. Epistemik-Scan: Beobachtung, Deutung und Schlussfolgerung sauber getrennt? Über-Sicherheit? Jeder Satz, der sicherer klingt als die Datenlage, wird vorsichtiger formuliert.
5. Transparenz-Scan: Kein „DKI sagt“, keine Objektivierung, klare Autorenschaft. Der finale Text muss als von der behandelnden Person verantworteter Text erkennbar sein (vgl. Bundesministerium der Justiz, o. J.-b).
6. Drittpersonen-Scan: Enthält der Output Informationen über Dritte (Partner, Kinder, Arbeitgeber), die über das für den Zweck Erforderliche hinausgehen? Wenn ja: abstrahieren oder streichen.
7. Datenschutz-/Schweigepflicht-Scan: Enthält der Output Identifikatoren, die versehentlich übernommen oder vom Modell „ergänzt“ wurden? (Auch das kommt vor: KI kann aus Kontext Orte, Namen, Institutionen „hinzufügen“, die im Input nicht standen.)
8. Sign-off: Wer verantwortet die Endfassung? Bei Low-Risk: Selbstreview. Bei Medium: dokumentierter Review-Check. Bei High: Vier-Augen-Prinzip mit namentlicher Dokumentation. Die Versionierung gehört ins Praxis-Informationssystem (Entwurf → geprüft → final), nicht ins KI-Tool.
Review-Checkliste (Kurzfassung)
☐ Faktencheck: Jede Assertion gegen Primärquelle geprüft
☐ Completeness: Pflichtfelder für Dokumenttyp vollständig
☐ Bias/Stigma: Keine abwertenden Labels ohne Verhaltensanker
☐ Epistemik: Beobachtung ≠ Deutung ≠ Schlussfolgerung
☐ Transparenz: Keine KI-als-Instanz-Formulierungen
☐ Drittpersonen: Nur erforderliche Informationen
☐ Datenschutz: Keine versehentlichen Identifikatoren im Output
☐ Sign-off: Verantwortliche Person + Datum dokumentiert
Red-Team-Prompts: Gegenlesen mit Absicht
Red-Team-Prompts sind nicht für die Erstellung gedacht, sondern für die gezielte Fehlersuche. Sie nutzen die KI gegen sich selbst – als kritisches Lesewerkzeug, nicht als Autorität. Die folgenden Prompts lassen sich nach dem ersten Review auf den KI-Output anwenden:
Halluzinations-Audit: „Markiere alle Sätze, die eine konkrete Tatsache behaupten (Symptom, Zeitangabe, Häufigkeit, Diagnose, Zitat, Rechtsgrundlage). Gib daneben an: Woher weist du das? Wenn keine Quelle im Input: FLAG.“
Omissions-Audit: „Welche fünf Informationen wären für eine:n professionelle:n Leser:in dieses Dokumenttyps erwartbar, fehlen aber? Nenne sie und erkläre, warum sie relevant sind.“
Bias-Audit: „Identifiziere abwertende, stigmatisierende oder moralisch wertende Sprache. Schlage neutral-beobachtende Alternativen vor.“
Overconfidence-Audit: „Wo klingt der Text sicherer als die Datenlage hergibt? Formuliere die betreffenden Stellen epistemisch vorsichtiger.“
Drittpersonen-Minimierung: „Welche Informationen über Dritte (Partner, Familie, Arbeitgeber, Institutionen) können gestrichen oder weiter abstrahiert werden, ohne den Zweck des Textes zu beeinträchtigen?“
Gutachten-Forensik: „Markiere jede normative oder rechtliche Aussage in diesem Text. Wenn du sie nicht mit einer konkreten Rechtsquelle oder Leitlinie belegen kannst: streiche sie oder kennzeichne sie als Hypothese.“
Adversarial-Test: „Angenommen, der Input enthält ein falsches Detail. Wo übernimmt der Output es unkritisch? Wo baut er es konsistent aus? Markiere diese Stellen.“
Wichtig: Red-Team-Prompts ersetzen nicht den klinischen Review – sie ergänzen ihn. Die finale Beurteilung liegt bei der behandelnden Person, nicht bei der KI.
Audit-Trail: Logging ohne Daten-Leak
Dokumentationsänderungen müssen nachvollziehbar sein (§ 630f BGB; Bundesministerium der Justiz, o. J.-b). Gleichzeitig darf ein Audit-Trail nicht zum zweiten Datenleck werden: Prompt-Logs, die Patientendaten enthalten, erhöhen das Risiko, statt es zu reduzieren. Der Lösungsansatz: Metadaten-Logging statt Inhalt-Logging.
Ein praxistaugliches Audit-Trail-Design erfasst sechs Datenpunkte, die nachvollziehbar machen, dass KI genutzt wurde und wie der Output geprüft wurde – ohne den Inhalt zu duplizieren:
(1) Template-ID: Welches Prompt-Template wurde genutzt? (2) Dokumenttyp und Zweck (z. B. „Verlaufsnotiz / Strukturierung“). (3) Tool und Modellversion (Anbieter, Modellname, Datum). (4) Output-Hash: ein kryptographischer Fingerprint des KI-Outputs, der Integrität belegt, ohne Inhalt preiszugeben. (5) Reviewer-Sign-off: Wer hat geprüft, wann, mit welchem Ergebnis? (6) Risikostufe (Low / Medium / High).
Die Versionierung findet im Praxis-Informationssystem statt: Entwurf → reviewed → final. Optional: ein „Diff“ zwischen Entwurf und Endfassung (als Nachweis, dass die behandelnde Person editiert und geprüft hat). Die Audit-Metadaten werden getrennt vom klinischen Inhalt gespeichert; der Zugriff ist rollenbasiert (vgl. Datenschutzkonferenz, 2025a).
Governance: Wer verantwortet was?
Einzelne Prompts und Reviews reichen nicht, wenn die Struktur fehlt. Governance bedeutet: Wer entscheidet, welche Tools freigegeben werden? Wer schult? Wer prüft? Wer reagiert, wenn etwas schiefgeht? Die Antworten unterscheiden sich erheblich nach Praxisform.
Solo-Praxis
In der Einzelpraxis fallen alle Rollen auf eine Person. Das klingt simpel, erhöht aber die Eigenverantwortung: Es gibt keine zweite Instanz, die Fehlkonfigurationen, schlechte Prompt-Gewohnheiten oder Datenschutzlücken auffangen würde.
Mindestanforderungen (guidance-nah): (a) Zweckfestlegung für jeden Use Case dokumentiert, (b) Tool-Freigabe inklusive Verträge und Geheimhaltung, (c) datenschutzrechtliche Dokumentation (Verarbeitungsverzeichnis, ggf. DSFA-Entscheid), (d) dokumentationsrechtliche Nachvollziehbarkeit im PVS (Datenschutzkonferenz, 2024; Bundesministerium der Justiz, o. J.-b).
Empfohlene Praxis – risikobasierte Vier-Augen-Äquivalente: Da kein Kolleg:in nebendran sitzt, braucht die Solo-Praxis funktionale Äquivalente. Für Low-Risk (Rechtschreibung, Layout): Selbstreview genügt. Für Medium (Zusammenfassung): strukturierter Review-Check plus gelegentliche stichprobenartige Zweitmeinung in der Intervision. Für High (Gutachten, forensisch, Krisen): echte zweite Person – Kolleg:in, Supervisor:in, externe Qualitätsprüfung – oder zumindest eine dokumentierte Second-Look-Prozedur.
Kuratierte Prompt-Templates: Ein kleines Set von maximal zehn Prompt-Templates, die bewusst „interpretationsarm“ formuliert sind und die Guardrails bereits enthalten. Das reduziert Fehleranfälligkeit bei Routinenutzung.
KI-Kompetenz: Kurze Selbstschulung plus Dokumentation – nicht als Bürokratieübung, sondern als Selbstverpflichtung: Wer KI nutzt, muss verstehen, was geschieht. Der AI Act macht daraus eine Betreiberpflicht (Europäisches Parlament & Rat, 2024, Art. 4).
Gemeinschaftspraxis und KV-Kooperation
Sobald mehrere Kolleg:innen dasselbe Tool nutzen, entsteht ein neues Risiko: Ungleichzeitigkeit. Kollegin A nutzt ein Enterprise-LLM mit AVV; Kollege B das Consumer-Pendant ohne. Die Patientin merkt davon nichts – aber ihre Daten nehmen völlig unterschiedliche Wege.
Governance in der Gemeinschaftspraxis heißt deshalb: gemeinsame Regeln, nicht nur gemeinsame Räume. Kernelemente: (a) Ein einheitlicher Use-Case-Katalog („zulässig“, „zulässig mit Auflagen“, „verboten“). (b) Ein verbindliches Tool-Register: Welches System ist für welche Stufe freigegeben? (c) Gemeinsame Prompt-Templates. (d) Klare Verantwortlichkeiten: Wer ist KI-Owner (fachlich), wer prüft den Datenschutz, wer macht die Stichproben?
Das muss keine schwere Ordnung sein. Ein einseitiges Dokument, das alle unterschrieben haben und das jährlich oder bei Tool-Wechsel aktualisiert wird, reicht in den meisten Fällen.
Institution: Ambulanz, MVZ, Klinik, Ausbildungsinstitut
In institutionellen Kontexten steigen Komplexität und Verantwortung zugleich. Die DSK betont die Notwendigkeit klarer interner Regelungen, definierter Verantwortlichkeiten und – bei hohem Risiko – einer DSFA (Datenschutzkonferenz, 2024, Abschn. 6). Die WHO fordert bei großskaliger Nutzung Post-Release-Audits und Impact-Assessments (WHO, 2021). Das NIST-Framework empfiehlt systematisches Risikomanagement über den gesamten Lebenszyklus (NIST, 2023).
Governance-Baukasten für Institutionen:
KI-Nutzungsordnung und Use-Case-Katalog: Definiert, welche Anwendungen in welcher Risikostufe zulässig sind. Beispiel: Strukturierung von Verlaufsnotizen (Low) = freigegeben; KI-gestützte Gutachtenerstellung (High) = nur mit definierten Kontrollen und Vier-Augen-Prinzip; diagnostische Automatisierung = verboten.
Rollenmodell: „KI-Owner“ (fachliche Verantwortung für Use Cases), Datenschutz/IT-Security (prüft Verträge, TOMs, Konfiguration), Qualitätsmanagement (Audit und Stichproben), Fachteam (Anwendung und Review).
Verbindliches Vier-Augen-Prinzip: Für High-Risk-Artefakte (Gutachten, forensische Einschätzungen, Zwangskontexte, Krisendokumentation) ist eine zweite fachliche Prüfung nicht optional, sondern Pflicht.
Stichproben-Audits: Monatlich oder quartalsweise: Halluzinationen, Bias-Sprache, Dokumentvollständigkeit, Datenschutz-Metadaten. Die Ergebnisse werden dokumentiert und in Teamrunden besprochen.
Incident-Response-Playbook: Was passiert bei einer Datenpanne? Bei einem falschen Output in der Akte? Bei einer Patient:innenbeschwerde? Meldewege, Fristen, Verantwortlichkeiten, Dokumentation.
Schulung: Alle Nutzer:innen absolvieren eine KI-Kurzschulung (Risiken, Bias, Datenschutz, Prompt-Hygiene). Auffrischung halbjährlich; Lessons Learned aus Vorfällen fließen ein. Die AI-Literacy-Pflicht (Art. 4 AI Act) gibt dafür einen normativen Rahmen (Europäisches Parlament & Rat, 2024).
Das Minimal-Set: Was in jede Praxis gehört
Unabhängig von der Praxisform braucht jede KI-nutzende Praxis ein kleines, aber audit-fähiges Dossier. Die DSK, BPtK und KBV benennen zentrale Bausteine (Datenschutzkonferenz, 2024; Bundespsychotherapeutenkammer, 2018; Kassenärztliche Bundesvereinigung, 2025a, 2025b). Das Minimal-Set umfasst:
Guidance-nah (muss-fähig):
– Tool-Register: Welches KI-System, wofür, wo gehostet, wer nutzt es.
– Zweckbeschreibung pro Use Case: Zweckbindung, Datenkategorien, Empfänger.
– AVV und Geheimhaltungskette: Art.-28-Vertrag, Nachweise zur §-203-Verpflichtung externer Mitwirkender.
– Datensicherheitsmaßnahmen: Zugriff, Rollen, Logs, Löschkonzept.
– Dokumentationsnachvollziehbarkeit: Versionierung und Änderungsnachweis in der Akte.
– DSFA-Entscheid: Kurz-Vorabprüfung; bei hohem Risiko vollständige DSFA.
Empfohlen (Patientensicherheit und Qualität):
– Checklisten-Nachweis (Pre-Flight/Review pro Dokumenttyp).
– Stichproben-Audit-Protokolle (monatlich/quartalsweise).
– Schulungsnachweise (KI-Kompetenz, Auffrischung).
– Incident-Log (Datenpanne, Fehloutput, Near Miss) und Lessons Learned.
Muster: Interne KI-Nutzungsrichtlinie (eine Seite)
Die folgende Skizze ist als Ausgangspunkt gedacht, nicht als fertiges Dokument. Sie unterscheidet MUSS-Punkte (guidance-nah, normgestützt) und SOLL-Punkte (empfohlene Praxis, qualitätsgetrieben):
Muster: Interne KI-Nutzungsrichtlinie
Version: ___ | Gültig ab: ___ | Owner: ___ | Review: ___ (jährlich / bei Tool-Wechsel)
1. Scope und Grundsatz
MUSS: KI-Assistenz dient ausschließlich der Strukturierung, sprachlichen Klarheit und Entwurfserstellung auf Basis vorhandener klinischer Informationen. Keine Diagnostik-, Indikations- oder Therapieautomatisierung. Keine ungeprüfte Übernahme.
2. Datenschutz und Schweigepflicht
MUSS: Nur freigegebene Tools mit AVV (Art. 28 DSGVO) und dokumentierter Geheimhaltungskette (§ 203 StGB). Datenminimierung: nur erforderliche Inhalte. Identifikatoren entfernen/abstrahieren. Drittlandtransfer: nur bei dokumentiertem Transferinstrument.
SOLL: Lokale/on-premise-Lösungen bevorzugen, wenn praxistauglich.
3. Qualitätssicherung
MUSS: Review-Checkliste für jeden KI-assistierten Text. High-Risk (Gutachten, Krisen, forensisch): Vier-Augen-Prinzip.
SOLL: Red-Team-Prompts bei neuen Use Cases. Stichproben-Audits quartalsweise.
4. Dokumentation und Audit
MUSS: Versionierung im PVS („KI-assistiert“ kennzeichnen). Änderungen nachvollziehbar. Metadaten-Logging ohne Patientendaten im Prompt-Log.
SOLL: Stichproben-Audits und jährlicher Governance-Review.
5. Schulung und KI-Kompetenz
MUSS: Alle Nutzer:innen absolvieren KI-Kurzschulung (Risiken, Bias, Datenschutz, Prompt-Hygiene).
SOLL: Auffrischung halbjährlich; Lessons Learned aus Vorfällen.
6. Incident Response
MUSS: Bei Datenpanne, falschem Output in Akte oder Patient:innengefährdung: Incident melden, Dokument korrigieren (mit Änderungsnachweis), Ursachenanalyse, ggf. Datenschutzmeldung (Art. 33/34 DSGVO).
8.6 Patient:inneninformation
Transparenz gegenüber Patient:innen ist keine Formalität, sondern Beziehungsarbeit. Wer KI als Schreibassistenz nutzt, sollte dies kommunizieren können – ohne zu dramatisieren und ohne zu bagatellisieren. Die KBV empfiehlt Transparenz und Information (Kassenärztliche Bundesvereinigung, 2025b). Die folgende Information ist als Aushang oder Beiblatt gedacht:
Information zur Verwendung von KI als Schreibassistenz
In unserer Praxis nutzen wir in bestimmten Situationen eine digitale Schreibassistenz, die Texte strukturieren oder sprachlich klarer formulieren kann. Das kann z. B. helfen, Sitzungsnotizen übersichtlicher zu machen oder Berichte verständlicher zu schreiben.
Wichtig:
– Die Schreibassistenz trifft keine Entscheidungen über Ihre Behandlung.
– Inhaltliche Verantwortung und fachliche Bewertung liegen immer bei Ihrer Therapeutin / Ihrem Therapeuten.
– Jeder Text wird von uns geprüft, bevor er in Ihre Akte übernommen oder weitergegeben wird.
Datenschutz:
– Wir achten darauf, so wenig Daten wie möglich zu verwenden.
– Wir nutzen nur freigegebene Systeme, die wir datenschutzrechtlich geprüft haben.
– Wenn für bestimmte Verarbeitungen eine besondere Einwilligung erforderlich wäre, sprechen wir Sie vorher an.
Ihre Fragen sind willkommen. Wenn Sie wissen möchten, ob und wie wir die Schreibassistenz in Ihrem Fall nutzen, sprechen Sie uns bitte an.
Fazit: Drei Leitlinien für den Dritten im Behandlungszimmer
Dieser Artikel hat versucht, eine Landkarte zu zeichnen – nicht für die Frage „KI ja oder nein?“, sondern für die Frage „Welche Daten, in welchem Setup, unter welchen Kontrollen?“ Die Landkarte hat drei Normschichten (Schweigepflicht, Datenschutz, Berufsrecht), ein Stufenmodell (T0–T11), eine Tool-Typologie, sechzehn klinische Qualitätsrisiken, einen Prozess-Dreischritt und Governance-Bausteine. Das ist viel Material. Es lässt sich in drei Leitlinien verdichten:
Erstens: Das Risiko liegt im Datenweg, nicht in der Technologie.
Generative KI ist weder Rettung noch Ruin. Sie ist ein Werkzeug mit spezifischen Eigenschaften: einem Gedächtnis, das nicht dem der Therapeut:in gehört; einer Neigung zur Glättung, wo Ambivalenz angemessener wäre; einer Freundlichkeit, die keine klinische Urteilskraft ersetzt. Die entscheidende Variable ist nicht „KI“, sondern „Datenweg“: Was wird eingegeben, wohin fließt es, wer hat Zugriff, wie lange wird es gespeichert, wie identifizierbar ist es? Wer diese fünf Fragen beantworten kann, kann verantwortlich entscheiden. Wer sie nicht beantworten kann, sollte bei T0 bleiben.
Zweitens: Pseudonymisiert ist nicht anonym – und der biographische Fingerabdruck ist die Regel, nicht die Ausnahme.
Psychodynamische Texte sind strukturell re-identifizierend. Nicht durch einen einzelnen Marker, sondern durch die Konstellation aus Beziehungsmuster, Abwehrorganisation, Krisenauslöser, biographischen Landmarken. Wer den PTV-3 schreibt, verdichtet – und erzeugt damit einen Fingerabdruck. Die Konsequenz: Nicht jede Namensentfernung ist Anonymisierung. Die Prüfung muss konstellationsbezogen sein, nicht merkmalsbezogen. Das Stufenmodell T0–T11 bietet dafür ein Raster; die drei Vignetten machen die Logik sichtbar.
Drittens: Qualitätssicherung ist Patientensicherheit in Textform.
Selbst wenn der Datenschutz perfekt gelöst wäre, blieben sechzehn klinische Qualitätsrisiken: von Halluzination über Bedeutungsverschiebung bis zur Verwischung klinischer Autorenschaft. Die Antwort ist nicht Verzicht, sondern Prozessdesign: Pre-Flight-Checkliste, Review-Checkliste, Red-Team-Prompts, Audit-Trail, Vier-Augen-Prinzip bei High-Risk-Texten. KI-Texte sind Entwürfe – nicht mehr. Die Endfassung muss als von der behandelnden Person verantworteter Text erkennbar sein, gelesen und geprüft, unterschrieben im wörtlichen und im übertragenen Sinn.
Was bleibt? Die Szene aus Kapitel 1: Es ist nach 20 Uhr, der PTV-3-Bericht ist halbfertig, und im Browser ist noch der ChatGPT-Tab offen von heute Nachmittag. Die Antwort auf die Frage, ob man die Stichpunkte dort hineinkopieren sollte, hängt nicht davon ab, ob man ein Freund oder ein Feind der Technologie ist. Sie hängt davon ab, ob man weiß, was man eingibt, wohin es fließt und wie man prüft, was zurückkommt. Wenn ja: Kopieren Sie. Wenn nein: Warten Sie – und lesen Sie diesen Artikel noch einmal.
Literaturverzeichnis
Hinweis: Sofern Weblinks verfügbar sind, wurden sie zuletzt im Februar 2026 geprüft. Gesetzestexte beziehen sich auf die zum Zeitpunkt der Erstellung geltende Fassung.
Article 29 Working Party. (2014). Opinion 05/2014 on anonymisation techniques (WP216). https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf
Asgari, E., Plurad, D., Ghasemi, M., Richardson, C. & Stiennon, N. (2025). A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation. npj Digital Medicine, 8(1), Art. 45. https://doi.org/10.1038/s41746-025-01670-7
Bundesbeauftragte für den Datenschutz und die Informationsfreiheit. (2025). KI-Handreichung: Praxishilfe zum Einsatz generativer KI-Systeme. https://www.bfdi.bund.de/SharedDocs/Downloads/DE/Dokumente/KI-Handreichung.pdf
Bundesministerium der Justiz. (o. J.-a). § 203 StGB – Verletzung von Privatgeheimnissen. Strafgesetzbuch. https://www.gesetze-im-internet.de/stgb/__203.html
Bundesministerium der Justiz. (o. J.-b). § 630f BGB – Dokumentation der Behandlung. Bürgerliches Gesetzbuch. https://www.gesetze-im-internet.de/bgb/__630f.html
Bundesministerium der Justiz. (o. J.-c). § 630g BGB – Einsichtnahme in die Patientenakte. Bürgerliches Gesetzbuch. https://www.gesetze-im-internet.de/bgb/__630g.html
Bundesärztekammer. (2025). Stellungnahme „Künstliche Intelligenz in der Medizin“. https://www.bundesaerztekammer.de/fileadmin/user_upload/wissenschaftlicher-beirat/Veroeffentlichungen/KI_in_der_Medizin_SN_neu.pdf
Bundespsychotherapeutenkammer. (2018). Muster-Berufsordnung für Psychologische Psychotherapeutinnen und Psychotherapeuten und für Kinder- und Jugendlichenpsychotherapeutinnen und -psychotherapeuten. https://www.bptk.de/recht/muster-berufsordnung/
Datenschutzkonferenz. (2018). Liste der Verarbeitungstätigkeiten, für die eine Datenschutz-Folgenabschätzung durchzuführen ist. https://www.datenschutzkonferenz-online.de/media/ah/20181017_ah_DSK_DSFA_Muss-Liste_Version_1.1_Deutsch.pdf
Datenschutzkonferenz. (2024). Orientierungshilfe: Künstliche Intelligenz und Datenschutz (Version 1.0). https://www.datenschutzkonferenz-online.de/media/oh/20240506_DSK_Orientierungshilfe_KI_und_Datenschutz.pdf
Datenschutzkonferenz. (2025a). Orientierungshilfe: Technische und organisatorische Maßnahmen bei KI-Systemen. https://www.datenschutzkonferenz-online.de/media/oh/DSK_OH_TOMs_KI.pdf
Datenschutzkonferenz. (2025b). Orientierungshilfe zu datenschutzrechtlichen Besonderheiten generativer KI-Systeme mit RAG-Methode (Version 1.0). https://www.datenschutzkonferenz-online.de/media/oh/DSK_OH_RAG.pdf
de Montjoye, Y.-A., Hidalgo, C. A., Verleysen, M. & Blondel, V. D. (2013). Unique in the crowd: The privacy bounds of human mobility. Scientific Reports, 3(1), Art. 1376. https://doi.org/10.1038/srep01376
European Data Protection Board. (2021). Recommendations 01/2020 on measures that supplement transfer tools to ensure compliance with the EU level of protection of personal data (Version 2.0). https://www.edpb.europa.eu/system/files/2021-06/edpb_recommendations_202001vo.2.0_supplementarymeasurestransferstools_en.pdf
European Data Protection Board. (2025). Guidelines 01/2025 on pseudonymisation. https://www.edpb.europa.eu/system/files/2025-01/edpb_guidelines_202501_pseudonymisation_en.pdf
European Data Protection Board Support Pool of Experts. (2024). AI privacy risks and mitigations: LLMs. https://www.edpb.europa.eu/system/files/2024-06/edpb_ai_privacy_risks_mitigations_llms_en.pdf
Europäisches Parlament & Rat der Europäischen Union. (2016). Verordnung (EU) 2016/679 über den Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten (DSGVO). Amtsblatt der Europäischen Union, L 119. https://eur-lex.europa.eu/legal-content/DE/TXT/?uri=CELEX:32016R0679
Europäisches Parlament & Rat der Europäischen Union. (2024). Verordnung (EU) 2024/1689 zur Festlegung harmonisierter Vorschriften für künstliche Intelligenz (AI Act). Amtsblatt der Europäischen Union, L 1689. https://eur-lex.europa.eu/legal-content/DE/TXT/?uri=CELEX:32024R1689
Himmelstein, G., Bates, D. & Zhou, L. (2022). Examination of stigmatizing language in the electronic health record. JAMA Network Open, 5(1), e2144967. https://doi.org/10.1001/jamanetworkopen.2021.44967
Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A. & Fung, P. (2023). Survey of hallucination in natural language generation. ACM Computing Surveys, 55(12), Art. 248. https://doi.org/10.1145/3571730
Kassenärztliche Bundesvereinigung. (2025a). IT-Sicherheitsrichtlinie nach § 390 SGB V. https://www.kbv.de/media/sp/richtlinie_it-sicherheit.pdf
Kassenärztliche Bundesvereinigung. (2025b). PraxisWissen: Künstliche Intelligenz – Hinweise zum Einsatz in Praxen. https://www.kbv.de/documents/infothek/publikationen/praxiswissen/praxiswissen-ki.pdf
Lekadir, K., Osuala, R., Gallin, C., Lazrak, N., Kushibar, K., Tsakou, G., … & Papernot, N. (2025). FUTURE-AI: International consensus guideline for trustworthy and deployable artificial intelligence in healthcare. BMJ, 388, e081554. https://doi.org/10.1136/bmj-2024-081554
Meystre, S. M., Friedlin, F. J., South, B. R., Shen, S. & Samore, M. H. (2010). Automatic de-identification of textual documents in the electronic health record: A review of recent research. BMC Medical Research Methodology, 10(1), Art. 70. https://doi.org/10.1186/1471-2288-10-70
Narayanan, A. & Shmatikov, V. (2008). Robust de-anonymization of large sparse datasets. In Proceedings of the 2008 IEEE Symposium on Security and Privacy (S. 111–125). IEEE. https://doi.org/10.1109/SP.2008.33
National Institute of Standards and Technology. (2015). De-identification of personal information (NISTIR 8053). https://doi.org/10.6028/NIST.IR.8053
National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0) (NIST AI 100-1). https://doi.org/10.6028/NIST.AI.100-1
Ohm, P. (2010). Broken promises of privacy: Responding to the surprising failure of anonymization. UCLA Law Review, 57(6), 1701–1777.
Omar, M., Patel, J., Gul, S., Singh, R., Marsh, A., Chen, E., … & Park, S. (2025). Vulnerability of LLMs to adversarial hallucination attacks in clinical decision support. Communications Medicine, 5(1), Art. 23. https://doi.org/10.1038/s43856-025-01021-3
OWASP. (2025). OWASP Top 10 for LLM Applications. https://owasp.org/www-project-top-10-for-large-language-model-applications/
Park, J., Saha, S., Chee, B., Taylor, J. & Beach, M. C. (2021). Physician use of stigmatizing language in patient medical records. JAMA Network Open, 4(7), e2117052. https://doi.org/10.1001/jamanetworkopen.2021.17052
Psychotherapeutenkammer Bayern. (2014). Berufsordnung für die Psychologischen Psychotherapeutinnen und -therapeuten und die Kinder- und Jugendlichenpsychotherapeutinnen und -therapeuten Bayerns. https://www.ptk-bayern.de/ptk/web.nsf/gfx/berufsordnung/$file/berufsordnung.pdf
Sun, M., Ozonoff, A., Goss, F. R. & Bhatt, D. L. (2022). Negative patient descriptors: Documenting racial bias in the electronic health record. Health Affairs, 41(2), 203–211. https://doi.org/10.1377/hlthaff.2021.01423
Sweeney, L. (2000). Simple demographics often identify people uniquely (Carnegie Mellon Data Privacy Working Paper 3). https://dataprivacylab.org/projects/identifiability/paper1.pdf
Tam, A., Stanceski, K., Bolton, E., Bakhshaie, J. & Miner, A. S. (2024). The quality and safety of using generative AI to produce patient-centred discharge instructions. npj Digital Medicine, 7(1), Art. 336. https://doi.org/10.1038/s41746-024-01336-w
Tsou, A. Y., Lehmann, C. U., Michel, J., Solomon, R., Possanza, L. & Gandhi, T. (2017). Safe practices for copy and paste in the EHR: Systematic review, recommendations, and novel model for health IT collaboration. Applied Clinical Informatics, 8(1), 12–34. https://doi.org/10.4338/ACI-2016-09-R-0150
Working Party 29. (2017). Leitlinien zur Datenschutz-Folgenabschätzung (DSFA) und Beantwortung der Frage, ob eine Verarbeitung „wahrscheinlich ein hohes Risiko mit sich bringt“ (WP248). https://ec.europa.eu/newsroom/article29/items/611236/en
World Health Organization. (2021). Ethics and governance of artificial intelligence for health: WHO guidance. https://www.who.int/publications/i/item/9789240029200
Zaretsky, J., Kim, J., Baskharoun, S., Zhao, A. Y. & Goss, F. R. (2024). Generative artificial intelligence to transform inpatient discharge summaries to patient-friendly language and format. JAMA Network Open, 7(3), e243853. https://doi.org/10.1001/jamanetworkopen.2024.3853


Resonanz & Reflexion