Navigation und Service

Wie wird die Anonymität beim Zensus 2011 gesichert?

An die statistischen Ämter wurde vielfach die Frage herangetragen, wie sichergestellt wird, dass nach der Veröffentlichung der Zensusergebnisse keine Rückschlüsse auf einzelne Personen möglich sind. Wie die Anonymisierung der Ergebnisse beim Zensus 2011 funktioniert, erklären wir Ihnen hier.

Die Einzeldaten für die Zensusergebnisse stammen sowohl aus vorhandenen Registern als auch aus direkten Befragungen. Anhand von Hilfsmerkmalen wie Name und Adresse führen die statistischen Ämter die Informationen für jede Person zusammen. Nach dieser Zusammenführung haben die sensiblen Hilfsmerkmale ihre Funktion erfüllt und werden von den Erhebungsmerkmalen getrennt und gelöscht. Übrig bleiben nur die für die statistische Auswertung interessierenden Erhebungsmerkmale. Damit ist ein unmittelbarer Rückschluss auf eine einzelne Person (beispielsweise anhand des Namens) nicht mehr möglich.

Darüber hinaus muss aber auch sichergestellt werden, dass man nicht anhand einmaliger Merkmalskombinationen Rückschlüsse auf einzelne Personen ziehen – und damit die Anonymisierung „aushebeln“ – kann.

Schutz der Einzeldaten…

Man stelle sich zum Beispiel vor, in einem kleinen Ort lebt nur ein einziger 93-jähriger Mann. Würde dieser Einzelfall in einer Tabelle mit Altersbezug veröffentlicht, wäre der Mann vermutlich für viele Mitmenschen auch ohne Nennung seines Namens zu identifizieren. Das heißt, man könnte aus den Zensusergebnissen relativ viel über diesen Mann erfahren, zum Beispiel in was für einer Wohnung er lebt, welcher Religion er angehört, was für eine Ausbildung er hat, ob er verheiratet ist usw.

Vor so einer Situation ist der Einzelne unbedingt zu schützen. Schließlich gilt für alle amtlichen Statistiken in Deutschland der zentrale Grundsatz, dass die Einzelangaben der Befragten strikt geheim zu halten sind (Statistikgeheimnis, vgl. § 16 BStatG).

…versus Aussagekraft der Daten

Neben diesem geforderten Schutz der Daten gibt es aber noch eine andere, gleichberechtigte Anforderung an die Zensusergebnisse: Sie sollen die Bevölkerungsstrukturen auch im Detail möglichst gut beschreiben. Denn das Besondere an den Zensusergebnissen ist ja gerade, dass die Daten bis auf die Gemeindeebene verfügbar sind und damit eine einmalige Datengrundlage bilden.

Diese beiden Anforderungen – weitgehende Erhaltung des Analysepotenzials und Sicherstellung der Anonymität – müssen miteinander in Einklang gebracht werden. Das leistet SAFE – ein Verfahren für die sichere Anonymisierung für Einzeldaten – das wir Ihnen im Folgenden näher bringen möchten.

Die Lösung: das SAFE-Verfahren

Beim SAFE-Verfahren handelt es sich um ein datenveränderndes Verfahren, das ursprünglich von Mitarbeitern des Statistischen Landesamtes Berlin-Brandenburg entwickelt wurde.

Die Idee besteht darin, einen Datenbestand zu erzeugen, in dem jeder Einzeldatensatz mit mindestens zwei weiteren Datensätzen identisch ist und dieser Datenbestand somit keine Rückschlüsse mehr auf eine einzelne Person zulässt. Aus Einzel- oder Zweierfällen werden also entweder mindestens Dreier-Fälle gemacht oder aber eine Null ausgewiesen. Im Falle unseres 93-jährigen Mannes hieße das, dass man bei zwei anderen Fällen (möglichst ebenfalls Einzelfälle) das Alter ändert. Zum Beispiel würde man bei einem 92-Jährigen und einem 94-Jährigen das Alter leicht nach oben beziehungsweise unten ändern, so dass in der Tabelle drei 93-jährige Männer, aber kein 94-jähriger und kein 92-jähriger enthalten sind. Alternativ könnte man auch das Alter des 93-jährigen Mannes ändern, so dass in der Tabelle kein 93-jähriger Mann auftaucht.

Kleiner Exkurs: Warum muss es mindestens drei Fälle geben und nicht zwei?

Gäbe es nur zwei 93-jährige Männer in einer Gemeinde, so könnte sich der eine 93-jährige Mann anhand seiner Angaben vermutlich leicht in den Ergebnissen wiederfinden und hätte somit automatisch alle Informationen über den zweiten 93-jährigen. Ein ausreichender Schutz ist also erst ab drei Fällen gegeben.

Das datenverändernde SAFE-Verfahren mag für einen Nicht-Statistiker zunächst vielleicht sehr willkürlich klingen. Tatsächlich steckt dahinter aber ein streng durchdachtes und hochkomplexes wissenschaftliches Verfahren.

Durch die Datenveränderung erzeugt man bei sehr kleinen Fallzahlen eine gewisse Unsicherheit, so dass der Einzelne nicht identifiziert werden kann. Gleichzeitig bleibt aber die Qualität und statistische Aussagefähigkeit der Daten weitestgehend erhalten, denn die Daten werden immer nur so verändert, dass wichtige statistische Informationen und Verteilungen nur unwesentlich verändert werden.

Um bei unserem Beispiel des 93-jährigen Mannes zu bleiben: Wenn die Wohn- und Lebenssituation von älteren Menschen untersucht wird, geht es natürlich nicht um die exakte Anzahl der 93-jährigen, sondern eher um die Strukturdaten – also beispielsweise ob es in einer Gemeinde eher viele oder wenige ältere Menschen gibt und in einem zweiten Schritt zum Beispiel wie die Menschen im hohen Alter leben, ob sie verheiratet, verwitwet oder geschieden sind.

Die amtliche Einwohnerzahl wird als Originalwert nachgewiesen

Das SAFE-Verfahren wird zur Geheimhaltung der Personendaten, die aus dem Melderegister und der Befragung in Wohnheimen und Gemeinschaftsunterkünften gewonnen werden, sowie zur Geheimhaltung der Daten der Gebäude- und Wohnungszählung angewandt. Die amtliche Einwohnerzahl wird dagegen grundsätzlich als Originalwert (ohne Datenveränderung) nachgewiesen.

Bei den Ergebnissen aus der Haushaltebefragung bei etwa 10 % der Bevölkerung ist aufgrund der Hochrechnung und Rundung der Ergebnisse keine Datenveränderung nötig. Ergebnisse auf Basis sehr kleiner Fallzahlen werden bei der Haushaltebefragung nicht veröffentlicht werden.

Service

© Statistische Ämter des Bundes und der Länder 2014

Logo: Statistische Ämter des Bundes und der Länder