DOI: 10.21242/73111.2020.00.00.3.1.0
Lohn- und Einkommensteuerstatistik 2020, Scientific Use File (SUF)Die „Faktisch anonymisierten Daten aus der Lohn- und Einkommensteuerstatistik“ (FAST) bieten der Wissenschaft die Möglichkeit, politisch relevante Fragestellungen zum Steuer- und Transfersystem auf der Grundlage echter Veranlagungsdaten am eigenen Arbeitsplatz zu analysieren.
Die Datei ist eine Stichprobe mit einem Umfang von zehn Prozent der Einzeldaten der Einkommensteuerstatistik des jeweiligen Veranlagungsjahres. Sie enthält umfangreiche Informationen aus dem Besteuerungsverfahren, von den Einkommensquellen bis zur festgesetzten Einkommensteuer. Darüber hinaus sind Angaben zu Alter, Geschlecht, Familienstand und Kinderzahl enthalten.
Mit FAST ist eine gezielte Analyse der Einkommensverteilungen verschiedener gesellschaftlicher Gruppen möglich. Beispielhafte Merkmale sind: Religion, Veranlagungsart, Grund-/Splittingtabelle, Steuerklasse, Wirtschaftszweig, Zugehörigkeit zu den freien Berufen und regionale Zuordnung der Steuerpflichten. Die einzelnen Datensätze enthalten Angaben über je einen Steuerpflichtigen, der im Fall der gemeinsamen Veranlagung von Ehegatten zwei Personen beschreibt.
FAST ermöglicht außerdem Auswertungen nach dem Besteuerungsschema gemäß § 2 EStG über die einzelnen Einkunftsarten, Einkommen, zu versteuerndes Einkommen bis hin zur Steuerschuld des Steuerpflichtigen. Auch wenn bei der Anonymisierung größten Wert auf den Erhalt des Analysepotentials gelegt wurde sind nicht alle Fragestellungen der Wissenschaft exakt mit den Daten analysierbar. Unter Berücksichtigung dieser Einschränkung ist ein umfangreiches Datenmaterial aus der Lohn- und Einkommensteuerstatistik für die Wissenschaft mit geringen Kosten für steuerliche Analysen zugänglich.
Die Daten der FAST 2020 umfassen ca. 4,3 Millionen Beobachtungen und über 800 Merkmale.
Anonymisierungsmaßnahmen
Die Ausgangsdatenbasis für die FAST-Datei ist eine 10-Prozent-Stichprobe aus der Grundgesamtheit aller Einkommensteuerpflichtigen. Hierbei handelt es sich um eine optimierte Stichprobe, die in erster Linie nach dem Gesamtbetrag der Einkünfte geschichtet ist.
Als allgemeine Anonymisierungsmaßnahmen sind Merkmale vergröbert oder gelöscht worden. Spezifische Anonymisierungsmaßnahmen sind in Abhängigkeit der Höhe des Gesamtbetrags der Einkünfte vorgenommen worden, wobei für die Extrembereiche eine stärkere Anonymisierung als für mittlere oder niedrige Bereiche durchgeführt wurde. Hierfür wurden verschiedene Anonymisierungsklassen gebildet, für die unterschiedlich starke Anonymisierungsmaßnahmen vorgenommen worden sind. Nähere Informationen zu den Anonymisierungsmaßnahmen können dem Anonymisierungskonzept entnommen werden.