man sieht diffuse, verschwommene Textzeilen vor blauem Hintergrund - wie Datenreihen auf einem Bildschirm

Migration Forecast EU

Ist eine Vorhersage der EU-Binnenmobilität nach Deutschland mit Google Trends-Daten möglich? Das explorative Data Science-Projekt mit der Laufzeit von 2020 bis 2022 hatte zum Ziel, diese Frage zu beantworten.

Ansprechpartner

Foto Nicholas Steinbrink
Dr. Nicholas Steinbrink
Senior Expert

Zusammenfassung

Bisherige Migrationsvorhersagen basieren entweder auf einer rein mathematischen Fortschreibung bisheriger Migration oder auf der Einschätzung von sozio-ökonomischen Rahmenbedingungen, ohne ihre jeweilige Stärke oder den Wirkungszeitpunkt explizit zu kennen. Dadurch erhöht sich die Ungenauigkeit möglicher Vorhersagen enorm. Im Gegensatz dazu stellt die in den letzten Jahren fortgeschrittene Erfassung der Internetnutzung und das Vorhandensein dieser Big Data eine neue Möglichkeit dar, um daraus eine realistische Trendvorhersage abzuleiten.

Das Projekt „Migration Forecast EU“ hat einen Beitrag für die Migrationsforschung geleistet, indem es explorativ die Möglichkeiten der Vorhersage von EU-Binnenmigration nach Deutschland anhand von digitalen Daten ausgelotet hat: Im Projekt wurde ermittelt, ob eine bessere Migrationsvorhersage auf Basis von digitalen Daten im Vergleich zu den herkömmlichen statistischen Methoden möglich ist.

Hierbei bildeten Google-Suchanfragen, die auf eine Migrationsplanung von Personen aus den EU-Staaten nach Deutschland schließen lassen, die hauptsächliche Datengrundlage. Wir haben eine Data Story zusammengestellt, die die Projektidee darlegt:
Deutsch: https://public.flourish.studio/story/1154407/
Englisch: https://public.flourish.studio/story/1154375/

Nach Abschluss der Modellierungsphase wurde deutlich, dass sich die Migrationsvorhersage zwar durch Google-Trends-Daten verbessern lassen, jedoch nur in einem sehr geringen Maße. Die Gründe hierfür liegen in der mangelnden Datenqualität bzw. technischen Limitationen von Google-Trends-Daten (die sich in Zukunft verbessern könnten) und der individuellen Migrationsvorbereitung und -planung, die weiterhin zu einem beträchtlichen Teil „offline“ und über andere Kommunikationskanäle vollzogen werden. Die ursprüngliche Idee, ein eigenes automatisiertes Vorhersageinstrument zu entwicklen, war auf Basis dieser Ergebnisse nicht mehr gerechtfertigt.

Ausgangslage und Herausforderungen

Migrationspolitik und Migrationssteuerung sind inzwischen ein wichtiger Teil der Arbeitsmarktpolitik von OECD-Ländern. Migration hilft – je nach Land – regional, saisonal und demografisch bedingte oder branchenspezifische Engpässe auf dem Arbeitsmarkt zu mindern. Dazu kommt im Fall Deutschlands noch der besondere Rahmen der EU-Mitgliedschaft hinzu, die Migration innerhalb der Union als ungehinderte Binnenmobilität versteht. Deutschland ist einer der größten Profiteure dieser Regelung und die EU-Binnenmigration ist die wichtigste Quelle für (Fachkräfte-)Migration, insbesondere seit der Osterweiterung der EU. Es ist jedoch absehbar, dass sich diese Situation mittelfristig ändern wird, weil Deutschland gegenwärtig bereits einen sehr hohen Anteil an EU-Migration anzieht, die übrigen EU-Staaten ähnlich überaltern wie Deutschland und das Wohlstandsniveau in Osteuropa sich stetig erhöht.

Einer der Faktoren, der die Migrationspolitik erschwert, ist die Ungewissheit über Umfang und Ziele zukünftiger Migrationsbewegungen. Sei es Arbeits- und Bildungsmigration, Familienzusammenführung oder Fluchtmigration – sie alle werden durch verschiedene sozio-ökonomische und politische Push-und-pull-Faktoren angetrieben, die nur begrenzt von den Zielländern beeinflusst werden können. Die Gründe, die zu einer Auswanderungsabsicht führen, sind sehr kontextabhängig (Land, Gesetze, Krisen) und zielgruppenspezifisch (Bildung, Kapital, Diaspora/Kontakte, Opportunität).

Eine Trendvorhersage für Migration ist somit ein hilfreiches Instrument für eine planende Migrations- und Arbeitsmarktpolitik, weil sie Hinweise auf kurzfristige Veränderungen des migrantischen Arbeitskraftangebots liefern kann. Die bisher üblichen Methoden zur Migrationsprognose kombinieren Daten aus Anmeldungen, Asyl-Registrierungen, Grenzüberquerungen und Personensichtungen, fassen diese zusammen und schreiben die Zeitreihe mathematisch fort. Darüber hinaus gibt es weitere Ansätze, die Pull-und-push-Faktoren als quantitative Faktoren einfließen lassen (Jugendarbeitslosigkeit, Lohnunterschiede) oder qualitative Einschätzung von Experten berücksichtigen. Jedoch kommt jeder dieser verschiedenen Methoden zu stark unterschiedlichen Ergebnissen und verdeutlicht damit die große Ungenauigkeit von Migrationsvorhersagen im Allgemeinen, die auf die hohen Varianzen und dem nicht abbildbaren Zusammenspiel der vielen Migrationsfaktoren zurückzuführen ist.

Grundlegende Überlegungen

Um die Erfolgsaussichten für das geplante Projekt zu erhöhen, sind zwei grundlegende Entscheidungen getroffen worden, die die Varianz der Migrationsfaktoren bei der Vorhersage senken:

a) Die Beschränkung auf EU-Binnenmigration/-mobilität: Dies verringert die Komplexität und das nötige Datenvolumen des Projekts und eliminiert viele politisch-administrativ-strukturellen Variablen, die eine Migrationsvorhersage extrem erschweren (wie z.B. bewaffnete Konflikte, Einreisebestimmungen). Somit wird das vorliegende Projekt zu einem fokussierteren und einfacheren „case“ als andere Vorhaben, die weltweite Migration im Blick haben.

b) Die Trendvorhersage primär auf Basis von individueller Migrationsplanung statt einer Auswertung der Push-und-Pull-Faktoren, die zu einer Migration führen: Hierdurch wird die Varianz der allgemeinen Migrationsgründe umgangen und die Vorhersage basiert primär auf dem Verhalten von Personen, die sich bereits entschlossen haben zu migrieren und weniger auf den sozio-ökonomischen Rahmenbedingungen die potentiell zu Migration führen. Digitale Daten ermöglichen inzwischen, die individuelle Auswanderungsabsicht stärker zeitnah und unmittelbar darzustellen, nämlich indem das aktive Verhalten von Personen hinsichtlich Informationssuche zur Auswanderung und Migrationsplanung erfasst wird.

Als Hauptdatenquelle wurde die Auswertung der Google-Schlagwortsuche (Google Trends) verwendet, die mit einem Suchmaschinen-Marktanteil von rund 94% (2019) eine sehr gute Informationsbasis darstellt. So existiert einerseits eine Korrelation zwischen migrationsspezifischen Suchanfragen und Migrationsabsicht als auch zwischen Migrationsabsicht und erfolgter Migration. Daher ist die Schlagwortsuche eine kontinuierliche, datenreiche und zeitnahe Komponente des Migration-Forecast-Algorithmus.

Der geplante Forecast-Algorithmus wurde anhand vorhandener Input- und Output-Daten der Vergangenheit modelliert, trainiert und getestet, und hat dadurch den existierenden Zusammenhang zwischen Migrations-Schlagwortsuche und Migrationszahlen abgebildet und war als Grundlage für die zukünftige Vorhersage gedacht. Inputdaten sind in diesem Fall Google-Trends-Werte für ausgewählte Schlagwörter, die auf eine Migrationsabsicht/
-planung schließen lassen und dazu ergänzend die Differenz von BIP und Arbeitslosenquote zwischen Herkunftsland und Deutschland, die als Strukturdaten die Modellierung stabilisieren sollten. Outputdaten sind die Wanderungszahlen nach Deutschland.

Auf die Erfassung der Mobilität von Deutschland in andere EU-Staaten wurde in diesem Projekt verzichtet, weil hierbei die Migrationserfassung sehr hohe Lücken aufweist und das Google-Suchverhalten von Rückkehrern sich stark von (Erst-)Einwanderern unterscheidet, so dass sie kaum messbar und verifizierbar sind. Daher beschränkt sich die Modellierung nur auf die Einwanderungen nach Deutschland und nicht auf Abwanderungen oder das Wanderungssaldo.

Vorgehensweise

Schlagwortentwicklung: Ursprünglich wurde eine Schlagwortliste von ca. 150 Wörtern entwickelt, um eine breite und detaillierte Datenbasis bei Google Trends zu erreichen. Jedes Schlagwort sollte auf Englisch, Deutsch und der jeweiligen Landessprache verwendet werden. Erste Tests haben jedoch gezeigt, dass viele verwendete Schlagwörter nicht populär genug waren und somit zu wenig Daten-Antworten bei Google Trends generiert haben. Ein Grund hierfür war auch der Schwellenwert, über den das Suchvolumen jedes Schlagwortes kommen muss, damit Google Trends eine Antwort zurückgibt. Daraufhin wurden folgende Schritte unternommen, um häufiger über den Schwellenwert zu gelangen: 1) Die Schlagwörter wurden in rund 50 inhaltliche Wortgruppen zusammengefasst, 2) die Google-Trends-Anfrage erfolgte nicht mehr einzeln für jede vorgesehene Sprache sondern für alle drei zusammen, und 3) die Schlagwörter in den Landessprachen wurden jeweils um die lateinisierte Schreibweise ergänzt. Die gesamten Schlagwörter/Gruppen finden Sie hier.

Datenqualität: Ursprünglich war geplant, Google-Trends-Daten von 2005 bis 2020 mit jeweils einem monatlichen Abstand für die Modellierung zu verwenden. Jedoch wurde deutlich, dass die Datenqualität schlechter wurde, je älter die Daten waren. So ergaben Google-Trends-Anfragen für die Jahre vor 2007 kaum verwertbare Rückmeldungen und bei Anfragen vor 2010 gab es zwar ausreichend Daten-Rückmeldungen, sie enthielten jedoch zu viele Monate ohne Daten. Daher wurden für die Modellierung nur Google-Trends-Daten der Jahre 2010 bis 2020 verwendet und jede Anfrage wurde mehrmals wiederholt und anschließend gemittelt, um die Datenabdeckung zu verbessern. Die Datenqualität insbesondere bei Ländern mit weniger als 5 Millionen Einwohnern blieb jedoch weiterhin ein Problem.

Modellierung: Von den vorliegenden Datenreihen (Anmeldungen EU-Bürger, Google Trends, BIP und Arbeitslosenquote) wurde für jedes Quartal die Änderung zum entsprechenden Quartal des Vorjahres berechnet. Verschiedene Regressionsmodelle wurden trainiert, mit denen für jedes Herkunftsland der Zusammenhang zwischen Outputdaten und zeitlich verzögerten Inputdaten nachgebildet werden kann. Dabei kamen sowohl Modelle der klassischen Statistik (z.B. lineare Regression) sowie moderne Machine-Learning-Verfahren (z.B. Random Forest, Multilayer Perceptron) zum Einsatz. Für die Evaluation der Vorhersagegenauigkeit wurden abschnittsweise Teile der Zeitreihen aus dem Modelltraining herausgehalten und danach mit dem trainierten Modell versucht, vorherzusagen (Kreuzvalidierung). Aus dem Vergleich der Vorhersagegenauigkeit mit und ohne Google-Daten lässt sich der Erfolg der Methode bemessen.

Der Quellcode für das Einlesen und Transformieren der Daten, die Modellierung und die darauffolgenden Analysen sind als Open Source unter https://github.com/bertelsmannstift/eu-migration-forecast verfügbar.

Ergebnisse

Durch die Modellierung des Forecast-Algorithmus und das Überprüfen der vorhergesagten Werte durch die Kreuzvalidierung wurde deutlich, dass eine Google-Trends-basierte Vorhersage die bisherige statistische Methode der Zeitreihenfortschreibung übertrifft, jedoch nur um einige Prozent. Prinzipiell war die entwickelte Methode besser imstande, Anstiege vorherzusagen als Abnahmen. Die bessere Performance des Google-Trends-Modells war zudem nur in bestimmten Ländern zu beobachten. Es konnte jedoch – im Gegensatz zur herkömmlichen Methode – extrem starke Anstiege besser vorhersagen. Die Projektergebnisse zeigen, dass Big-Data-basierte Vorhersagemethoden in der Zukunft eine größere Rolle spielen können, da ihr Potenzial bereits jetzt sichtbar ist, jedoch begrenzt wird durch die mangelnde Datenqualität und die Tatsache, dass ein großer Teil der Migrationsvorbereitung weiterhin offline stattfindet.

Die Ergebnisse des Projekts „Migration Forecast EU“ wurden am 3. Juni 2022 in Berlin einem Kreis an Experten vorgestellt. Diese Präsentation finden Sie hier.

Beteiligte Personen

Folgende Personen waren als Projektverantwortliche und beratende Experten an dem Projekt beteiligt: Dr. Orkan Kösemen (Senior Project Manager, BSt), Dr. Nicholas Steinbrink (Senior Expert Data Science, BSt),  Leonard Mandtler (Senior Expert Data Science, BSt), Dr. Ingmar Weber (Research Director, Qatar Computing Research Institute), Prof. Dr. Tobias Heidland (Senior Economist, Institut für Weltwirtschaft), Prof. Dr. André Gröger (Universitat Autonoma de Barcelona), Dr. Emilio Zagheni (Director, Max-Planck-Institut für Demografische Forschung).