Last Edited:
Nov 17, 2023

Standortfinder mit Google Vision & KI – mein GeoGuessr Side-Tool
Ein kleines Experiment, das überraschend gut funktioniert hat: Ich wollte herausfinden, wie weit man mit heutigen KI-Tools kommt, um auf Basis eines Screenshots aus Google Street View oder GeoGuessr automatisch den Standort zu bestimmen – in wenigen Sekunden, ohne händische Recherche.
Die Grundidee
Beim Spielen von GeoGuessr fiel mir auf, wie oft Schilder, Schriftzüge oder Werbebanner Hinweise auf den Standort liefern. Warum also nicht automatisieren?
Die Grundidee war:
Screenshot des Bildschirms (automatisch)
Texterkennung aus dem Bild
Analyse durch eine KI mit Geografie-Verständnis
Rückgabe von Land, Region und Hauptstadt
Technisches Setup
Das Ganze habe ich in Python umgesetzt – mit einer Mischung aus APIs und etwas Automatisierung.
1. Screenshot aufnehmen
Über ein kleines Python-Script wurde beim Starten der Analyse ein Screenshot vom aktiven Bildschirmbereich gemacht (z. B. vom GeoGuessr-Fenster). Dieser wurde temporär gespeichert und direkt weiterverarbeitet.
2. Texterkennung mit Google Vision
Anschließend ging der Screenshot an die Google Vision API.
Die API erkannte zuverlässig gedruckte Schriften, auch in verschiedenen Sprachen – z. B. Straßenschilder auf Russisch, französische Ladenbeschriftungen oder arabische Schriftzeichen.
Spannend: Obwohl die API keine Bildinhalte wie Landschaften oder Architektur verstand, reichten die extrahierten Textinformationen oft aus, um geografische Rückschlüsse zu ziehen.
3. Analyse mit ChatGPT
Die ausgelesenen Texte (z. B. „Rue de la République“, „Vodafone GR“, „ул. Ленина“) wurden dann an ChatGPT gesendet – zusammen mit einem gezielten Prompt.
Beispiel-Prompt (verkürzt):
"Analysiere diesen Textauszug aus einem Straßenbild. Gib mir das wahrscheinliche Land, eine Region oder Stadt in der Nähe, und die Hauptstadt des Landes."
Die KI kombinierte Spracherkennung, bekannte Ortsnamen und logische Rückschlüsse und gab in wenigen Sekunden eine Ortseinschätzung aus.
Ergebnisse
Die Treffgenauigkeit war oft beeindruckend – vor allem bei Ländern mit markanter Sprache oder Schrift.
Beispiele:
Kyrillisch + ".ru"-Domain → Russland
Arabische Schrift + Coca-Cola Plakat → Ägypten
Französisch + tropische Vegetation → Réunion oder Martinique
Natürlich war das Tool kein vollwertiger GeoGuessr-Cheater – aber eine erstaunlich schnelle Hilfe, vor allem bei schwierigeren Runden.
Fazit
Dieses Projekt war für mich ein spannender Proof of Concept, wie weit man mit frei zugänglichen Tools kommen kann.
Besonders interessant war das Zusammenspiel von:
klassischer Texterkennung (Google Vision),
moderner KI-Sprachanalyse (ChatGPT),
und automatisierter Pipeline in Python.
Auch wenn ich das Tool nicht weiter produktiv nutze, war es ein schöner Hack, der zeigt, wie viel Potenzial noch in der Kombination von APIs, KI und ein bisschen Skripting steckt.