Page Title

Benutzer-Werkzeuge

Webseiten-Werkzeuge


mikeurban:anleitungen:import_datenpruefung-wertebereiche

Datenprüfung – Wertebereiche

Fehlende Werte oder Ausreißer

Die Suche nach fehlenden Werten oder Ausreißern, das sind auffällige Abweichungen nach oben oder unten, ist ganz einfach. Trotzdem werden Daten oft unkontrolliert an den Modellierer übergeben, und dementsprechend treten bereits bei dieser Prüfung viele Unregelmäßigkeiten zu Tage.

Tabellenkalkulationsprogramm

Markieren Sie den Datenbereich in Ihrer Tabelle und verwenden Sie den Befehl "Daten > Sortieren" um die Tabelle nach einem interessanten Attribut (Spalte) zu sortieren.

ArcMap

(1) Fügen Sie die interessanten Datensätze zu einem neuen ArcMap-Dokument hinzu; das können beispielsweise Shape-Dateien sein, die Sie vor dem Import inspizieren möchten.

(2) Öffnen Sie die Attributtabelle.

(3) Klicken Sie mit der rechten Maustaste auf einen Spaltenkopf und wählen Sie "Sortieren".

Zur Vertiefung kann man nach einem bestimmtes Attribut, beispielsweise nach der Geländehöhe, auch farblich klassifizieren, um Punkte zu finden, die zwar im normalen Wertebereich liegen, aber lokale Fehler darstellen.

MIKE URBAN

FIXME

Prüfungen im Kanalnetz

eventuell auch Haltungslänge prüfen, vor allem wegen sehr kurzer Haltungen. spätestens in MIKE URBAN mit Length_C.

Leerzeichen am Anfang und Ende der MUID entfernen

Auch eine Absatzmarke am Ende der MUID ist schon vorgekommen, als Ergebnis eines Imports aus CAD.

Genaues Vorgehen noch zu beschreiben; wahrscheinlich Field Calculator und Trim.

Doppelte Feldeinträge suchen

Vor allem die Felder Knoten ID, Haltung ID, Rohr ID, kurzum alle Felder, die datenbankintern MUID heißen, müssen einen eindeutigen Wert enthalten. Bevor man Datensätze importiert, sollte man daher diese Felder auf Duplikate bzw. mehrfache Feldeinträge hin überprüfen.

Man kann übrigens den Import so konfigurieren, dass MIKE URBAN einen Datensatz überspringt, der eine bereits vorhandene MUID enthält, allerdings könnten auf diese Weise unbemerkt Datensätze verloren gehen. FIXME mehr dazu.

Excel

Excel bietet eine komfortable Möglichkeit, nicht eindeutige Einträge mit einer speziellen bedingten Formatierung hervorzuheben, und zwar unter "Start > Bedingte Formatierung > Regeln zum Hervorheben von Zellen > Doppelte Werte…"

Anschließend wählen Sie beispielsweise "hellrote Füllung". Wenn die Liste lang ist, müssen Sie mit dem Bildlauf durch die Seiten blättern und auf farbige Zellen achten.

Oder Sie wenden die Funktion ZÄHLENWENN(Bereich;Suchkriterien) an. Beachten Sie den absoluten Zellbezug des blau markierten Bereichs, zu erzielen, indem man unmittelbar nach der Auswahl <F4> drückt. Kopieren Sie die Funktion nach unten. Anschließend filtern Sie nach Zeilen mit Werten größer 1.

Quelle: Find Duplicates - Excel Easy

ArcMap

Liegen die Daten in einem GIS-Format, beispielsweise als Shape-Dateien vor, können Sie entweder die Tabelle nach Excel exportieren und die oben beschriebene Methode anwenden, oder Sie bleiben in ArcMap und gehen wie folgt vor.

  • Feldstatistik durchführen und das Ergebnis wieder reinjoinen; alle > 1 filtern

Nur mit ArcGIS Advanced: Find Identical (Data Management)

Eindeutige ID vergeben

Wenn man entdeckt hat, dass das Feld mit der eindeutigen ID mehrfache Einträge enthält, muss man die entsprechenden Zeilen mit einem eindeutigen Wert auffüllen.

ArcMap

Selektieren Sie zunächst die fehlerhaften Zeilen. Führen Sie anschließend eine der beiden Feldberechnungen aus. Sie müssen auf "Python" umschalten und den "Codeblock" aktivieren.

Das erste Beispiel füllt die Zeilen mit einer fortlaufenden Nummer aus (Quelle: gis.stackexchange.com):

#Pre-logic Script Code:
rec=0
def autoIncrement(): 
    global rec 
    pStart = 1  
    pInterval = 1 
    if (rec == 0):  
        rec = pStart  
    else:  
        rec += pInterval  
    return rec
 
#Expression:
autoIncrement()

Im zweiten Beispiel wird zusätzlich der Text 'abc' vorangestellt, und die laufende Zahl wird mit Nullen auf eine fixe Anzahl von Stellen, hier drei Stellen, erweitert (Quelle: gis.stackexchange.com):

#Pre-logic Script Code:
rec=0
def autoIncrement(): 
    global rec 
    pStart = 1  
    pInterval = 1 
    if (rec == 0):  
        rec = pStart  
    else:  
        rec += pInterval  
    return 'abc%s' %str(rec).zfill(3)
 
#Expression:
autoIncrement()

MIKE URBAN

Importiert man in das Feld MUID, werden Zeilen mit den Werten <NULL> von MIKE URBAN automatisch mit eigenen IDs befüllt. Nicht eindeutige Einträge werden zwar importiert, früher oder später durch Fehlermeldungen quittiert.

Möchte man einzelne Stränge bearbeiten, bietet MIKE URBAN ein Tool an zum "Sequentiellen Labeln" FIXME, das setzt allerdings voraus, dass man die Daten bereits nach MIKE URBAN importiert hat.

mikeurban/anleitungen/import_datenpruefung-wertebereiche.txt · Zuletzt geändert: 2019/07/05 12:13 von katharina