====== Datenprüfung – Wertebereiche ====== ⯇ Zurück zu [[mikeurban:anleitungen:import_datenpruefung-einleitung|Datenprüfung – Einleitung]]\\ Weiter nach [[mikeurban:anleitungen:import_datenpruefung-shape-dateien|Datenprüfung – speziell bei Shape-Dateien]] ⯈ ===== Fehlende Werte oder Ausreißer ===== Die Suche nach fehlenden Werten oder Ausreißern, das sind auffällige Abweichungen nach oben oder unten, ist ganz einfach. Trotzdem werden Daten oft unkontrolliert an den Modellierer übergeben, und dementsprechend treten bereits bei dieser Prüfung viele Unregelmäßigkeiten zu Tage. ==== Tabellenkalkulationsprogramm ==== Markieren Sie den Datenbereich in Ihrer Tabelle und verwenden Sie den Befehl "Daten > Sortieren" um die Tabelle nach einem interessanten Attribut (Spalte) zu sortieren. ==== ArcMap ==== **(1)** Fügen Sie die interessanten Datensätze zu einem neuen ArcMap-Dokument hinzu; das können beispielsweise Shape-Dateien sein, die Sie vor dem Import inspizieren möchten. **(2)** Öffnen Sie die Attributtabelle. **(3)** Klicken Sie mit der rechten Maustaste auf einen Spaltenkopf und wählen Sie "Sortieren". Zur Vertiefung kann man nach einem bestimmtes Attribut, beispielsweise nach der Geländehöhe, auch farblich klassifizieren, um Punkte zu finden, die zwar im normalen Wertebereich liegen, aber lokale Fehler darstellen. /*** "Statistiken" im Kontextmenü ist zwar schnell, aber zeigt nur Minima und Maxima, und funktioniert nur bei nummerischen Feldern. ***/ ==== MIKE URBAN ==== FIXME ==== Prüfungen im Kanalnetz ==== eventuell auch Haltungslänge prüfen, vor allem wegen sehr kurzer Haltungen. spätestens in MIKE URBAN mit Length_C. ===== Leerzeichen am Anfang und Ende der MUID entfernen ===== Auch eine Absatzmarke am Ende der MUID ist schon vorgekommen, als Ergebnis eines Imports aus CAD. Genaues Vorgehen noch zu beschreiben; wahrscheinlich Field Calculator und Trim. ===== Doppelte Feldeinträge suchen ===== Vor allem die Felder Knoten ID, Haltung ID, Rohr ID, kurzum alle Felder, die datenbankintern //MUID// heißen, müssen einen eindeutigen Wert enthalten. Bevor man Datensätze importiert, sollte man daher diese Felder auf Duplikate bzw. mehrfache Feldeinträge hin überprüfen. Man kann übrigens den Import so konfigurieren, dass MIKE URBAN einen Datensatz überspringt, der eine bereits vorhandene MUID enthält, allerdings könnten auf diese Weise unbemerkt Datensätze verloren gehen. FIXME mehr dazu. ==== Excel ==== {{ :mikeurban:anleitungen:import_datenpruefung-excel-doppelte-wert.png?direct&500 |}} Excel bietet eine komfortable Möglichkeit, nicht eindeutige Einträge mit einer speziellen bedingten Formatierung hervorzuheben, und zwar unter "Start > **Bedingte Formatierung** > Regeln zum Hervorheben von Zellen > Doppelte Werte..." Anschließend wählen Sie beispielsweise "hellrote Füllung". Wenn die Liste lang ist, müssen Sie mit dem Bildlauf durch die Seiten blättern und auf farbige Zellen achten. {{ :mikeurban:anleitungen:import_datenpruefung-zaehlenwenn.png?direct&350 |}} {{ :mikeurban:anleitungen:import_datenpruefung-zaehlenwenn-gefiltert.png?direct&350 |}} Oder Sie wenden die Funktion **ZÄHLENWENN(Bereich;Suchkriterien)** an. Beachten Sie den absoluten Zellbezug des blau markierten Bereichs, zu erzielen, indem man unmittelbar nach der Auswahl drückt. Kopieren Sie die Funktion nach unten. Anschließend filtern Sie nach Zeilen mit Werten größer 1. Quelle: [[http://www.excel-easy.com/examples/find-duplicates.html|Find Duplicates - Excel Easy]] ==== ArcMap ==== Liegen die Daten in einem GIS-Format, beispielsweise als Shape-Dateien vor, können Sie entweder die Tabelle nach Excel exportieren und die oben beschriebene Methode anwenden, oder Sie bleiben in ArcMap und gehen wie folgt vor. * Feldstatistik durchführen und das Ergebnis wieder reinjoinen; alle > 1 filtern Nur mit ArcGIS Advanced: Find Identical (Data Management) ===== Eindeutige ID vergeben ===== Wenn man entdeckt hat, dass das Feld mit der eindeutigen ID mehrfache Einträge enthält, muss man die entsprechenden Zeilen mit einem eindeutigen Wert auffüllen. ==== ArcMap ==== Selektieren Sie zunächst die fehlerhaften Zeilen. Führen Sie anschließend eine der beiden Feldberechnungen aus. Sie müssen auf "Python" umschalten und den "Codeblock" aktivieren. Das erste Beispiel füllt die Zeilen mit einer fortlaufenden Nummer aus (Quelle: [[https://gis.stackexchange.com/questions/16752/sorting-feature-class-to-calculate-sequential-id-field-using-arcgis-field-calcul|gis.stackexchange.com]]): #Pre-logic Script Code: rec=0 def autoIncrement(): global rec pStart = 1 pInterval = 1 if (rec == 0): rec = pStart else: rec += pInterval return rec #Expression: autoIncrement() Im zweiten Beispiel wird zusätzlich der Text 'abc' vorangestellt, und die laufende Zahl wird mit Nullen auf eine fixe Anzahl von Stellen, hier drei Stellen, erweitert (Quelle: [[https://gis.stackexchange.com/questions/252913/sequential-ids-with-field-calculator-pad-a-prefixed-field-to-specific-length|gis.stackexchange.com]]): #Pre-logic Script Code: rec=0 def autoIncrement(): global rec pStart = 1 pInterval = 1 if (rec == 0): rec = pStart else: rec += pInterval return 'abc%s' %str(rec).zfill(3) #Expression: autoIncrement() ==== MIKE URBAN ==== Importiert man in das Feld MUID, werden Zeilen mit den Werten von MIKE URBAN automatisch mit eigenen IDs befüllt. Nicht eindeutige Einträge werden zwar importiert, früher oder später durch Fehlermeldungen quittiert. Möchte man einzelne Stränge bearbeiten, bietet MIKE URBAN ein Tool an zum "Sequentiellen Labeln" FIXME, das setzt allerdings voraus, dass man die Daten bereits nach MIKE URBAN importiert hat.