[opengeodb] Nochmal zu Prosa-Namen wie "Brandis bei Wurzen" (war: Inkonsistenzen der Download-Daten)

Frank Glück frankimglueck at gmx.de
Fre Mar 28 21:30:20 CET 2008


Hallo Martin,

Martin schrieb:
>Frank Glück wrote:
>
>> Demnach kann man ja auch davon ausgehen, dass der "Prosateil" wirklich
immer
>> an den offiziellen Namen anzuhängen ist und der umgekehrte Fall niemals
>> vorkommt(?)
>
>Nun habe ich mir die eigenen Datenbestände daraufhin nochmal angesehen.
>
>An das offensichtlichste Gegenbeispiel hatte ich nicht gedacht: 
>Beantworte einfach mal die Frage, wie heisst unser Land?

[X] Deutschland
UND
[X] Bundesrepublik Deutschland

:-)

>Die "Freie und Hansestadt" erkennst du vermutlich. Viele der Kurorte, 
>Heilbäder, Ostseebäder usw. wären beleidigt, wenn deren Vorsatz 
>wegfallen würde. Die beiden Lutherstädte erkennst du vielleicht, aber 
>auch das Schachdorf und die Schöfferstadt?

Nun ja, die Freien und Hansestädte heißen ja nun mal auch amtlicher Weise
so, Gleiches gilt vermutlich auch für die Ostseebäder und Lutherstädte,
oder? Wie siehts beim Schachdorf und bei der Schöfferstadt aus? Oder anders
gefragt: Gibt es auch Fälle von _nicht-amtlichen_ Präfixen? Wenn ja -
welchen Schluss sollten wir daraus ziehen? Meines Erachtens müsste dies doch
dann einfach auf _zwei_ zusätzliche Metainfo-Felder hinauslaufen: Eines für
den nicht-amtlichen Präfix und eines für den nicht-amtlichen Suffix. Aber
letzlich müsste sich natürlich jede Überlegung in Richtung einer Änderung
der Datenstruktur ohnehin am Verhältnis von Aufwand und Nutzen orientieren.
Ich weiß ja auch nicht, inwieweit das bisher in Deinen eigenen Daten schon
sauber voneinander getrennt ist, so dass es sich halbwegs automatisiert
"korrigieren" ließe.

>Beim Vorsatz "Markt" wird es schon schwierig - ist das nur ein Zusatz 
>oder ein fester Namensbestandteil?

Ich weiß nicht? ;-) Scheint mir aber durchaus amtlich.

>Keinen Abgleich zwischen SORTNAME und Name wirst du z.B. beim 
>ERFTKREIS schaffen - der lange Name lautet Rhein-Erft-Kreis.

Dass ein Abgleich ohne weiteres möglich wäre, war ja Deine Behauptung, nicht
meine oder Andreas'. ;-) Spricht also auch eher für meinen Vorschlag einer
Zurückführung der Datenbasis auf die Rohdaten.

>Was machst du aus Holte-Stukenbrock? Die Langversion lautet da
>Schloß Holte-Stukenbrock, Stadt Gütersloh
>
>All das sind nur Unterschiede bis hinab zur Gemeinde-Ebene. Auf 
>Ortsteilebene gibt es z.B. REKEN - in Langform Bahnhof Reken.

Was davon ist amtlich? Ich denke wirklich, daran sollte man sich schon
orientieren - worauf ist denn sonst noch in dieser Welt Verlass?
Alternativschreibweisen wie bei St.=>Sankt etc. müsste man daneben ohnehin
auf andere Weise angehen.

>Mal zur Größenordnung, wie sehr ein separter Type Langform die Datenbank 
>aufblähen würde: Zu 33 000 von 118 000 deutschen Einträgen habe ich 
>Langformen, aber zu weniger als 2000 habe ich sonstige Schreibvarianten 
>(oft davon aber drei oder mehr). Diese Daten sind aber eher privater 
>Natur und nur zum Teil releasefähig,
>von Aalen/Württemberg bis Zittau/LKR Sächsischer Oberlausitzkreis

Ich denke, die Daten sind grundsätzlich durchaus von großem Wert, aber eben
nur bedingt verwendbar, solange man sie sich nicht nach gewissen Kriterien
auch selbst zusammenbauen bzw. getrennt voneinander auswerten kann. Das ist
ja wohl auch der Grund der "Atomarisierungslehre". Deshalb sollte ein
mögliches "Aufblähen" (wohlgemerkt, ich bin für ein Aufsplitten in Präfixe,
amtliche Namen und Suffixe, was nicht zwangsläufig sehr viel mehr
Datenoverhead bedeuten muss, da die Prä- und Suffixe ihre jeweilige
Existenzberechtigung ja auch erst aus dem entsprechenden amtlichen Namen mit
dessen weiteren Metainfos ableiten) nicht als ausschlaggebendes
K.O.-Kriterium angesehen werden.

Schöne Grüße,
Frank