Ansatz
- Synonymen,
- Homonymen,
- Abkürzungen und
- Füllwörtern ohne Informationsgehalt
- typographische Fehler,
- Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
- falsche Buchstabierung
- Integration multipler Quellen
- Synonymen,
- Homonymen,
- Abkürzungen und
- Füllwörtern ohne Informationsgehalt
- typographische Fehler,
- Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
- falsche Buchstabierung
- Integration multipler Quellen
- Synonymen,
- Homonymen,
- Abkürzungen und
- Füllwörtern ohne Informationsgehalt
- typographische Fehler,
- Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
- falsche Buchstabierung
- Integration multipler Quellen
- Synonymen,
- Homonymen,
- Abkürzungen und
- Füllwörtern ohne Informationsgehalt
- typographische Fehler,
- Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
- falsche Buchstabierung
- Integration multipler Quellen
- Synonymen,
- Homonymen,
- Abkürzungen und
- Füllwörtern ohne Informationsgehalt
- typographische Fehler,
- Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
- falsche Buchstabierung
- Integration multipler Quellen
- Synonymen,
- Homonymen,
- Abkürzungen und
- Füllwörtern ohne Informationsgehalt
- typographische Fehler,
- Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
- falsche Buchstabierung
- Integration multipler Quellen
- Synonymen,
- Homonymen,
- Abkürzungen und
- Füllwörtern ohne Informationsgehalt
- typographische Fehler,
- Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
- falsche Buchstabierung
- Integration multipler Quellen
Ansatz
Ansatz
Ansatz
Ansatz
Ansatz
Ansatz
Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata auf ein gemeinsames Schema angepasst. Jede Entitätsklasse der beiden Datensammlungen und besitzt somit die selben Attribute .
In der „Ontologie-Integration“ wurden Inkonsistenzen durch
beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.
Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.
In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:
Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.
Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.
Seien nun die Elemente einer Datensammlungen und mit und benannt. Es wird angenommen, dass einige Elemente in und identisch sind.
Im Falle einer Duplikatesammlung bestehe aus nur einer Entitätsklasse mit Attributen .
Die Menge geordneter Paare
ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen
und Abweichungen
Die Datensätze, welche sowohl mit Elementen aus als auch aus übereinstimmen, werden durch und abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor ist definiert durch:
,
wobei jeder der Stützstellen je einen Vergleichsoperator repräsentiert . So könnte die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, wäre bspw. der Vergleich auf Idendität der Nachnamen.
Bei Eindeutigkeit wird die Funktion über mit , oder bezeichnet. Die Menge aller möglichen Realisationen von wird mit bezeichnet. Die Auftrittswahrscheinlichkeit von falls ist gegeben durch
analog dazu wird die Auftrittswahrscheinlichkeit von für durch angegeben.
Wird ein Vektor von Informationen verbunden mit einem Paar betrachtet, so soll man die Möglichkeit haben, ein Paar als
den gleichen Sachverhalt ausdrückend,
möglicherweise den gleichen Sachverhalt ausdrückend oder
abweichende Sachverhalte ausdrückend
ausweisen zu können.
Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich , auf einer Menge von zufälligen Entscheidungsregeln , wo
und
, so daß jedes Element einer der drei Gruppen angehört.
Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:
Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit
Ein Typ II - Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit
Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).
Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.
Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß
gilt.
Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.
Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.
Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.
Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.
Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit
wobei der Standard-Gewichtungsfaktor ist:
Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.
Es ist zu beobachten, daß falls einen Vergleich von Attributen repräsentiert, mindestens Möglichkeiten der Form existieren. Falls die Übereinstimmung von Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer als für Fehlschläge zutrifft. Das Verhältnis wäre dann sehr groß.
Alternativ, falls aus Fehlschlägen besteht, wäre das Verhältnis sehr klein.
Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel nimmt dann folgende Form an:
falls , dann bezeichne als Link.
falls , dann bezeichne als möglichen Link.
falls , dann bezeichne als Nicht-Link.
Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.
Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in , und erlauben.
Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.
Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata auf ein gemeinsames Schema angepasst. Jede Entitätsklasse der beiden Datensammlungen und besitzt somit die selben Attribute .
In der „Ontologie-Integration“ wurden Inkonsistenzen durch
beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.
Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.
In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:
Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.
Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.
Duplikate
Seien nun die Elemente einer Datensammlungen und mit und benannt. Es wird angenommen, dass einige Elemente in und identisch sind.
Im Falle einer Duplikatesammlung bestehe aus nur einer Entitätsklasse mit Attributen .
Die Menge geordneter Paare
ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen
und Abweichungen
Die Datensätze, welche sowohl mit Elementen aus als auch aus übereinstimmen, werden durch und abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor ist definiert durch:
,
wobei jeder der Stützstellen je einen Vergleichsoperator repräsentiert . So könnte die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, wäre bspw. der Vergleich auf Idendität der Nachnamen.
Bei Eindeutigkeit wird die Funktion über mit , oder bezeichnet. Die Menge aller möglichen Realisationen von wird mit bezeichnet. Die Auftrittswahrscheinlichkeit von falls ist gegeben durch
analog dazu wird die Auftrittswahrscheinlichkeit von für durch angegeben.
Wird ein Vektor von Informationen verbunden mit einem Paar betrachtet, so soll man die Möglichkeit haben, ein Paar als
den gleichen Sachverhalt ausdrückend,
möglicherweise den gleichen Sachverhalt ausdrückend oder
abweichende Sachverhalte ausdrückend
ausweisen zu können.
Klassifikation
Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich , auf einer Menge von zufälligen Entscheidungsregeln , wo
und
, so daß jedes Element einer der drei Gruppen angehört.
Fehler
Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:
Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit
Ein Typ II - Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit
Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).
Vollständigkeit
Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.
Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß
gilt.
Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.
Präzision
Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.
Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.
Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.
f-measure
Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit
wobei der Standard-Gewichtungsfaktor ist:
Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.
Verlinkung
Es ist zu beobachten, daß falls einen Vergleich von Attributen repräsentiert, mindestens Möglichkeiten der Form existieren. Falls die Übereinstimmung von Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer als für Fehlschläge zutrifft. Das Verhältnis wäre dann sehr groß.
Alternativ, falls aus Fehlschlägen besteht, wäre das Verhältnis sehr klein.
Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel nimmt dann folgende Form an:
falls , dann bezeichne als Link.
falls , dann bezeichne als möglichen Link.
falls , dann bezeichne als Nicht-Link.
Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.
Fazit
Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in , und erlauben.
Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.
Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata auf ein gemeinsames Schema angepasst. Jede Entitätsklasse der beiden Datensammlungen und besitzt somit die selben Attribute .
In der „Ontologie-Integration“ wurden Inkonsistenzen durch
beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.
Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.
In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:
Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.
Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.
Duplikate
Seien nun die Elemente einer Datensammlungen und mit und benannt. Es wird angenommen, dass einige Elemente in und identisch sind.
Im Falle einer Duplikatesammlung bestehe aus nur einer Entitätsklasse mit Attributen .
Die Menge geordneter Paare
ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen
und Abweichungen
Die Datensätze, welche sowohl mit Elementen aus als auch aus übereinstimmen, werden durch und abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor ist definiert durch:
,
wobei jeder der Stützstellen je einen Vergleichsoperator repräsentiert . So könnte die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, wäre bspw. der Vergleich auf Idendität der Nachnamen.
Bei Eindeutigkeit wird die Funktion über mit , oder bezeichnet. Die Menge aller möglichen Realisationen von wird mit bezeichnet. Die Auftrittswahrscheinlichkeit von falls ist gegeben durch
analog dazu wird die Auftrittswahrscheinlichkeit von für durch angegeben.
Wird ein Vektor von Informationen verbunden mit einem Paar betrachtet, so soll man die Möglichkeit haben, ein Paar als
den gleichen Sachverhalt ausdrückend,
möglicherweise den gleichen Sachverhalt ausdrückend oder
abweichende Sachverhalte ausdrückend
ausweisen zu können.
Klassifikation
Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich , auf einer Menge von zufälligen Entscheidungsregeln , wo
und
, so daß jedes Element einer der drei Gruppen angehört.
Fehler
Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:
Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit
Ein Typ II - Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit
Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).
Vollständigkeit
Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.
Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß
gilt.
Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.
Präzision
Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.
Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.
Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.
f-measure
Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit
wobei der Standard-Gewichtungsfaktor ist:
Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.
Verlinkung
Es ist zu beobachten, daß falls einen Vergleich von Attributen repräsentiert, mindestens Möglichkeiten der Form existieren. Falls die Übereinstimmung von Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer als für Fehlschläge zutrifft. Das Verhältnis wäre dann sehr groß.
Alternativ, falls aus Fehlschlägen besteht, wäre das Verhältnis sehr klein.
Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel nimmt dann folgende Form an:
falls , dann bezeichne als Link.
falls , dann bezeichne als möglichen Link.
falls , dann bezeichne als Nicht-Link.
Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.
Fazit
Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in , und erlauben.
Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.
Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata auf ein gemeinsames Schema angepasst. Jede Entitätsklasse der beiden Datensammlungen und besitzt somit die selben Attribute .
In der „Ontologie-Integration“ wurden Inkonsistenzen durch
beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.
Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.
In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:
Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.
Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.
Duplikate
Seien nun die Elemente einer Datensammlungen und mit und benannt. Es wird angenommen, dass einige Elemente in und identisch sind.
Im Falle einer Duplikatesammlung bestehe aus nur einer Entitätsklasse mit Attributen .
Die Menge geordneter Paare
ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen
und Abweichungen
Die Datensätze, welche sowohl mit Elementen aus als auch aus übereinstimmen, werden durch und abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor ist definiert durch:
,
wobei jeder der Stützstellen je einen Vergleichsoperator repräsentiert . So könnte die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, wäre bspw. der Vergleich auf Idendität der Nachnamen.
Bei Eindeutigkeit wird die Funktion über mit , oder bezeichnet. Die Menge aller möglichen Realisationen von wird mit bezeichnet. Die Auftrittswahrscheinlichkeit von falls ist gegeben durch
analog dazu wird die Auftrittswahrscheinlichkeit von für durch angegeben.
Wird ein Vektor von Informationen verbunden mit einem Paar betrachtet, so soll man die Möglichkeit haben, ein Paar als
den gleichen Sachverhalt ausdrückend,
möglicherweise den gleichen Sachverhalt ausdrückend oder
abweichende Sachverhalte ausdrückend
ausweisen zu können.
Klassifikation
Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich , auf einer Menge von zufälligen Entscheidungsregeln , wo
und
, so daß jedes Element einer der drei Gruppen angehört.
Fehler
Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:
Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit
Ein Typ II - Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit
Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).
Vollständigkeit
Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.
Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß
gilt.
Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.
Präzision
Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.
Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.
Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.
f-measure
Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit
wobei der Standard-Gewichtungsfaktor ist:
Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.
Verlinkung
Es ist zu beobachten, daß falls einen Vergleich von Attributen repräsentiert, mindestens Möglichkeiten der Form existieren. Falls die Übereinstimmung von Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer als für Fehlschläge zutrifft. Das Verhältnis wäre dann sehr groß.
Alternativ, falls aus Fehlschlägen besteht, wäre das Verhältnis sehr klein.
Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel nimmt dann folgende Form an:
falls , dann bezeichne als Link.
falls , dann bezeichne als möglichen Link.
falls , dann bezeichne als Nicht-Link.
Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.
Fazit
Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in , und erlauben.
Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.
Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata auf ein gemeinsames Schema angepasst. Jede Entitätsklasse der beiden Datensammlungen und besitzt somit die selben Attribute .
In der „Ontologie-Integration“ wurden Inkonsistenzen durch
beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.
Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.
In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:
Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.
Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.
Duplikate
Seien nun die Elemente einer Datensammlungen und mit und benannt. Es wird angenommen, dass einige Elemente in und identisch sind.
Im Falle einer Duplikatesammlung bestehe aus nur einer Entitätsklasse mit Attributen .
Die Menge geordneter Paare
ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen
und Abweichungen
Die Datensätze, welche sowohl mit Elementen aus als auch aus übereinstimmen, werden durch und abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor ist definiert durch:
,
wobei jeder der Stützstellen je einen Vergleichsoperator repräsentiert . So könnte die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, wäre bspw. der Vergleich auf Idendität der Nachnamen.
Bei Eindeutigkeit wird die Funktion über mit , oder bezeichnet. Die Menge aller möglichen Realisationen von wird mit bezeichnet. Die Auftrittswahrscheinlichkeit von falls ist gegeben durch
analog dazu wird die Auftrittswahrscheinlichkeit von für durch angegeben.
Wird ein Vektor von Informationen verbunden mit einem Paar betrachtet, so soll man die Möglichkeit haben, ein Paar als
den gleichen Sachverhalt ausdrückend,
möglicherweise den gleichen Sachverhalt ausdrückend oder
abweichende Sachverhalte ausdrückend
ausweisen zu können.
Klassifikation
Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich , auf einer Menge von zufälligen Entscheidungsregeln , wo
und
, so daß jedes Element einer der drei Gruppen angehört.
Fehler
Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:
Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit
Ein Typ II - Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit
Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).
Vollständigkeit
Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.
Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß
gilt.
Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.
Präzision
Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.
Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.
Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.
f-measure
Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit
wobei der Standard-Gewichtungsfaktor ist:
Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.
Verlinkung
Es ist zu beobachten, daß falls einen Vergleich von Attributen repräsentiert, mindestens Möglichkeiten der Form existieren. Falls die Übereinstimmung von Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer als für Fehlschläge zutrifft. Das Verhältnis wäre dann sehr groß.
Alternativ, falls aus Fehlschlägen besteht, wäre das Verhältnis sehr klein.
Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel nimmt dann folgende Form an:
falls , dann bezeichne als Link.
falls , dann bezeichne als möglichen Link.
falls , dann bezeichne als Nicht-Link.
Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.
Fazit
Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in , und erlauben.
Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.
Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata auf ein gemeinsames Schema angepasst. Jede Entitätsklasse der beiden Datensammlungen und besitzt somit die selben Attribute .
In der „Ontologie-Integration“ wurden Inkonsistenzen durch
beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.
Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.
In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:
Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.
Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.
Duplikate
Seien nun die Elemente einer Datensammlungen und mit und benannt. Es wird angenommen, dass einige Elemente in und identisch sind.
Im Falle einer Duplikatesammlung bestehe aus nur einer Entitätsklasse mit Attributen .
Die Menge geordneter Paare
ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen
und Abweichungen
Die Datensätze, welche sowohl mit Elementen aus als auch aus übereinstimmen, werden durch und abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor ist definiert durch:
,
wobei jeder der Stützstellen je einen Vergleichsoperator repräsentiert . So könnte die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, wäre bspw. der Vergleich auf Idendität der Nachnamen.
Bei Eindeutigkeit wird die Funktion über mit , oder bezeichnet. Die Menge aller möglichen Realisationen von wird mit bezeichnet. Die Auftrittswahrscheinlichkeit von falls ist gegeben durch
analog dazu wird die Auftrittswahrscheinlichkeit von für durch angegeben.
Wird ein Vektor von Informationen verbunden mit einem Paar betrachtet, so soll man die Möglichkeit haben, ein Paar als
den gleichen Sachverhalt ausdrückend,
möglicherweise den gleichen Sachverhalt ausdrückend oder
abweichende Sachverhalte ausdrückend
ausweisen zu können.
Klassifikation
Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich , auf einer Menge von zufälligen Entscheidungsregeln , wo
und
, so daß jedes Element einer der drei Gruppen angehört.
Fehler
Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:
Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit
Ein Typ II - Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit
Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).
Vollständigkeit
Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.
Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß
gilt.
Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.
Präzision
Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.
Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.
Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.
f-measure
Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit
wobei der Standard-Gewichtungsfaktor ist:
Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.
Verlinkung
Es ist zu beobachten, daß falls einen Vergleich von Attributen repräsentiert, mindestens Möglichkeiten der Form existieren. Falls die Übereinstimmung von Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer als für Fehlschläge zutrifft. Das Verhältnis wäre dann sehr groß.
Alternativ, falls aus Fehlschlägen besteht, wäre das Verhältnis sehr klein.
Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel nimmt dann folgende Form an:
falls , dann bezeichne als Link.
falls , dann bezeichne als möglichen Link.
falls , dann bezeichne als Nicht-Link.
Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.
Fazit
Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in , und erlauben.
Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.
Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata auf ein gemeinsames Schema angepasst. Jede Entitätsklasse der beiden Datensammlungen und besitzt somit die selben Attribute .
In der „Ontologie-Integration“ wurden Inkonsistenzen durch
beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.
Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.
In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:
Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.
Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.
Duplikate
Seien nun die Elemente einer Datensammlungen und mit und benannt. Es wird angenommen, dass einige Elemente in und identisch sind.
Im Falle einer Duplikatesammlung bestehe aus nur einer Entitätsklasse mit Attributen .
Die Menge geordneter Paare
ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen
und Abweichungen
Die Datensätze, welche sowohl mit Elementen aus als auch aus übereinstimmen, werden durch und abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor ist definiert durch:
,
wobei jeder der Stützstellen je einen Vergleichsoperator repräsentiert . So könnte die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, wäre bspw. der Vergleich auf Idendität der Nachnamen.
Bei Eindeutigkeit wird die Funktion über mit , oder bezeichnet. Die Menge aller möglichen Realisationen von wird mit bezeichnet. Die Auftrittswahrscheinlichkeit von falls ist gegeben durch
analog dazu wird die Auftrittswahrscheinlichkeit von für durch angegeben.
Wird ein Vektor von Informationen verbunden mit einem Paar betrachtet, so soll man die Möglichkeit haben, ein Paar als
den gleichen Sachverhalt ausdrückend,
möglicherweise den gleichen Sachverhalt ausdrückend oder
abweichende Sachverhalte ausdrückend
ausweisen zu können.
Klassifikation
Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich , auf einer Menge von zufälligen Entscheidungsregeln , wo
und
, so daß jedes Element einer der drei Gruppen angehört.
Fehler
Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:
Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit
Ein Typ II - Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit
Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).
Vollständigkeit
Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.
Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß
gilt.
Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.
Präzision
Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.
Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.
Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.
f-measure
Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit
wobei der Standard-Gewichtungsfaktor ist:
Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.
Verlinkung
Es ist zu beobachten, daß falls einen Vergleich von Attributen repräsentiert, mindestens Möglichkeiten der Form existieren. Falls die Übereinstimmung von Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer als für Fehlschläge zutrifft. Das Verhältnis wäre dann sehr groß.
Alternativ, falls aus Fehlschlägen besteht, wäre das Verhältnis sehr klein.
Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel nimmt dann folgende Form an:
falls , dann bezeichne als Link.
falls , dann bezeichne als möglichen Link.
falls , dann bezeichne als Nicht-Link.
Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.
Fazit
Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in , und erlauben.
Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.
Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata auf ein gemeinsames Schema angepasst. Jede Entitätsklasse der beiden Datensammlungen und besitzt somit die selben Attribute .
In der „Ontologie-Integration“ wurden Inkonsistenzen durch
- Synonymen,
- Homonymen,
- Abkürzungen und
- Füllwörtern ohne Informationsgehalt
beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.
Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.
In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:
- typographische Fehler,
- Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
- falsche Buchstabierung
- Integration multipler Quellen
Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.
Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.
Duplikate
Seien nun die Elemente einer Datensammlungen und mit und benannt. Es wird angenommen, dass einige Elemente in und identisch sind.
Im Falle einer Duplikatesammlung bestehe aus nur einer Entitätsklasse mit Attributen .
Die Menge geordneter Paare
ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen
und Abweichungen
Die Datensätze, welche sowohl mit Elementen aus als auch aus übereinstimmen, werden durch und abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor ist definiert durch:
,
wobei jeder der Stützstellen je einen Vergleichsoperator repräsentiert . So könnte die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, wäre bspw. der Vergleich auf Idendität der Nachnamen.
Bei Eindeutigkeit wird die Funktion über mit , oder bezeichnet. Die Menge aller möglichen Realisationen von wird mit bezeichnet. Die Auftrittswahrscheinlichkeit von falls ist gegeben durch
analog dazu wird die Auftrittswahrscheinlichkeit von für durch angegeben.
Wird ein Vektor von Informationen verbunden mit einem Paar betrachtet, so soll man die Möglichkeit haben, ein Paar als
den gleichen Sachverhalt ausdrückend,
möglicherweise den gleichen Sachverhalt ausdrückend oder
abweichende Sachverhalte ausdrückend
ausweisen zu können.
Klassifikation
Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich , auf einer Menge von zufälligen Entscheidungsregeln , wo
und
, so daß jedes Element einer der drei Gruppen angehört.
Fehler
Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:
Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit
Ein Typ II - Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit
Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).
Vollständigkeit
Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.
Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß
gilt.
Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.
Präzision
Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.
Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.
Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.
f-measure
Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit
wobei der Standard-Gewichtungsfaktor ist:
Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.
Verlinkung
Es ist zu beobachten, daß falls einen Vergleich von Attributen repräsentiert, mindestens Möglichkeiten der Form existieren. Falls die Übereinstimmung von Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer als für Fehlschläge zutrifft. Das Verhältnis wäre dann sehr groß.
Alternativ, falls aus Fehlschlägen besteht, wäre das Verhältnis sehr klein.
Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel nimmt dann folgende Form an:
falls , dann bezeichne als Link.
falls , dann bezeichne als möglichen Link.
falls , dann bezeichne als Nicht-Link.
Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.
Fazit
Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in , und erlauben.
Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.