l-ray.de: Clustering

Clustering

Ihm wird eine Sammlung an Datensätzen übergeben, welche sortiert und entsprechend in Gruppen klassifiziert zurückgeliefert werden muss. Auf diese Sammlung kann zum ersten Mal der gesamte Inhaltsintegrations-Ablauf angewendet werden, von Suchraumbestimmung und Frequenzgewichtungen hin zu den eigentlichen statischen Zeichenketten-Analysen und gewählten Klassifikationen der Ergebnisse. Es stellt eine klassische Clustering-Aufgabe dar.

Innerhalb Xcerpts wird durch mgroup by die Regel/Funktion groupSubstitutions2 aufgerufen, welche als erstes Argument die Bezeichnerliste enthält, nach denen gruppiert werden soll. Der zweite Parameter beinhaltet eine Liste der ungebundenen Substitutionen. Als Ergebnis wird die Gruppierung dieser Listen erwartet.

Der Nutzer erwartet bei der Ausgabe einer Gruppierung unveränderte und vollständige Ergebnisse. Standardisierungsaufgaben können daher nicht am Originaldatensatz durchgeführt werden. Weiterhin kann dieser ebenfalls Variablen beinhalten, welche zur Harmonisierung nicht herangezogen werden dürfen, jedoch erhalten bleiben muss, andere Werte sind nicht durchgägnig sondern lediglich optional vorhanden. Es ist daher notwendig, den Originaldatensatz zu kopieren, eine Version für die Datenharmonisierung aufzubereiten und dieses am Ende mit dem Original-Set wieder in Verbindung zu bringen.

Aus jedem Ergebnis-Cluster ist ein möglichst plakativer Repräsentant zu erstellen. Vorteilhafterweise arbeitet Haskell mit Lazy-Instantiating, welches einmal berechnete Werte für spätere Abfragen zwischenspeichert und damit eine doppelte Berechnung für Werte entfällt.

Die Datenharmonisierung innerhalb Xcerpts läuft vollautomatisch ab. Eine Interaktion mit dem Nutzers ist aufgrund der gegebenen Architektur nicht möglich.

Weiterhin existieren für eine Variablenmenge innerhalb Xcerpts keine Trainingsdaten, so daß unter Kapitel 4.5 und 4.6.3 - 4.6.5 vorgestellte Klassifizierungs-Algorithmen nicht direkt angewendet werden können.

Es werden standardmäßig keine Identifikationsinformationen zu den jeweiligen Terminhalten geliefert. Eigenschaften können durch die Variablennamen bzw. von der Ontologie-Integration gelieferten Zusatzinformation extrahiert werden.

Es wird eine heterogene Datenkonsistenz erwarten, welche jedoch oftmals bestimmte Domänen streift. Diese Domänen können beispielsweise Namen, Titel, Adressen oder Geburtsdaten sein. Für zukünftige Implementationen ist ein Vorhalten domänenabhängiger Parameter unter Umständen sinnvoll. Diese können bei Identifikation einer dazugehörigen Wertemenge genutzt werden.

Die Abarbeitung der Inhaltsintegration erfordert eine hohe Verarbeitungsgeschwindigkeit, da sie als Echtzeit-Anwendung genutzt wird.

Eine übergebene Ergebnismenge wird zunächst dupliziert. Auf das Duplikate werden alle weiteren Schritte angewendet. Dies umfasst zunächste eine Vorsortierung und Reduzierung auf die benötigten Variablen. Nicht zur Gruppierung genutzte Bestandteile entfallen, Instanzen optionaler Variablenmengen werden durch leere Terme ersetzt.

Im nächsten Schritt wird eine Basis-Standardisierung durchgeführt. Die Instanz-Werte sind dabei von Umlauten und Sonderzeichen zu befreien und die Name-Paar-Bindung aufzugeheben (innerhalb getClusterId). Attributwerte einzelner Substitutionen werden nun in Spalten gleicher Attributwerte transponiert und einzeln weiterbetrachtet.

Diese Werte werden daraufhin unter Zuhilfename des Variablennamens auf deren Inhalt analysiert und passende Ähnlichkeitsmetriken zugewiesen. Zahlenformate werden durch eine Hammingdistanz- überprüft, Stringwerte eine sequentiell zu durchlaufende Anzahl von Ähnlichkeitssmetriken auf Canopy-Basis. Sobald einer dieser Vergleiche die Grenzwertschwelle unterschreitet, wird diese abgebrochen und das Wertepaar nicht weiter untersucht (cluster'). In Abschnitt BagDistanz wurde gezeigt, daß Bigram- und Bag-Distanz echte Untermengen von Levenshtein darstellen.

Daher werden nun nach Canopese-Methode und GreedyAlgorithmus die Ähnlichkeiten der einzelnen Werte gegeneinander aufgerechnet.

Über die Termfrequenz einzelner Spalten kann auf die Wichtigkeit einzelner Terme für das Gesamtergebnis geschlossen werden.

Die letzliche Gruppierung wird durchgeführt, indem für jedes Variablentupel ein String mit eindeutiger Gruppierung geliefert wird, welches als Ergebnis für Regel groupSubstitution die Gruppierung darstellt.

Ihm wird eine Sammlung an Datensätzen übergeben, welche sortiert und entsprechend in Gruppen klassifiziert zurückgeliefert werden muss. Auf diese Sammlung kann zum ersten Mal der gesamte Inhaltsintegrations-Ablauf angewendet werden, von Suchraumbestimmung und Frequenzgewichtungen hin zu den eigentlichen statischen Zeichenketten-Analysen und gewählten Klassifikationen der Ergebnisse. Es stellt eine klassische Clustering-Aufgabe dar.

Erwartungen