Künstliche Intelligenz

Master Data Management

Data Quality

Digitale Transformation

Insights

FACT®: Die Revolution der Textähnlichkeitsanalyse

Wie ein innovatives Ähnlichkeitsverfahren menschliches Empfinden nachbildet und dabei schneller und präziser arbeitet als gängige Methoden.

FACT®

Karsten Brand, VP Marketing

•

4 min.

Copy link

Was ist FACT^®?

FACT^® ist ein hochentwickeltes Verfahren zur Bestimmung der Ähnlichkeit von Texten. Anders als herkömmliche Methoden basiert FACT^® nicht nur auf bestehenden Algorithmen oder leicht umsetzbaren Konzepten. Stattdessen wurde ein Ansatz gewählt, der sich am menschlichen Empfinden für Ähnlichkeiten orientiert.

Um dies zu erreichen, wurden zahlreiche Beispieldatensätze generiert, für die spezifische Ähnlichkeitswerte definiert wurden. Dies diente als Grundlage zur Entwicklung eines Algorithmus, der diesen menschlichen Ähnlichkeitswerten so nahe wie möglich kommt. Die Herausforderung bestand dabei nicht nur in der Ergebnisgenauigkeit, sondern auch in der Geschwindigkeit, um mit großen Datenmengen effizient umgehen zu können. FACT^® stellt somit einen neuen Meilenstein in der Textähnlichkeitsanalyse dar.

Herausforderungen herkömmlicher Verfahren

Viele klassische Ähnlichkeitsverfahren stoßen schnell an ihre Grenzen, wenn es um komplexere Textabweichungen geht. Beispielsweise liefern herkömmliche Methoden wie Levenshtein-Distanz oder Matchcodes oft unzureichende Ergebnisse:

Levenshtein-Distanz eignet sich gut zur Erkennung von Tippfehlern, jedoch nicht für komplexe Wortumstellungen. So wird "Dieter Müller" und "Müller, Dieter" von Levenshtein nur mit einer Ähnlichkeit von 35 % bewertet, während FACT^® hier eine realistischere Ähnlichkeit von 85 % liefert.
Matchcodes sind eine weitere Methode zur Dubletten-Erkennung, die jedoch erhebliche Nachteile mit sich bringt. Sie müssen kontinuierlich gepflegt werden und sind stark sprachabhängig, was sie unpraktisch in der Anwendung macht.

Wie funktioniert FACT^®?

FACT^® hebt sich von traditionellen Verfahren ab, indem es eine Vielzahl von Fehlerquellen abdeckt. Das Verfahren erkennt nicht nur Tippfehler, sondern auch:

Wortumstellungen
Teilwortumstellungen
Abkürzungen und Auslassungen
Kombinierte Fehlerquellen

Dabei liefert FACT^® immer eine prozentuale Ähnlichkeitsbewertung, die das menschliche Empfinden nachbildet. Ein entscheidender Vorteil ist zudem die Datenagnostik: FACT^® funktioniert unabhängig von Sprache oder Kontext und erfordert kein vorheriges Training. Die Methode arbeitet rein algorithmisch und liefert konsistente, vorhersagbare Ergebnisse.

Phonetische Ähnlichkeiten und Omikron

Ein weiteres innovatives Feature von Omikron ist eine erweiterte phonetische Analyse. Diese basiert auf der Wiener und der Kölner Phonetik, wurde jedoch modernisiert und verfeinert. Dadurch können Texte auch dann als ähnlich erkannt werden, wenn sie unterschiedlich geschrieben, aber gleich ausgesprochen werden.

Ein klassisches Beispiel ist der Name "Meier", der in verschiedenen Schreibweisen existiert (z. B. Mayr, Meyer, Maier). Während eine reine phonetische Analyse oft nicht ausreicht, um sinnvolle Treffer zu erzielen, kombiniert Omikron FACT^® mit Phonetik. Dadurch werden sprachliche Besonderheiten erkannt, ohne dass die allgemeine Funktionalität leidet.

Worldmatch^®: Eine Erweiterung von FACT^®

Auf Basis von FACT^® wurde mit Worldmatch^® ein noch leistungsstärkeres Verfahren entwickelt, das speziell auf gemischtsprachliche Daten ausgelegt ist. Es ermöglicht die Erkennung von Ähnlichkeiten auch bei unterschiedlichen Alphabeten, beispielsweise zwischen japanischem Kanji und lateinischen Buchstaben.

Aufgrund der umfangreichen Berechnungen ist Worldmatch® jedoch rechenintensiver als FACT^® mit Phonetik. Daher wird es gezielt in Szenarien eingesetzt, in denen es notwendig ist. Durch die Kombination von FACT^®, Phonetik und Worldmatch^® kann Omikron nahezu jedes Ähnlichkeitsszenario optimal abdecken.

Anwendungsbeispiele für FACT^® und Worldmatch®

Dublettenprüfung in CRM-Systemen
FACT^® identifiziert Dubletten und sorgt so für eine saubere Kundendatenbank, wodurch Marketing- und Vertriebsprozesse effizienter werden.
Fehlertolerante Suche
FACT^® ermöglicht eine schnelle Suche, selbst bei Tippfehlern oder abweichenden Schreibweisen, was die Produktivität erhöht.
Sanktionslistenabgleich
FACT^® und Worldmatch® gleichen Kundendaten mit Sanktionslisten ab, um Compliance-Risiken zu minimieren.
Verbesserung der Datenqualität im Vertrieb
FACT^® optimiert Datenqualitätsprozesse wie Data Enrichment, wodurch Unternehmen ihre Vertriebsaktivitäten effizienter gestalten können.
Matching von Daten über Systeme hinweg
FACT^®hilft dabei, identische Daten über mehrere Systeme und Silos zu verbinden, um eine einheitliche Sicht auf die Daten herzustellen (Golden Record).
Verarbeitung mehrsprachiger Daten
Worldmatch^® erkennt Ähnlichkeiten in gemischtsprachigen Daten und sorgt für eine konsistente Datenbasis.

Diese Anwendungsbeispiele verdeutlichen, wie FACT^® und Worldmatch^® dazu beitragen, die Qualität der Daten in Unternehmen zu erhöhen, Prozesse zu optimieren und Compliance-Anforderungen zu erfüllen.

Fazit

FACT^® stellt eine bahnbrechende Innovation in der Textähnlichkeitsanalyse dar. Durch die Kombination aus menschlichem Ähnlichkeitsempfinden, algorithmischer Präzision und Datenagnostik bietet FACT^® eine zuverlässige Methode zur Identifikation von ähnlichen Texten. Die zusätzliche Integration von Phonetik und Worldmatch^® rundet das Portfolio ab und macht FACT^® zu einer unverzichtbaren Lösung für Unternehmen, die mit großen und heterogenen Textdaten arbeiten.

‍

Weitere Infos und Anwendungsbeispiele auf der Website.

Weitere Artikel

Branchenanreicherung

Segmentierung

Strategisch unschlagbar: Branchensegmentierung als Gamechanger im B2B-Vertrieb

Albert Pusch, COO

Wie Branchenfokus Ihren B2B-Vertrieb revolutioniert und Umsätze explodieren lässt.

Data Quality

Master Data Management

Projektmanagement

Salesforce-Datenmigration: Top-Strategien für Projektleiter

Albert Pusch, COO

Salesforce-Datenmigration aus der Sicht eines Projektleiters, damit Daten dein Salesforce-CRM-Projekt nicht gefährden.

Data Quality

Künstliche Intelligenz

Künstliche Intelligenz: Sicherheit in unsicheren Zeiten

Albert Pusch, COO

In Krisenherden und Wirtschaftswandel ist KI der Schlüssel, um sicher zu manövrieren. Lesen Sie, wie Daten und KI die Zukunft formen und wie Ihr Unternehmen profitieren kann.

Master Data Management

Digitale Transformation

KI-Projekte im Rampenlicht: So sichern Sie den Erfolg

Karsten Brand, VIP Marketing

Im Kontext der fortschreitenden Digitalisierung rücken KI-Projekte immer stärker in den Fokus von Marketing, Vertrieb und Kundenservice. Die Erwartungen sind hoch, doch häufig bleiben die angestrebten Ziele hinter den Prognosen zurück. Die Ursachenforschung lenkt den Blick auf die Komplexität der KI-Systeme. Doch ist es tatsächlich die Künstliche Intelligenz, die den Erwartungen nicht gerecht wird?

Master Data Management

Data Strategy

Snowflake-Schnittstelle: Der Game-Changer für die Datenqualität im Data Warehouse

Karsten Brand, VP Marketing

Mit Snowflake-Schnittstelle & FACT®-Algorithmus von Omikron sagen Sie adé zum Datenchaos. Erleben Sie Datenqualität völlig neu: effizient, präzise und zuverlässig.

Data Quality

Master Data Management

Darum kennen Sie die Größe Ihrer Kunden nicht!

Albert Pusch, COO

Die Größe Ihrer Kunden wird oft unterschätzt. Doppelte Datensätze verzerren die Sicht. Erfolgreiche Unternehmen fokussieren auf Kunden-Zentrierung. Unsere Analysen zeigen, dass Top-Kunden häufig bis zu 24% mehr Umsatz bringen. Viele Händler haben tatsächlich 16% weniger Kunden, als sie annehmen. Die Zusammenführung von Dubletten offenbart verborgene Umsatzpotenziale.

Data Quality

Master Data Management

Elon pausiert Twitter-Deal. Warum Sie das betroffen machen sollte…

Albert Pusch, COO

Elon Musk setzt den Twitter-Kauf aus, da mehr als 5% der Nutzer Bots sein könnten. Ähnliche Ungewissheiten treten in Unternehmen auf, wenn Kundenzahlen durch Dubletten verzerrt sind. Dies beeinflusst die Unternehmensbewertung und Vertriebsstrategien. Eine korrekte Kundenanalyse, unterstützt durch Technologien wie Omikron's FACT®, verbessert die Datenqualität und Vertriebsperformance.

Data Strategy

Data Quality

WEKA MEDIA: MDM und drei neue Systeme in nur 9 Monaten

Karsten Brand, VP Marketing

WEKA MEDIA vollzieht in nur 9 Monaten bis Januar 2021 einen bahnbrechenden IT-Wandel, indem es alte Systeme durch Spitzenlösungen wie Microsoft Navision und Dynamics 365 ersetzt. Dank Omikron's Datenmanagement und einem effizienten Ansatz bleiben die Kosten niedrig, während die Datenqualität hochgehalten wird. Ein Schritt in die Zukunft für WEKA MEDIA.

Compliance

Russland-Sanktionen: Halten Sie sie ein?

Karsten Brand, VP Marketing

Mehr als 480 Personen und Firmen wurden neu sanktioniert: Flugzeug-Ersatzteile, Halbleiter-Technologien, Software, Finanzdienstleistungen, …

Data Quality

TeamViever geht an die Börse: Compliance mit Omikron Data Quality Server

Karsten Brand, VP Marketing

TeamViewer hat mit Omikron's Hilfe und dessen Sanktionslistenprüfung den größten europäischen Börsengang 2019 gefeiert, wobei der Wert über 2 Milliarden Euro erreichte. Mit 340 Millionen Geräten in 180 Ländern setzt das Unternehmen aus Göppingen neue Maßstäbe in der globalen Vernetzung.

Data Quality

Master Data Management

Wachstumshebel Datenmanagement - Ergebnisse der Studie: Daten sind ein Vermögenswert.

Albert Pusch, COO

Ob Händler, Hersteller oder Software-Unternehmen: Für Unternehmens-Wachstum ist heute das Datenmanagement entscheidend.

FACT®: Die Revolution der Textähnlichkeitsanalyse

Was ist FACT®?

Herausforderungen herkömmlicher Verfahren

Wie funktioniert FACT®?

Phonetische Ähnlichkeiten und Omikron

Worldmatch®: Eine Erweiterung von FACT®

Anwendungsbeispiele für FACT® und Worldmatch®

Fazit

Weitere Artikel

Was ist FACT^®?

Wie funktioniert FACT^®?

Worldmatch^®: Eine Erweiterung von FACT^®

Anwendungsbeispiele für FACT^® und Worldmatch®