Künstliche Intelligenz
Master Data Management
Data Quality
Digitale Transformation
Insights

FACT®: Die Revolution der Textähnlichkeitsanalyse

Wie ein innovatives Ähnlichkeitsverfahren menschliches Empfinden nachbildet und dabei schneller und präziser arbeitet als gängige Methoden.

FACT®

Karsten Brand, VP Marketing
4 min.
Copy link
Share on Facebook
Share on LinkedIn

Was ist FACT®?

FACT® ist ein hochentwickeltes Verfahren zur Bestimmung der Ähnlichkeit von Texten. Anders als herkömmliche Methoden basiert FACT® nicht nur auf bestehenden Algorithmen oder leicht umsetzbaren Konzepten. Stattdessen wurde ein Ansatz gewählt, der sich am menschlichen Empfinden für Ähnlichkeiten orientiert.

Um dies zu erreichen, wurden zahlreiche Beispieldatensätze generiert, für die spezifische Ähnlichkeitswerte definiert wurden. Dies diente als Grundlage zur Entwicklung eines Algorithmus, der diesen menschlichen Ähnlichkeitswerten so nahe wie möglich kommt. Die Herausforderung bestand dabei nicht nur in der Ergebnisgenauigkeit, sondern auch in der Geschwindigkeit, um mit großen Datenmengen effizient umgehen zu können. FACT® stellt somit einen neuen Meilenstein in der Textähnlichkeitsanalyse dar.

Herausforderungen herkömmlicher Verfahren

Viele klassische Ähnlichkeitsverfahren stoßen schnell an ihre Grenzen, wenn es um komplexere Textabweichungen geht. Beispielsweise liefern herkömmliche Methoden wie Levenshtein-Distanz oder Matchcodes oft unzureichende Ergebnisse:

  • Levenshtein-Distanz eignet sich gut zur Erkennung von Tippfehlern, jedoch nicht für komplexe Wortumstellungen. So wird "Dieter Müller" und "Müller, Dieter" von Levenshtein nur mit einer Ähnlichkeit von 35 % bewertet, während FACT® hier eine realistischere Ähnlichkeit von 85 % liefert.
  • Matchcodes sind eine weitere Methode zur Dubletten-Erkennung, die jedoch erhebliche Nachteile mit sich bringt. Sie müssen kontinuierlich gepflegt werden und sind stark sprachabhängig, was sie unpraktisch in der Anwendung macht.

Wie funktioniert FACT®?

FACT® hebt sich von traditionellen Verfahren ab, indem es eine Vielzahl von Fehlerquellen abdeckt. Das Verfahren erkennt nicht nur Tippfehler, sondern auch:

  • Wortumstellungen
  • Teilwortumstellungen
  • Abkürzungen und Auslassungen
  • Kombinierte Fehlerquellen

Dabei liefert FACT® immer eine prozentuale Ähnlichkeitsbewertung, die das menschliche Empfinden nachbildet. Ein entscheidender Vorteil ist zudem die Datenagnostik: FACT® funktioniert unabhängig von Sprache oder Kontext und erfordert kein vorheriges Training. Die Methode arbeitet rein algorithmisch und liefert konsistente, vorhersagbare Ergebnisse.

Phonetische Ähnlichkeiten und Omikron

Ein weiteres innovatives Feature von Omikron ist eine erweiterte phonetische Analyse. Diese basiert auf der Wiener und der Kölner Phonetik, wurde jedoch modernisiert und verfeinert. Dadurch können Texte auch dann als ähnlich erkannt werden, wenn sie unterschiedlich geschrieben, aber gleich ausgesprochen werden.

Ein klassisches Beispiel ist der Name "Meier", der in verschiedenen Schreibweisen existiert (z. B. Mayr, Meyer, Maier). Während eine reine phonetische Analyse oft nicht ausreicht, um sinnvolle Treffer zu erzielen, kombiniert Omikron FACT® mit Phonetik. Dadurch werden sprachliche Besonderheiten erkannt, ohne dass die allgemeine Funktionalität leidet.

Worldmatch®: Eine Erweiterung von FACT®

Auf Basis von FACT® wurde mit Worldmatch® ein noch leistungsstärkeres Verfahren entwickelt, das speziell auf gemischtsprachliche Daten ausgelegt ist. Es ermöglicht die Erkennung von Ähnlichkeiten auch bei unterschiedlichen Alphabeten, beispielsweise zwischen japanischem Kanji und lateinischen Buchstaben.

Aufgrund der umfangreichen Berechnungen ist Worldmatch® jedoch rechenintensiver als FACT® mit Phonetik. Daher wird es gezielt in Szenarien eingesetzt, in denen es notwendig ist. Durch die Kombination von FACT®, Phonetik und Worldmatch® kann Omikron nahezu jedes Ähnlichkeitsszenario optimal abdecken.

Anwendungsbeispiele für FACT® und Worldmatch®

  1. Dublettenprüfung in CRM-Systemen
    FACT® identifiziert Dubletten und sorgt so für eine saubere Kundendatenbank, wodurch Marketing- und Vertriebsprozesse effizienter werden.
  2. Fehlertolerante Suche
    FACT® ermöglicht eine schnelle Suche, selbst bei Tippfehlern oder abweichenden Schreibweisen, was die Produktivität erhöht.
  3. Sanktionslistenabgleich
    FACT® und Worldmatch® gleichen Kundendaten mit Sanktionslisten ab, um Compliance-Risiken zu minimieren.
  4. Verbesserung der Datenqualität im Vertrieb
    FACT® optimiert Datenqualitätsprozesse wie Data Enrichment, wodurch Unternehmen ihre Vertriebsaktivitäten effizienter gestalten können.
  5. Matching von Daten über Systeme hinweg
    FACT®hilft dabei, identische Daten über mehrere Systeme und Silos zu verbinden, um eine einheitliche Sicht auf die Daten herzustellen (Golden Record).
  6. Verarbeitung mehrsprachiger Daten
    Worldmatch® erkennt Ähnlichkeiten in gemischtsprachigen Daten und sorgt für eine konsistente Datenbasis.

Diese Anwendungsbeispiele verdeutlichen, wie FACT® und Worldmatch® dazu beitragen, die Qualität der Daten in Unternehmen zu erhöhen, Prozesse zu optimieren und Compliance-Anforderungen zu erfüllen.

Fazit

FACT® stellt eine bahnbrechende Innovation in der Textähnlichkeitsanalyse dar. Durch die Kombination aus menschlichem Ähnlichkeitsempfinden, algorithmischer Präzision und Datenagnostik bietet FACT® eine zuverlässige Methode zur Identifikation von ähnlichen Texten. Die zusätzliche Integration von Phonetik und Worldmatch® rundet das Portfolio ab und macht FACT® zu einer unverzichtbaren Lösung für Unternehmen, die mit großen und heterogenen Textdaten arbeiten.

Weitere Infos und Anwendungsbeispiele auf der Website.

Weitere Artikel

Branchenanreicherung
Segmentierung
Strategisch unschlagbar: Branchensegmentierung als Gamechanger im B2B-Vertrieb
Albert Pusch, COO

Wie Branchenfokus Ihren B2B-Vertrieb revolutioniert und Umsätze explodieren lässt.

Data Quality
Master Data Management
Projektmanagement
Salesforce-Datenmigration: Top-Strategien für Projektleiter
Albert Pusch, COO

Salesforce-Datenmigration aus der Sicht eines Projektleiters, damit Daten dein Salesforce-CRM-Projekt nicht gefährden.

Data Quality
Künstliche Intelligenz
Künstliche Intelligenz: Sicherheit in unsicheren Zeiten
Albert Pusch, COO

In Krisenherden und Wirtschaftswandel ist KI der Schlüssel, um sicher zu manövrieren. Lesen Sie, wie Daten und KI die Zukunft formen und wie Ihr Unternehmen profitieren kann.

Master Data Management
Digitale Transformation
KI-Projekte im Rampenlicht: So sichern Sie den Erfolg
Karsten Brand, VIP Marketing

Im Kontext der fortschreitenden Digitalisierung rücken KI-Projekte immer stärker in den Fokus von Marketing, Vertrieb und Kundenservice. Die Erwartungen sind hoch, doch häufig bleiben die angestrebten Ziele hinter den Prognosen zurück. Die Ursachenforschung lenkt den Blick auf die Komplexität der KI-Systeme. Doch ist es tatsächlich die Künstliche Intelligenz, die den Erwartungen nicht gerecht wird?

Master Data Management
Data Strategy
Snowflake-Schnittstelle: Der Game-Changer für die Datenqualität im Data Warehouse
Karsten Brand, VP Marketing

Mit Snowflake-Schnittstelle & FACT®-Algorithmus von Omikron sagen Sie adé zum Datenchaos. Erleben Sie Datenqualität völlig neu: effizient, präzise und zuverlässig.

Data Quality
Master Data Management
Darum kennen Sie die Größe Ihrer Kunden nicht!
Albert Pusch, COO

Die Größe Ihrer Kunden wird oft unterschätzt. Doppelte Datensätze verzerren die Sicht. Erfolgreiche Unternehmen fokussieren auf Kunden-Zentrierung. Unsere Analysen zeigen, dass Top-Kunden häufig bis zu 24% mehr Umsatz bringen. Viele Händler haben tatsächlich 16% weniger Kunden, als sie annehmen. Die Zusammenführung von Dubletten offenbart verborgene Umsatzpotenziale.

Data Quality
Master Data Management
Elon pausiert Twitter-Deal. Warum Sie das betroffen machen sollte…
Albert Pusch, COO

Elon Musk setzt den Twitter-Kauf aus, da mehr als 5% der Nutzer Bots sein könnten. Ähnliche Ungewissheiten treten in Unternehmen auf, wenn Kundenzahlen durch Dubletten verzerrt sind. Dies beeinflusst die Unternehmensbewertung und Vertriebsstrategien. Eine korrekte Kundenanalyse, unterstützt durch Technologien wie Omikron's FACT®, verbessert die Datenqualität und Vertriebsperformance.

Data Strategy
Data Quality
WEKA MEDIA: MDM und drei neue Systeme in nur 9 Monaten
Karsten Brand, VP Marketing

WEKA MEDIA vollzieht in nur 9 Monaten bis Januar 2021 einen bahnbrechenden IT-Wandel, indem es alte Systeme durch Spitzenlösungen wie Microsoft Navision und Dynamics 365 ersetzt. Dank Omikron's Datenmanagement und einem effizienten Ansatz bleiben die Kosten niedrig, während die Datenqualität hochgehalten wird. Ein Schritt in die Zukunft für WEKA MEDIA.

Compliance
Russ­land-Sank­ti­onen: Halten Sie sie ein?
Karsten Brand, VP Marketing

Mehr als 480 Personen und Firmen wurden neu sanktioniert: Flugzeug-Ersatzteile, Halbleiter-Technologien, Software, Finanzdienstleistungen, …

Data Quality
Team­Viever geht an die Börse: Compli­ance mit Omikron Data Quality Server
Karsten Brand, VP Marketing

TeamViewer hat mit Omikron's Hilfe und dessen Sanktionslistenprüfung den größten europäischen Börsengang 2019 gefeiert, wobei der Wert über 2 Milliarden Euro erreichte. Mit 340 Millionen Geräten in 180 Ländern setzt das Unternehmen aus Göppingen neue Maßstäbe in der globalen Vernetzung.

Data Quality
Master Data Management
Wachs­tums­hebel Daten­ma­na­ge­ment - Ergeb­nisse der Studie: Daten sind ein Vermö­gens­wert.
Albert Pusch, COO

Ob Händler, Hersteller oder Software-Unternehmen: Für Unternehmens-Wachstum ist heute das Datenmanagement entscheidend.