So funktioniert KI

Einfache Worte

Stell dir vor, du hast eine Menge Texte, egal ob das jetzt Textdateien, Word-Dokumente oder PDFs sind. Was passiert als Nächstes? Die KI nimmt diese Texte und zerpflückt sie in kleine Häppchen. Stell dir vor, diese kleinen Stücke werden in einem Raum verteilt, ähnlich wie in deinem Zimmer oder Büro, aber nur um es einfacher zu machen, reden wir von drei Dimensionen. Diese Teile, denk an sie wie Vektoren, landen dann in verschiedenen Ecken des Raums: eines vielleicht oben an der Decke, ein anderes unten bei der Tür.

Und jetzt wird’s spannend: Ähnliche Inhalte, also sagen wir alles zum Thema Medizin, sammeln sich in einer Ecke, während alles rund um Autos an der Tür landet und alles zu Ärzten auf deinem Schreibtisch. Wenn du dann etwas über Medizin suchst, weiß die KI, dass sie all diese Stücke, die zusammengehören, schnappen und dir zeigen soll.

Aber Achtung, der Clou bei der Sache ist, dass die KI, nennen wir sie mal ChatGPT, die Infos umschreiben kann, aber sie sollte am besten nix dazu erfinden, sonst wird’s ein wilder Mix aus Fakten und Fantasie. Und klar, je mehr Infos beieinander liegen, desto mehr lernt die Datenbank und desto besser wird das Ganze.

Falls dir aufgefallen ist, dass Sachen zum Thema Arzt nicht da waren, wo du sie erwartet hättest, liegt das daran, dass sie vielleicht nicht direkt mit Medizin in Verbindung gebracht wurden. Die KI versteht das nicht von alleine, dass die zusammengehören. Aber keine Sorge, man könnte das verbessern, indem man die Artikel mit Infos anreichert, damit sie im Raum näher zusammenrücken.

Also, ist KI wirklich intelligent? Nee, eigentlich nicht. Sie ordnet nur Infos und schätzt ab, was zusammenpasst und was wahrscheinlich gemeint ist.

Und so hat das dann die KI neu formuliert:


KI mit eigenen Daten: Funktionsweise im Detail

KI mit eigenen Daten ermöglicht die Nutzung von künstlicher Intelligenz (KI), um Informationen aus persönlichen Datenbeständen zu extrahieren und zu nutzen.

Wie funktioniert es?

  1. Datenerfassung: Verschiedene Textformate (z.B. Word, PDF) werden in kleine Texteinheiten („Token“) zerlegt. (Tokenisierung)
  2. Vektorisierung: Die Token werden in einem mehrdimensionalen Vektorraum abgelegt. (Embedding)
  3. Semantische Beziehungen: Dimensionen des Vektorraums repräsentieren semantische Beziehungen (z.B. Thema, Entität).
  4. Dokumentenrepräsentation: Jedes Dokument wird als Vektor im Vektorraum abgelegt.
  5. Ähnlichkeit: Dokumente mit ähnlichen Inhalten liegen im Vektorraum nah beieinander.
  6. Suche: Relevante Dokumente zu einem Thema werden durch Identifizierung der relevanten Vektoren im Vektorraum gefunden.
  7. Verarbeitung: Die gefundenen Dokumente werden von einem KI-Modell wie ChatGPT verarbeitet und zusammengefasst.
  8. Erweiterung: Optionale Anreicherung der Daten mit Informationen aus anderen Modellen.

Beispiel:

  • Vektorraum: 3 Dimensionen (Medizin, Auto, Arzt)
  • Dokumente:
    • Medizin: Oben in der Ecke
    • Auto: An der Tür
    • Arzt: Auf dem Schreibtisch (Zwischenbereich)
  • Suche: Suche nach „Medizin“ -> Dokumente in der Ecke „Medizin“ werden gefunden.

KI vs. Intelligenz:

  • KI berechnet nur die Nähe von Informationen (Cosinusähnlichkeit), nicht die semantische Bedeutung.
  • Fehlende semantische Verknüpfungen:
    • Dokumente zum Thema „Arzt“ nicht in der Nähe von „Medizin“
    • Erforderliche manuelle Verknüpfung oder Annotation

Fazit:

KI mit eigenen Daten ist ein nützliches Werkzeug zur Organisation und Suche in persönlichen Datenbeständen. Die Qualität der Ergebnisse hängt von der Menge und Qualität der Daten sowie der Güte der semantischen Verknüpfungen ab.


Beitrag veröffentlicht

in

von

Schlagwörter: