Ohne Einbettungen wären die KI-Industrie und die Technik im Allgemeinen praktisch nicht wiederzuerkennen. LLMs würden Sie nicht verstehen, Suchmaschinen hätten keine Ahnung, wonach Sie suchen, und alle anderen Empfehlungssysteme würden willkürlichen Müll ausspucken.
Hier erfahren Sie, wie Einbettungen funktionieren und welche Bedeutung sie beim maschinellen Lernen haben.
Was sind Einbettungen?
Maschinen verstehen keine Worte, aber sie verstehen Zahlen. Wenn Sie Code in einer beliebigen Software-Sprache schreiben, wird er durch Kompilierung oder Interpretation schließlich als Binär- oder Hex-Code (beides numerische Formate) gespeichert, den eine Maschine verstehen kann.
In der KI, insbesondere beim maschinellen Lernen, muss das Modell Informationen verstehen. An dieser Stelle kommen Einbettungen ins Spiel. Mithilfe von Einbettungen können wir Wörter, Bilder und jede andere Art von Informationen in maschinenlesbare Zahlen umwandeln. So kann die KI Muster, Beziehungen und Bedeutungen finden.
Maschinen verstehen Zahlen, keine Worte. Einbettungen sind die Brücke zwischen menschlichen Daten und KI.
Warum Einbettungen wichtig sind
Stellen Sie sich eine Welt vor, in der Sie nach einer Pizzeria suchen und Empfehlungen für Tacos erhalten. Stellen Sie sich beim Web-Scraping vor, dass Sie ChatGPT oder Claude nach Python-Tipps fragen und Anleitungen für die Pflege einer Haustierpython erhalten!
Einbettungen ermöglichen es den Modellen, Ihre Absicht zu verstehen. Ohne sie würden die meisten Systeme Ihren genauen Text mit etwas in ihrer Datenbank abgleichen.
- LLMS: Mit Einbettungen können diese Modelle verstehen, was Sie tatsächlich sagen. Ohne sie würden LLMs Ihre Bedeutung nicht finden… Erinnern Sie sich an die Python-Tipps?
- Empfehlungen: Unternehmen wie Netflix nutzen sie zusammen mit Filtern und einigen anderen Techniken, um Ihnen Sendungen zu empfehlen, die Ihnen tatsächlich gefallen.
Einbettungen ermöglichen es Maschinen, Daten nicht nur zu lesen, sondern sie auch zu verstehen.
Vektoren: Die Sprache der Einbettungen
In seiner einfachsten Form ist ein Vektor einfach eine Liste. Stellen Sie sich vor, Sie möchten eine Liste von Laptops darstellen. Jeder Laptop hat Details wie Betriebssystem, CPU-Hersteller, Rechenkerne und RAM.
Wenn wir zwei Laptops haben, könnten sie wie folgt dargestellt werden.
- Windows-Laptop:
["Windows", "Intel", 4, "8"]
- Chromebook:
["ChromeOS", "Mediatek", 8, "4"]
Matrizen: Kombinieren von Vektoren zu Tabellen
Eine Matrix ist eine Liste von Listen. Technische Puristen werden mich hier korrigieren und sie als Vektor von Vektoren bezeichnen… aber wie wir bereits festgestellt haben, ist ein Vektor nur eine Liste. Wenn wir Menschen eine Matrix betrachten, sehen wir sie als eine Tabelle.
Hier ist unsere für Menschen lesbare Matrix.
OS | CPU-Hersteller | Kerne des Prozessors | ARBEITSSPEICHER (GB) |
---|---|---|---|
Windows | Intel | 4 | 8 |
ChromeOS | Mediatek | 8 | 4 |
Unsere Matrix ist ein Vektor von Vektoren (Liste von Listen). Wie Sie sehen können, ist dies schwieriger zu lesen, aber immer noch verständlich. Für eine Maschine ist sie sogar einfacher zu lesen als die obige Tabelle, aber wir sind immer noch nicht für die Maschinenlesbarkeit optimiert.
[
["Windows", "Intel", 4, 8],
["ChromeOS", "Mediatek", 8, 4]
]
Damit es wirklich maschinenlesbar ist, müssen wir Wörter durch Zahlen ersetzen. Wir werden jedem unserer nicht-numerischen Merkmale eine Zahl zuweisen.
OS
- Fenster: 0
- ChromeOS: 1
CPU-Hersteller:
- Intel: 0
- Mediatek: 1
An diesem Punkt verliert unsere “Tabelle” vollständig die menschliche Lesbarkeit. Maschinen können jedoch sehr gut mit Zahlen umgehen. So können sie diese Daten effizient verarbeiten, um Beziehungen zu finden.
[
[0, 0, 4, 8],
[1, 1, 8, 4]
]
Das ist perfekt für eine Maschine, die sich das ansehen kann. Maschinen können keine Wörter lesen, aber sie können Muster in Zahlen erkennen. In diesem Format kann ein Modell unsere Daten effektiv analysieren und nach Mustern suchen.
Wie Einbettungen funktionieren
Einbettungen gehen weit über die numerische Kodierung hinaus, die wir oben erstellt haben. Einbettungen ermöglichen es uns, große Datensätze in komplexere Matrizen umzuwandeln, die Sie oder ich ohne umfangreiche Analyse nicht verstehen könnten.
Mit Einbettungen kann die KI diese Daten tatsächlich analysieren und Formeln anwenden, um Beziehungen zu finden. König und Königin sind ähnliche Konzepte. Beide Objekte würden ähnliche Vektoren haben, weil ihre Konzepte fast identisch sind.
Mit Vektoren können wir tatsächlich Mathematik betreiben. Maschinen sind darin viel besser als wir. Eine Maschine könnte ihre Beziehung mit der unten stehenden Formel darstellen.
König - Mann + Frau = Königin
Überwachte und nicht überwachte Einbettungen
Es gibt zwei Haupttypen von Einbettungen: Überwacht und unüberwacht.
Überwachte Einbettungen
Wenn wir ein Modell auf strukturierten Daten mit Beschriftungen und Zuordnungen trainieren, wird dies als überwachtes Lernen bezeichnet, und es erzeugt überwachte Einbettungen. Die KI wird explizit von einem Menschen unterrichtet.
Häufige Verwendungszwecke
- E-Mail: Bestimmte Arten von E-Mails werden entweder als Spam oder nicht als Spam eingestuft.
- Bilder: Ein Modell wird auf beschrifteten Bildern von Katzen und Hunden trainiert.
Bei Supervised Embeddings kennt der Mensch bereits ein Muster und bringt es der Maschine bei.
Unüberwachte Einbettungen
Unüberwachte Einbettungen sind unstrukturiert und nicht beschriftet. Das Modell scannt riesige Datenmengen. Dann gruppiert es Wörter und Zeichen, die häufig zusammen vorkommen. So kann das Modell Muster entdecken, anstatt sie direkt von einem Menschen zu lernen. Bei ausreichender Entdeckung können diese Muster zu Vorhersagen führen.
Häufige Verwendungszwecke
- LLMs: Große Sprachmodelle wurden entwickelt, um große Wortdatensätze zu scannen und genau vorherzusagen, wie sie zusammenpassen.
- Autovervollständigung und Rechtschreibprüfung: Eine primitivere Form desselben Konzepts. Es ist darauf ausgelegt, die Zeichen, aus denen Wörter bestehen, genau vorherzusagen.
Wie Einbettungen erstellt werden
Einbettungen werden nicht nur von Menschen zugewiesen, sie werden gelernt. Um Ähnlichkeiten, Muster und schließlich Beziehungen zu lernen, muss ein Modell mit einer großen Datenmenge trainiert werden.
Schritt 1: Sammeln der Daten
Ein Modell braucht einen großen Datensatz, um darauf zu trainieren. Wenn Sie Ihr Modell mit Wikipedia trainieren, wird es Fakten aus Wikipedia lernen und wie Wikipedia sprechen. Mit unserer Web Scraper API können Sie hochwertige Daten in Echtzeit extrahieren.
Sie können Ihr Modell auf so ziemlich alles trainieren.
- Text: Bücher, PDFs, Websites usw.
- Bilder: Beschriftete Bilder, Pixelbeziehungen
- Benutzerinteraktionen: Produktempfehlungen, Browserverhalten
Schritt 2: Umwandlung der Daten in Vektoren
Wie wir bereits gelernt haben, können Maschinen nicht gut mit von Menschen lesbaren Daten umgehen. Die in unserem vorherigen Schritt erfassten Daten müssen in numerische Vektoren umgewandelt werden.
Es gibt zwei Arten der Kodierung:
- One-Hot-Codierung: Diese Methode ist eher einfach. In diesem Format kann das Modell keine Beziehungen in den Daten erfassen.
- Dichte Einbettungen: Diese sind in der modernen KI häufiger anzutreffen. Eng verwandte Objekte (König und Königin) werden in der Matrix eng gruppiert.
Schritt 3: Training des Modells
Zur Erstellung von Einbettungen verwenden die Modelle Techniken des maschinellen Lernens, wie sie im Folgenden beschrieben werden.
- Wort-Kokurenz(Word2Vec, GloVe
)Polylang-Platzhalter nicht ändern
- Kontextuelles Lernen(BERT, GPT
)Polylang Platzhalter nicht ändern
Schritt 4: Feinabstimmung
Sobald ein Modell trainiert wurde, muss es feinabgestimmt werden. Zur Feinabstimmung eines Modells werden seine Einbettungen so angepasst, dass es für bestimmte Aufgaben geeignet ist.
- Suchmaschinen verfeinern ihre Einbettungen, um Suchanfragen besser zu verstehen.
- Empfehlungssysteme passen ihre Einbettungen häufig auf der Grundlage des Nutzerverhaltens an.
- LLMs erfordern eine regelmäßige Feinabstimmung, um ihre Einbettungen auf der Grundlage neuer Daten anzupassen.
Schlussfolgerung
Einbettungen sind ein wesentlicher Bestandteil nicht nur der modernen KI-Industrie, sondern der gesamten Technologiebranche. Sie untermauern alles, von Suchergebnissen bis zu LLMs. Mit unseren Datensätzen erhalten Sie Zugang zu großen Mengen an guten Daten, um Ihr Modell zu trainieren.
Melden Sie sich jetzt an und starten Sie Ihre kostenlose Testversion, einschließlich Datensatzproben.
Keine Kreditkarte erforderlich