Embeddings 101: Semantische Beziehungen im Text freischalten

Als ich vor Jahren zum ersten Mal mit Textdaten begann, schien das gesamte Konzept von Embeddings unnötig komplex zu sein.Ich war mit meinen Wörterbeutel-Ansätzen und einfachen TF-IDF-Vektoren zufrieden.

Ich arbeitete mit Produktbewertungen und meine traditionellen Modelle klassifizierten Bewertungen mit Sarkasmus oder Nuancensprache falsch. Das Problem wurde klar: Meine Modelle verstanden nicht, dass "dieses Produkt krank ist" tatsächlich positiv sein könnte oder dass "es genau so funktionierte, wie erwartet" je nach Kontext neutral oder negativ sein könnte.

Sie sind nicht nur eine fantastische neue Technik – sie behandeln grundlegende Einschränkungen in der Art und Weise, wie Maschinen Sprache verstehen.

The Old Days: Life Before Embeddings

Die alten Tage: Das Leben vor den Embeddings

Lassen Sie uns die Geschichte der Verwendung von Textdarstellungen vor Einbettungen verstehen, ohne in die Details dieser Methoden und Ansätze zu gelangen.

One-Hot Encoding

Es repräsentierte jedes Wort als einen seltenen Vektor mit allen Nullen außer einem einzigen "1" an der Position, die diesem Wort in einem Vokabular entspricht. Es repräsentierte Wörter als massive, seltene Vektoren, in denen jedes Wort seine eigene Dimension hatte. Wenn Ihr Vokabular 100.000 Wörter hatte (was bescheiden ist), hatte jedes Wort-Vektor 99,999 Nullen und eine einzige 1. Diese Repräsentationen sagten uns absolut nichts über Bedeutung. Die Wörter "ausgezeichnet" und "fantastisch" waren mathematisch genauso unterschiedlich wie "ausgezeichnet" und "schrecklich" - völlig fehlen die offensichtlichen semantischen Beziehungen.

„Katze“ → [1, 0, 0, 0, ..., 0] (Wörterbuchsposition 5432) „Hund“ → [0, 1, 0, 0, ..., 0] (Wörterbuchsposition 8921)

Beschränkungen

Dimensionalitätsexplosion: Vektoren hatten so viele Dimensionen wie Wortschatzgröße (oft 100.000+)
Keine semantischen Beziehungen: "Kätzchen" und "Kätzchen" waren so verschieden wie "Kätzchen" und "Flugzeug" (alle gleicher Entfernung)
Rechenunfähigkeit: Die Multiplikation dieser spärlichen Matrizen war äußerst ressourcenintensiv
Keine Verallgemeinerung: Das System konnte Wörter außerhalb seines ursprünglichen Vokabulars nicht verstehen

Bag-of-Words Approach

Es zählte Wortvorkommen in Dokumenten, manchmal durch ihre Bedeutung gewogen. Es behandelte Wörter in Dokumenten als ungeordnete Sammlungen von Wörtern, die Wortordnung völlig wegwerfen. „Der Hund beißt den Mann“ und „Der Mann beißt den Hund“ hätten identische Darstellungen.

Dokument: "Die Katze saß auf der Matte" BoW: {"die": 2, "katze": 1, "sat": 1, "on": 1, "mat": 1}

Die Einschränkungen:

Verlust der Wortordnung: "Hund beißt den Menschen" und "Mann beißt den Hund" hatten identische Darstellungen
Sparse hochdimensionale Vektoren: Vektoren in Wortschatzgröße sind immer noch erforderlich
Kein semantisches Verständnis: Synonyme wurden als völlig unterschiedliche Merkmale dargestellt
Keine kontextuelle Bedeutung: Jedes Wort hatte eine feste Darstellung, unabhängig vom Kontext

N-grams

Um eine bestimmte Wortordnung zu erfassen, begannen wir mit n-grams (Sequenzen von n aufeinanderfolgenden Wörtern).

Mit Unigrams (Einzelwörter) haben Sie möglicherweise ein Vokabular von 100.000. Mit Bigrams (Wörterpaare) suchen Sie plötzlich nach potenziellen Millionen von Funktionen. Mit Trigrams? Milliarden, theoretisch.

Limitations:

Die Einschränkungen:

Kombinatorische Explosion: Die Anzahl der möglichen n-Gramme wächst exponentiell
Datensparität: Die meisten möglichen n-Gramme erscheinen nie in Trainingsdaten
Begrenztes Kontextfenster: Nur in kleinen Fenstern erfasste Beziehungen (typischerweise 2-5 Wörter)

TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF verbesserte die Dinge, indem sie Wörter basierend auf ihrer Bedeutung für ein bestimmtes Dokument in Bezug auf den Korpus wiegten.

Limitations:

Die Einschränkungen:

Keine semantische Bedeutung: Es ist die Anzahl und Häufigkeit der Wörter, die die Bedeutung ihrer Verwendung bestimmen.

The Embedding Revolution: What Changed?

Die Embedding Revolution: Was hat sich verändert?

Der Übergang zu Embeddings war nicht nur eine schrittweise Verbesserung; es war ein Paradigmenwechsel in der Art und Weise, wie wir Sprache darstellen.

Meaning Through Context

Die grundlegende Einsicht hinter Einbettungen ist täuschend einfach: Wörter, die in ähnlichen Kontexten erscheinen, haben wahrscheinlich ähnliche Bedeutungen.

Frühe Embedding-Modelle wie Word2Vec haben dies erfasst, indem sie neuronale Netzwerke trainierten, um entweder vorhersagen zu können:

Ein Wort basierend auf seinem umgebenden Kontext (Continuous Bag of Words)
Der umgebende Kontext basierend auf einem Wort (Skip-gram)

Die versteckten Schichtgewichte dieser Modelle wurden zu unseren Wortvektoren, die semantische Beziehungen in den geometrischen Eigenschaften des Vektorraums kodieren.

Als ich zuerst Wörtervektoren plottete und sah, dass "König" - "Mann" + "Frau" ≈ "Königin", ich wusste, dass wir auf etwas Revolutionäres waren.

The next big leap came with contextual embeddings. Early models like Word2Vec and GloVe gave each word a single vector regardless of context. But the same word can mean different things in different contexts:

"I need to bank the money" vs. "I'll meet you by the river bank"

Modelle wie BERT und GPT lösten dies, indem sie unterschiedliche Embeddings für dasselbe Wort erzeugen, abhängig von seinem umgebenden Kontext.

Lassen Sie uns also zuerst verstehen, was Embeddings sind und wie sie NLP verwandelten und die Einschränkungen früherer Ansätze behandelten.

What Are Embeddings?

Was sind Embeddings?

Embeddings sind numerische Darstellungen von Daten (Text, Bilder, Audio usw.) in einem kontinuierlichen Vektorraum. für Text erfassen Embeddings semantische Beziehungen zwischen Wörtern oder Dokumenten, so dass Maschinen die Bedeutung auf eine Weise verstehen können, die mathematisch verarbeitet werden kann.

Key Concepts:

Vektoren: sortierte Listen von Zahlen, die einen Punkt im mehrdimensionalen Raum darstellen
Dimensionen: Die Anzahl der Werte in jedem Vektor (z.B. 768-dim, 1024-dim)
Vektorraum: Der mathematische Raum, in dem Embeddings existieren
Semantische Ähnlichkeit: gemessen durch Entfernung oder Winkel zwischen Vektoren ( näher = ähnlicher)

What Do Dimensions Represent?

Jede Dimension in einem Embedding-Vektor repräsentiert ein gelerntes Merkmal oder Aspekt der Daten. im Gegensatz zu klassischem Feature-Engineering, bei dem Menschen definieren, was jede Dimension bedeutet, in modernen Embedding-Modellen:

Dimensionen entstehen während des Trainings, um abstrakte "Konzepte" darzustellen
Individuelle Dimensionen haben oft keine spezifische menschlich interpretierbare Bedeutung.
Der komplette Vektor erfasst jedoch semantische Informationen ganzheitlich
Einige Dimensionen können Stimmung, Formalität, Thema oder Syntax entsprechen, aber die meisten repräsentieren komplexe Kombinationen von Merkmalen.

Why We Need Embeddings

Computer arbeiten grundsätzlich mit Zahlen, nicht mit Wörtern.Wenn wir Sprachen verarbeiten, müssen wir Text in numerische Darstellungen umwandeln, die:

Semantische Beziehungen erfassen – ähnliche Konzepte sollten ähnliche Darstellungen haben
Kontextuelle Bedeutung bewahren – Das gleiche Wort kann in verschiedenen Kontexten verschiedene Dinge bedeuten
Aktivieren von mathematischen Operationen – wie das Finden von Ähnlichkeiten oder das Ausführen von Analogien
Effiziente Skalierung – Verarbeitung großer Textmengen ohne computergestützte Explosion

Embeddings lösen diese Probleme, indem sie Wörter, Sätze oder Dokumente als dichte Vektoren in einem kontinuierlichen Raum darstellen, in dem semantische Beziehungen als geometrische Beziehungen beibehalten werden.

Grundlagen von Embeddings

Dichte Vektorrepräsentation

Anstelle von wenigen Vektoren mit Tausenden oder Millionen von Dimensionen verwenden Embeddings ein paar hundert dichte Dimensionen, in denen jede Dimension zu Bedeutung beiträgt.

"cat" → [0.2, -0.4, 0.1, -0.8, ..., 0.3] (300 dimensions)

"kitten" → [0.19, -0.38, 0.15, -0.75, ..., 0.29] (similar to "cat")

Dies macht die Berechnung von Größenordnungen effizienter und ermöglicht gleichzeitig eine reichere semantische Darstellung.

Verteilungssemantik

Embeddings basieren auf dem Prinzip „Du wirst ein Wort von dem Unternehmen kennen, das es hält“ (J.R. Firth). Durch die Analyse, welche Wörter in ähnlichen Kontexten erscheinen, erfassen Embeddings automatisch semantische Beziehungen.

Zum Beispiel haben "König" und "Königin" ähnliche Kontexte, so dass sie ähnliche Einbindungen haben, obwohl sie selten in der gleichen Position erscheinen.

Mathematische Eigenschaften

Eingebettete Räume haben bemerkenswerte mathematische Eigenschaften:

vector("king") - vector("man") + vector("woman") ≈ vector("queen")

Dies ermöglicht analoge Argumentation und semantische Operationen direkt im Vektorraum.

Transfer Lernen

Vorbereitete Embeddings erfassen allgemeine Sprachkenntnisse, die auf spezifische Aufgaben abgestimmt werden können, wodurch die für neue Anwendungen benötigten Daten dramatisch reduziert werden.

Kontextuelles Verständnis

Moderne kontextuelle Embeddings (wie die von BERT, GPT usw.) repräsentieren das gleiche Wort unterschiedlich basierend auf dem Kontext:

"I'll deposit money in the bank" → "bank" relates to finance

"I'll sit by the river bank" → "bank" relates to geography

Mit all dem Wissen über die Geschichte und das Verständnis von Embeddings ist es an der Zeit, sie zu verwenden.

Verwenden Sie LLM/SLM Modelle, um Embeddings zu generieren

Verschiedene Forschungsteams haben Embedded-Modelle entwickelt, die auf verschiedenen Datensätzen ausgebildet wurden, die mehrere Sprachen und Domänen umfassen. Diese Vielfalt führt zu Modellen mit sehr unterschiedlichen Vokabularen und semantischen Verständnisfähigkeiten. Zum Beispiel werden Modelle, die hauptsächlich auf englische wissenschaftliche Literatur ausgebildet wurden, technische Konzepte anders codieren als diejenigen, die auf mehrsprachigen Social-Media-Inhalten ausgebildet wurden.

Die praktische Implementierung von Embeddings wurde durch Bibliotheken wie das SentenceTransformer-Paket von Hugging Face erheblich vereinfacht, das ein umfassendes SDK für die Arbeit mit verschiedenen Embedding-Modellen bietet. Ebenso bietet das SDK von OpenAI direkten Zugang zu ihren Embedding-Modellen, die über viele Benchmarks hinweg beeindruckende Leistung gezeigt haben. Diese Tools, und es gibt viele mehr, haben einen demokratisierten Zugang zu modernsten Embedding-Technologien, wodurch Entwickler das semantische Verständnis in Anwendungen integrieren können, ohne Modelle von Grund auf trainieren zu müssen.

Die Modelle sollten im Interesse dieses Artikels als eine schwarze Box behandelt werden, die Sätze als Eingabe nimmt und ihre entsprechende Vektorrepräsentation zurückgibt.

Verwenden von SentenceTransformers Library für Embeddings

Der einfachste Weg, um Embeddings mit SentenceTransformer zu generieren:

from sentence_transformers import SentenceTransformer

# Load a pre-trained model
model = SentenceTransformer('all-MiniLM-L6-v2')  # 384 dimensions

# Generate embeddings
texts = ["This is an example sentence", "Each sentence becomes a vector"]

embeddings = model.encode(texts)

print(f"Shape: {embeddings.shape}")  # (2, 384)

max_seq_length = model.tokenizer.model_max_length

print(max_seq_length) # 256

Das Modell „all-MiniLM-L6-v2“, das von HuggingFace erhältlich ist, hat 384 Dimensionen. Das bedeutet, dass es 384 Merkmale oder Nuancen für ein bestimmtes Wort oder einen Satz erfassen kann. Die Sequenzlänge dieses Modells beträgt 256 Token. Sätze werden vom Tokenizer während des Einbettungsprozesses in Wörter und Wörter aufgeteilt. Die Anzahl der für einen Satz erzeugten Token ist im Allgemeinen 25% bis 40% mehr als die Anzahl der Wörter im Satz.

Sequenzlänge bezeichnet die Anzahl der Token, die vom Modell als gegebener Eingang verarbeitet werden können. Alles weniger wird gepaddert, um es 256 in der Länge zu machen, und alles andere wird weggeworfen.

Die Codierungsmethode der SentenceTransformer-Klasse ist ein Wrapper im PyTorch-Inferenzmodus, um das Modell zu verwenden.

from sentence_transformers import SentenceTransformer
import torch

# Load the model directly with SentenceTransformer
model = SentenceTransformer("sentence-transformers/msmarco-distilbert-base-tas-b")

# Input text
texts = ["This is an example sentence", "Each sentence becomes a vector"]

# Get embedding directly
with torch.no_grad():
    embedding = model.encode(texts, convert_to_tensor=True)
print(embedding)

Hier stellt die Torch.no_grad-Funktion sicher, dass während der Rückwärtsvermehrung keine Gradienten berechnet werden.

Eine andere, generischere Möglichkeit, Embeddings mit PyTorch zu generieren:

# Load the model
model = AutoModel.from_pretrained("sentence-transformers/msmarco-distilbert-base-tas-b")

# Get the tokenizer
tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/msmarco-distilbert-base-tas-b")

# Tokenize input
text = ["This is an example sentence"]
encoded_input = tokenizer(text, padding=True, truncation=True, return_tensors='pt')

# Get embedding of the [CLS] token
with torch.no_grad():
    outputs = model(**encoded_input, return_dict=True)
    cls_embedding = outputs.last_hidden_state[:, 0]
print(cls_embedding)

Der Unterschied zwischen diesem und früheren Code-Snippets besteht darin, dass die Codierungsfunktion durch die explizite Verwendung von Tokenizer und Modell ersetzt wurde.

Ein weiterer Unterschied besteht darin, dass wir outputs.last_hidden_state[:, 0] verwenden, um den mit dem CLS-Token verbundenen Vektor abzurufen. Dieser spezielle CLS-Token wird zu jedem Satz am Anfang jedes Satzes hinzugefügt und enthält angesammelte Informationen über den gesamten Satz.

Es ist erwähnenswert, dass dieser Ansatz, ein CLS-Token hinzuzufügen, nur auf bestimmte transformatorbasierte Architekturen anwendbar ist, und dies umfasst BERT und seine Varianten und nur encoderbasierte Transformatoren.

Best for:Klassifizierungs- und Sequenz-Ebene-Vorhersageaufgaben

Why they work:Der [CLS]-Token in BERT-Stil-Modellen ist speziell ausgebildet, um Informationen aus der gesamten Sequenz während des Pre-Training zu aggregieren.

When to choose:

Bei Verwendung von BERT, RoBERTa oder ähnlichen Modellen zur Klassifizierung
Wenn Sie einen Vektor benötigen, der eine ganze Sequenz darstellt
Wenn Ihre nachgelagerte Aufgabe darin besteht, eine Eigenschaft des gesamten Textes vorherzusagen

Die verwendete CLS-Methode ist nur eine der Methoden, um die Einbettungen für einen Satz zu erfassen.

Mean Pooling

Das Durchschnittsniveau aller Token-Embeddings ist für viele Aufgaben überraschend effektiv.Es ist meine Go-to-Methode, wenn ich Embeddings für Ähnlichkeits- oder Abrufaufgaben verwende.

Best for:Semantische Ähnlichkeit, Wiedergabe und allgemeine Zweckrepräsentationen.

Why it works:Durch die Durchschnittswertung aller Token-Repräsentationen erfasst die Mittelsammelung den kollektiven semantischen Inhalt und reduziert gleichzeitig den Lärm.

When to choose:

Dokumentähnlichkeit oder semantische Suchanwendungen
Wenn Sie robuste Repräsentationen benötigen, die nicht von einem einzelnen Token dominiert werden
Wenn empirische Tests zeigen, dass es andere Methoden übertrifft (es tut es oft für Ähnlichkeitsaufgaben)

import torch
from transformers import AutoTokenizer, AutoModel

model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# Tokenize input
texts = ["This is an example sentence", "Each sentence becomes a vector"]
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")

# Mean pooling
with torch.no_grad():
    outputs = model(**inputs)
    
    # Get attention mask to ignore padding tokens
    attention_mask = inputs['attention_mask']
    
    # Sum token embeddings and divide by the number of tokens
    sum_embeddings = torch.sum(outputs.last_hidden_state * attention_mask.unsqueeze(-1), dim=1)
    count_tokens = torch.sum(attention_mask, dim=1, keepdim=True)
    mean_embeddings = sum_embeddings / count_tokens

print(f"Shape: {mean_embeddings.shape}")  # (2, 768)

Max Pooling

Max-Pooling nimmt den maximalen Wert für jede Dimension über alle Token hinweg. Es ist überraschend gut bei der Erfassung wichtiger Features, unabhängig davon, wo sie im Text erscheinen.

Best for:Funktionsdetektion und Informationsextraktionsaufgaben

Why it works:Max-Pooling wählt die stärkste Aktivierung für jede Dimension über alle Token hinweg und erfasst effektiv die herausragendsten Merkmale, unabhängig davon, wo sie im Text erscheinen.

When to choose:

Wenn bestimmte Merkmale wichtiger sind als ihre Frequenz oder Position
Bei der Suche nach der Anwesenheit bestimmter Konzepte oder Entitäten
Beim Umgang mit langen Texten, in denen wichtige Signale im Durchschnitt verdünnt werden könnten

import torch
from transformers import AutoTokenizer, AutoModel

model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# Tokenize input
texts = ["This is an example sentence", "Each sentence becomes a vector"]
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")

# Max pooling
with torch.no_grad():
    outputs = model(**inputs)
    
    # Create a mask to ignore padding tokens for max pooling
    attention_mask = inputs['attention_mask'].unsqueeze(-1)
    
    # Replace padding token representations with -inf so they're never selected as max
    token_embeddings = outputs.last_hidden_state.masked_fill(attention_mask == 0, -1e9)
    
    # Take max over token dimension
    max_embeddings = torch.max(token_embeddings, dim=1)[0]

print(f"Shape: {max_embeddings.shape}")  # (2, 768)

Weighted Mean Pooling

Die gewogene Gruppierungsmethode versucht, wichtigeren Token basierend auf Position mehr Gewicht zu verleihen (z. B. später Token mehr Gewicht zu verleihen).

Best for:Aufgaben, bei denen verschiedene Teile der Eingabe unterschiedliche Bedeutung haben

Why it works:Gewichtete Bündelung ermöglicht es Ihnen, bestimmte Token basierend auf ihrer Position, Aufmerksamkeitswerte oder anderen Relevanzmetriken zu betonen.

When to choose:

Wenn die Reihenfolge wichtig ist (z. B. mehr Gewicht für spätere Token geben)
Wenn bestimmte Token inhärent informativer sind (z. B. Nomen und Verb vs. Artikel)
Wenn Sie eine bestimmte Bedeutung heuristisch haben, die für Ihre Aufgabe Sinn macht

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel

model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# Tokenize input
texts = ["This is an example sentence", "Each sentence becomes a vector"]
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")

# Weighted mean pooling - more weight to later tokens
with torch.no_grad():
    outputs = model(**inputs)
    
    # Get token embeddings and attention mask
    token_embeddings = outputs.last_hidden_state
    attention_mask = inputs['attention_mask']
    
    # Create position-based weights (later positions get higher weights)
    input_lengths = torch.sum(attention_mask, dim=1).unsqueeze(-1)
    position_indices = torch.arange(token_embeddings.size(1)).unsqueeze(0).expand_as(attention_mask)
    position_weights = position_indices.float() / input_lengths.float()
    position_weights = position_weights * attention_mask
    
    # Normalize weights to sum to 1
    position_weights = position_weights / torch.sum(position_weights, dim=1, keepdim=True)
    
    # Apply weights and sum
    weighted_embeddings = torch.sum(token_embeddings * position_weights.unsqueeze(-1), dim=1)

print(f"Shape: {weighted_embeddings.shape}")  # (2, 768)

Letzter Token Pooling

Last token pooling ist eine Technik zur Erstellung eines einzelnen Embedding-Vektors aus einer Sequenz von Token-Embeddings, indem nur die Darstellung des endgültigen Tokens ausgewählt wird.

Best for:Autoregressive Modelle und sequenzielle Verarbeitung

Why it works:In Links-zu-Recht-Modellen wie GPT enthält der endgültige Token den angesammelten Kontext aus der gesamten Sequenz, wodurch er für bestimmte Aufgaben informativ ist.

When to choose:

Bei Verwendung von GPT oder anderen Decoder-only Modellen
Bei der Arbeit mit Aufgaben, die stark vom vorausgegangenen Kontext abhängen
Für Textgenerierung oder Vollendungsaufgaben

import torch
from transformers import AutoTokenizer, AutoModel

model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# Tokenize input
texts = ["This is an example sentence", "Each sentence becomes a vector"]
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")

# Last token pooling
with torch.no_grad():
    outputs = model(**inputs)
    
    # Get the last non-padding token for each sequence
    attention_mask = inputs['attention_mask']
    last_token_indices = torch.sum(attention_mask, dim=1) - 1
    batch_indices = torch.arange(attention_mask.size(0))
    
    # Extract the last token embedding for each sequence
    last_token_embeddings = outputs.last_hidden_state[batch_indices, last_token_indices]

print(f"Shape: {last_token_embeddings.shape}")  # (2, 768)

Es gibt viele weitere Möglichkeiten, und diese Methoden können zusammen kombiniert werden, um benutzerdefinierte Methoden zu erstellen.Dies war nur der Anfang für das Verständnis von Embeddings als Konzept und grundlegende Implementierung, um Embeddings mit verschiedenen Techniken zu erhalten.

Looking Forward: Where Embeddings Are Headed

Vorwärts blicken: Wohin die Embeddings gehen

Der eingebettete Raum (pun intended) entwickelt sich weiter:

Multimodale Embeddings brechen Barrieren zwischen Text, Bildern, Audio und Video ab. Modelle wie CLIP und DALL-E verwenden Embeddings, um einen gemeinsamen semantischen Raum zwischen verschiedenen Modalitäten zu schaffen.
Effizientere Architekturen wie MobileBERT und DistilBERT ermöglichen die Verwendung leistungsstarker Embeddings auf Edge-Geräten mit begrenzten Ressourcen.
Domain-spezifische Embeddings, die auf spezialisierten Corpora vorbereitet wurden, treiben den Stand der Technik in Bereichen wie Medizin, Recht und Finanzen voran.

Ich bin besonders begeistert von kompositionsbewussten Einbettungen, die besser erfassen, wie Sinn aus kleineren Einheiten konstruiert wird, was letztendlich langjährige Herausforderungen mit Negation und kompositionellen Phrasen lösen könnte.

Final Thoughts

Endgültige Gedanken

Embeddings aren't just another NLP technique – they're a fundamental shift in how machines understand and process language. They've moved us from treating text as arbitrary symbols to capturing the rich, complex web of meanings and relationships that humans intuitively understand.

Whatever NLP task you're working on, chances are that thoughtfully applied embeddings can make it better. The key is understanding not just how to generate them but when and why to use different approaches.

Und wenn Sie immer noch Wörterbeutel oder One-Hot-Coding für die Textanalyse verwenden ...

Es gibt eine ganze Welt von Möglichkeiten, die auf Sie warten.

Embeddings 101: Semantische Beziehungen im Text freischalten

Zu lang; Lesen

The Old Days: Life Before Embeddings

One-Hot Encoding

Beschränkungen

Bag-of-Words Approach

Die Einschränkungen:

N-grams

Limitations:

TF-IDF (Term Frequency-Inverse Document Frequency)

Limitations:

The Embedding Revolution: What Changed?

Meaning Through Context

What Are Embeddings?

Key Concepts:

What Do Dimensions Represent?

Why We Need Embeddings

Grundlagen von Embeddings

Dichte Vektorrepräsentation

Verteilungssemantik

Mathematische Eigenschaften

Transfer Lernen

Kontextuelles Verständnis

Verwenden Sie LLM/SLM Modelle, um Embeddings zu generieren

Verwenden von SentenceTransformers Library für Embeddings

Mean Pooling

Max Pooling

Weighted Mean Pooling

Letzter Token Pooling

Looking Forward: Where Embeddings Are Headed

Final Thoughts

About Author

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN...

Categories

Trending Topics

Embeddings 101: Semantische Beziehungen im Text freischalten

Zu lang; Lesen

The Old Days: Life Before Embeddings

One-Hot Encoding

Beschränkungen

Bag-of-Words Approach

Die Einschränkungen:

N-grams

Limitations:

TF-IDF (Term Frequency-Inverse Document Frequency)

Limitations:

The Embedding Revolution: What Changed?

Meaning Through Context

What Are Embeddings?

Key Concepts:

What Do Dimensions Represent?

Why We Need Embeddings

Grundlagen von Embeddings

Dichte Vektorrepräsentation

Verteilungssemantik

Mathematische Eigenschaften

Transfer Lernen

Kontextuelles Verständnis

Verwenden Sie LLM/SLM Modelle, um Embeddings zu generieren

Verwenden von SentenceTransformers Library für Embeddings

Mean Pooling

Max Pooling

Weighted Mean Pooling

Letzter Token Pooling

Looking Forward: Where Embeddings Are Headed

Final Thoughts

About Author

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN...

ÄHNLICHE BEITRÄGE

Categories

Trending Topics