Python-Wortbeutel-Modell: Ein umfassender Leitfaden

Tutorials

Python

Das Bag of Words (BoW) ist eine Technik im Bereich der 自然语言处理 (NLP). Sie wird häufig verwendet, um Textdaten in eine maschinenlesbare Form, insbesondere numerische Werte, umzuwandeln, ohne die Grammatik und die Wortreihenfolge zu berücksichtigen. Das Verständnis von BoW ist wichtig für jeden, der mit Textdaten arbeitet. Python bietet mehrere Tools und Bibliotheken, um den Bag of Words effektiv zu implementieren.

In diesem Tutorial tauchen wir in das BoW ein, wprowadzamy seine Konzepte, decken seine Anwendungen ab und führen eine detaillierte Implementierung in Python durch. Am Ende dieses Tutorials werden Sie in der Lage sein, das Bag of Words-Modell auf realistische Probleme anzuwenden. Wenn Sie neu im Bereich NLP sind, schauen Sie sich unsere Natural Language Processing in Python skill track an, um mehr zu erfahren.

Was ist Bag of Words?

Das Bag of Words ist eine Technik zur Extraktion von Merkmalen aus Textdaten für maschinelles Lernen, wie Textklassifizierung und Sentimentanalyse. Dies ist wichtig, weil Maschinenlernalgorithmen keine Textdaten verarbeiten können. Der Prozess der Umwandlung von Text in Zahlen wird als Merkmalsextraktion oder Merkmalssignatur bezeichnet.

Ein Bag of Words basiert auf dem Auftreten von Wörtern in einem Dokument. Der Prozess beginnt mit der Suche nach dem Wortschatz im Text und der Messung ihrer Häufigkeit. Es wird ein Beutel genannt, weil die Reihenfolge und Struktur der Wörter nicht berücksichtigt werden, sondern nur ihr Auftreten.

Das Bag of Words-Modell unterscheidet sich vom Continuous Bag of Words-Modell (CBOW), das dichte Wort embeddings durch die Verwendung umgebender Wörter zur Vorhersage eines Zielswortes lernt, um semantische Beziehungen zwischen Wörtern zu erfassen. CBOW erfordert das Training auf einem großen Korpus und erzeugt niedrigdimensionale Vektoren, die für komplexe NLP-Anwendungen von Wert sind, bei denen der Wortkontext wichtig ist.

Aspekt	BOW	CBOW
Zweck	Zählt das Auftreten jedes Wortes	Vorhersage des Zielwortes basierend auf dem Kontext
Ausgabetyp	Hohe Dimensionalität,.sparse Vektor	Niedrige Dimensionalität, dichte Einbettung
Beachtet den Kontext	Nein (ignoriert die Wortreihenfolge)	Ja (verwendet umgebende Wörter)
Repräsentation	Sparse Häufigkeitsvektor	Dichter Vektor, der Semantik erfasst
Komplexität	Niedrig (keine Schulung erforderlich)	Hoch (erfordert Schulung auf großem Korpus)
Typische Anwendungen	Textklassifizierung, Sentimentanalyse	Wortembeddings, NLP-Aufgaben, die Kontext benötigen

Warum Bag of Words verwenden?

Bag of Words ist in vielen NLP Aufgabennützlich, einige Gründe für seine Nutzung umfassen:

Feature-Extraktion: Sie wandelt unstrukturierte Textdaten in strukturierte Daten um, die als Eingabe für verschiedene maschinelles Lern-Algorithmen verwendet werden können.
Einfachheit und Effizienz: BoW ist rechnerisch einfach zu implementieren und funktioniert gut für kleine bis mittelgroße Textkorpora.
Dokumentensimilarität: Es kann verwendet werden, um die Similarität zwischen Textdokumenten durch Techniken wie Kosinus-Ähnlichkeit zu berechnen.
Textklassifizierung: Wenn es mit Techniken wie Naive Bayes kombiniert wird, ist BoW effektiv für Textklassifizierungsaufgaben wie Spam-Klassifizierung und Stimmungsanalyse.

Es gibt jedoch auch Nachteile, wie die Nichtberücksichtigung von Semantik, Wortstruktur oder Wortreihenfolge.

Schritte zur Implementierung des Bag of Words in Python

Um ein Bag-of-Words-Modell zu erstellen, nehmen wir alle Wörter in einem Korpus und erstellen eine Spalte mit jedem Wort. Die Zeilen repräsentieren die Sätze. Wenn ein bestimmtes Wort im Satz vorkommt, wird es durch eine 1 dargestellt, und wenn das Wort nicht existiert, wird es durch eine 0 dargestellt. Jedes Wort in der Spalte repräsentiert ein einzelnes Merkmal.

Am Ende erhalten wir eine.sparse Matrix. Eine sparse Matrix ist eine Matrix mit vielen Nullen.

Datenvorverarbeitung

Um ein Bag of Words-Modell in Python zu erstellen, müssen wir einige Vorverarbeitungs-schritte unternehmen. Diese Schritte umfassen die Tokenisierung und das Entfernen von Stopwörtern.

Die Tokenisierung ist der Prozess des Zerlegens eines Textes in kleinere Einheiten, typischerweise Wörter. Sie können die Tokenisierung mit NLTK durchführen.

Stop-Wörter sind häufige Wörter im Englischen, wie „the,“ „that“ und „a“, die nicht zur Polarisierung eines Satzes beitragen.

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Laden Sie Stopwörter und Tokenizer herunter, falls Sie dies noch nicht getan haben
nltk.download("punkt")
nltk.download("stopwords")

# Beispielsatz
sentence = "This is an example showing how to remove stop words from a sentence."

# Zerteilen Sie den Satz in Wörter
words = word_tokenize(sentence)

# Holen Sie sich die Liste der Stopwörter auf Englisch
stop_words = set(stopwords.words("english"))

# Entfernen Sie die Stopwörter aus dem Satz
filtered_sentence = [word for word in words if word.lower() not in stop_words]

# Verbinden Sie die Wörter wieder zu einem Satz
filtered_sentence = " ".join(filtered_sentence)
print(filtered_sentence)

Ausgabe:

example showing remove stop words sentence.

Erstellung eines Wortschatzes

Ein Wortschatz ist eine Sammlung von einzigartigen Wörtern, die in einem Textkorpus gefunden werden. Der Aufbau eines Wortschatzes beinhaltet das Sammeln aller einzigartigen Wörter aus dem Korpus und das Zählen ihrer Vorkommen. Dieser Wortschatz ist nützlich für verschiedene NLP-Aufgaben wie Sprachmodellierung, Wortembeddings und Textklassifizierung.

Der folgende Code erstellt eine einfache Häufigkeitsverteilung der Wörter im Korpus, die für grundlegende NLP-Aufgaben wie den Aufbau eines Wortschatzes oder das Verständnis des Textinhaltes nützlich ist:

Das Korpus-Variable enthält einige Beispielätze. In realen Anwendungen würde sie größere, vielfältigere Textdaten enthalten.
vocab = defaultdict(int) vereinfacht die Zählung der Wortfrequenzen, indem es jedes neue Wort automatisch mit einer Anzahl von 0 initialisiert, was eine direkte Inkrementierung ohne Überprüfungen ermöglicht.
Jeder Satz wird durch Konvertieren in Kleinbuchstaben und Extrahieren von Wörtern mit regulären Ausdrücken tokenisiert. Das Muster \b\w+\b identifiziert Wörter nur mit alphanumerischen Zeichen, dabei werden Zeichensetzung und andere Symbole ignoriert.
Die Anzahl jedes Wortes wird im vocab Wörterbuch aktualisiert.
Das Vokabular wird nach Häufigkeit in absteigender Reihenfolge sortiert, wodurch es einfach ist, die häufigsten Wörter oben zu sehen, und wird zur Referenz angezeigt.

import re  
# Importieren Sie das Modul für reguläre Ausdrücke, um bei der Textverarbeitung zu helfen
from collections import (
    defaultdict,
)  

# Importieren Sie defaultdict, um das Zählen der Wortfrequenzen einfacher zu handhaben

# Beispielskorpus aus Text - eine kleine Datensammlung von Sätzen zur Analyse
corpus = [
    "Tokenization is the process of breaking text into words.",
    "Vocabulary is the collection of unique words.",
    "The process of tokenizing is essential in NLP.",
]

# Initialisieren Sie ein defaultdict mit Integerwerten, um Wortfrequenzen zu speichern

# defaultdict(int) initialisiert jeden neuen Schlüssel mit einem Standardintegerwert von 0
vocab = defaultdict(int)

# Iterieren Sie durch jeden Satz im Korpus, um zu tokenisieren und zu normalisieren
for sentence in corpus:
    # Konvertieren Sie den Satz in Kleinbuchstaben, um bei der Zählung Konsistenz zu gewährleisten (z.B. 'Tokenization' und 'tokenization' werden als dasselbe Wort behandelt)
    # Verwenden Sie reguläre Ausdrücke, um Wörter zu finden, die nur aus alphanumerischen Zeichen bestehen
    words = re.findall(r"\b\w+\b", sentence.lower())
    # Für jedes gefundene Wort erhöhen Sie seine Zählung im Vokabular-Wörterbuch
    for word in words:
        vocab[word] += 1

# Konvertieren Sie das defaultdict Vokabular in ein reguläres Wörterbuch für eine einfachere Handhabung und Sortierung

# Sortieren Sie das Wörterbuch nach Wortfrequenz in absteigender Reihenfolge und konvertieren Sie es in ein neues Wörterbuch
sorted_vocab = dict(sorted(vocab.items(), key=lambda x: x[1], reverse=True))

# Zeigen Sie das sortierte Vokabular mit jedem Wort und seiner Frequenzanzahl an
print("Vocabulary with Frequencies:", sorted_vocab)

Ausgabe:

Vocabulary with Frequencies: {'is': 3, 'the': 3, 'of': 3, 'process': 2, 'words': 2, 'tokenization': 1, 'breaking': 1, 'text': 1, 'into': 1, 'vocabulary': 1, 'collection': 1, 'unique': 1, 'tokenizing': 1, 'essential': 1, 'in': 1, 'nlp': 1}

Das manuelle Aufbauen eines Wortschatzes kann zeitaufwendig sein, insbesondere für große Korpora. Scikit-learns CountVectorizer automatisiert diesen Prozess und ermöglicht eine flexiblere Textverarbeitung, wie wir später sehen werden.

Bag of Words Implementierung Mit Python (Von Grund auf)

Beginnen wir mit einer einfachen Implementierung von Bag of Words von Grund auf in Python. Dies wird Ihnen helfen, die Bausteine und Mechanismen zu verstehen, die unter der Haube funktionieren.

Manuelle Implementierung

Schritt 1: Vorverarbeitung der Textdaten

Wir beginnen damit, eine einfache Funktion zur Textverarbeitung zu definieren, einschließlich Tokenisierung, Umwandlung in Kleinbuchstaben und Entfernen von Satzzeichen.

from collections import defaultdict
import string

# Beispieltextdaten: Sätze
corpus = [
    "Python is amazing and fun.",
    "Python is not just fun but also powerful.",
    "Learning Python is fun!",
]
# Funktion zur Vorverarbeitung von Text
def preprocess(text):
    # In Kleinbuchstaben umwandeln
    text = text.lower()
    # Satzzeichen entfernen
    text = text.translate(str.maketrans("", "", string.punctuation))
    # Tokenisieren: Den Text in Wörter aufteilen
    tokens = text.split()
    return tokens

# Vorverarbeitung auf den Beispielkorpus anwenden
processed_corpus = [preprocess(sentence) for sentence in corpus]
print(processed_corpus)

Ausgabe:

[['python', 'is', 'amazing', 'and', 'fun'], ['python', 'is', 'not', 'just', 'fun', 'but', 'also', 'powerful'], ['learning', 'python', 'is', 'fun']]

Schritt 2: Wortschatz erstellen

Jetzt müssen wir alle Dokumente durchsuchen und eine vollständige Liste einzigartiger Wörter erstellen, das ist unser Wortschatz.

# Initialisiere eine leere Menge für den Wortschatz
vocabulary = set()

# Baue den Wortschatz auf
for sentence in processed_corpus:
    vocabulary.update(sentence)

# Konvertiere in eine sortierte Liste
vocabulary = sorted(list(vocabulary))
print("Vocabulary:", vocabulary)

Step 3: Berechne Wortfrequenzen und Vektorisiere

Wir werden jetzt die Häufigkeit jedes Wortes im Wortschatz für jedes Dokument im bearbeiteten Korpus berechnen.

def create_bow_vector(sentence, vocab):
    vector = [0] * len(vocab)  # Initialisiere einen Vektor aus Nullen
    for word in sentence:
        if word in vocab:
            idx = vocab.index(word)  # Finde den Index des Wortes im Wortschatz
            vector[idx] += 1  # Erhöhe die Anzahl an diesem Index
    return vector

Jetzt hast du eine Bag of Words Darstellung für jedes Dokument in deinem Korpus erstellt.

# Erstelle einen BoW-Vektor für jeden Satz im bearbeiteten Korpus
bow_vectors = [create_bow_vector(sentence, vocabulary) for sentence in processed_corpus]
print("Bag of Words Vectors:")
for vector in bow_vectors:
    print(vector)

Ausgabe:

Bag of Words Vectors:
[0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1]
[1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1]
[0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1]

Verwendung von Scikit-learn’s CountVectorizer

Ein Handaufbau eines Bag-of-Words-Modells ist gut zum Lernen, aber für Produktionsanwendungen möchten Sie effiziente, optimierte Bibliotheken wie Scikit-learn verwenden.

Die Python-Funktion, die wir zur Tokenisierung verwenden, ist CountVectorizer, die aus dem Modul sklearn.feature_extraction.text importiert wird. Eine der Eigenschaften von CountVectorizer ist max_features, das die maximale Anzahl von Wörtern darstellt, die Sie im Bag-of-Words-Modell haben möchten. In diesem Fall verwenden wir None, was bedeutet, dass alle Merkmale verwendet werden.

Nach der Erstellung einer Instanz von CountVectorizer verwenden Sie die Methode .fit_transform(, um das Bag-of-Words-Modell zu erstellen. Anschließend verwenden Sie .toarray(), um das Bag-of-Words-Modell in Numpy-Arrays umzuwandeln, die in ein maschinelles Lernmodell eingespeist werden können.

Sobald montiert, hat CountVectorizer ein Wörterbuch der Feature-Indizes erstellt. Der Indexwert eines Wortes im Vokabular ist mit seiner Häufigkeit im gesamten Trainingskorpus verknüpft.

from sklearn.feature_extraction.text import CountVectorizer
# Ursprünglicher Korpus
corpus = [
    "Python is amazing and fun.",
    "Python is not just fun but also powerful.",
    "Learning Python is fun!",
]
# Erstellung eines CountVectorizer-Objekts
vectorizer = CountVectorizer()
# Anpassung und Transformation des Korpus
X = vectorizer.fit_transform(corpus)
# Ausgabe des generierten Vokabulars
print("Vocabulary:", vectorizer.get_feature_names_out())
# Ausgabe der Bag-of-Words-Matrix
print("BoW Representation:")
print(X.toarray())

Ausgabe:

markdownVocabulary: ['also' 'amazing' 'and' 'but' 'fun' 'is' 'just' 'learning' 'not'

 'powerful' 'python']

BoW Representation:

[[0 1 1 0 1 1 0 0 0 0 1]

 [1 0 0 1 1 1 1 0 1 1 1]

 [0 0 0 0 1 1 0 1 0 0 1]]

Beispiel: Anwendung von Bag of Words

Werfen wir nun einen Blick auf die Anwendung des BoW-Modells auf einen kleinen Textkorpus, bestehend aus drei Filmbewertungen, um den gesamten Prozess zu veranschaulichen.

Wir verwenden Scikit-learn’s CountVectorizer, um das BoW-Modell auf diesen kleinen Textkorpus anzuwenden.

Hier sind die Schritte, die wir unternehmen werden:

CountVectorizer tokenisiert den Text, entfernt Zeichensetzung und wandelt die Wörter automatisch in Kleinbuchstaben um.
.fit_transform(corpus) wandelt den Korpus in eine Dokument-Termin-Matrix um, wobei jede Zeile ein Dokument darstellt und jede Spalte ein Wort aus dem Wortschatz.
X_dense ist die dichte Matrix, die die Häufigkeit jedes Wortes in jedem Dokument darstellt.

from sklearn.feature_extraction.text import CountVectorizer
# Beispielkorpus von Filmkritiken
corpus = [
    "I loved the movie, it was fantastic!",
    "The movie was okay, but not great.",
    "I hated the movie, it was terrible.",
]

# CountVectorizer initialisieren
vectorizer = CountVectorizer()

# Korpus auf eine Dokument-Termin-Matrix anpassen und transformieren
X = vectorizer.fit_transform(corpus)

# Dokument-Termin-Matrix in ein dichtes Format umwandeln (optional für Visualisierung)
X_dense = X.toarray()

# Wortschatz (Zuordnung von Wörtern zu Indexpositionen) erhalten
vocab = vectorizer.get_feature_names_out()

# Wortschatz und Dokument-Termin-Matrix ausgeben
print("Vocabulary:", vocab)
print("Document-Term Matrix:\n", X_dense)

Ausgabe:

Vocabulary: ['but' 'fantastic' 'great' 'hated' 'it' 'loved' 'movie' 'not' 'okay' 'terrible' 'the' 'was']
Document-Term Matrix:
 [[0 1 0 0 1 1 1 0 0 0 1 1]  # Erste Bewertung: "Ich habe den Film geliebt, er war fantastisch!"
  [1 0 1 0 1 0 1 1 1 0 1 1]  # Zweite Bewertung: "Der Film war okay, aber nicht großartig."
  [0 0 0 1 1 0 1 0 0 1 1 1]] # Dritte Bewertung: "Ich hasse den Film, er war schrecklich."

Así können wir die obige Ausgabe interpretieren:

Jedem eindeutigen Wort im Korpus wird ein Index zugewiesen und die Wörter werden alphabetisch geordnet. Zum Beispiel ist „aber“ bei Index 0, „fantastisch“ bei Index 1, „Film“ bei Index 6 und so weiter.
Jede Zeile in der Dokumentmatrix repräsentiert eine Filmkritik und jede Spalte entspricht einem Wort aus dem Wortschatz. Die Werte in der Matrix repräsentieren die Häufigkeit jedes Wortes in diesem bestimmten Dokument.

Erste Bewertung: [0 1 0 0 1 1 1 0 0 0 1 1] zeigt, dass:

Das Wort „fantastisch“ einmal vorkommt (1 bei Index 1),
Das Wort „geliebt“ einmal vorkommt (1 bei Index 5),
Das Wort „Film“ einmal vorkommt (1 bei Index 6),
Das Wort „er“ einmal vorkommt (1 bei Index 4),
Und so weiter.

Der BoW-Vektor kann wie folgt interpretiert werden:

Jedes Dokument ist ein Vektor von Zahlen, die Wortzahlen darstellen. Die Dimensionen des Vektors sind gleich der Größe des Wortschatzes. In diesem Fall hat der Wortschatz 12 Wörter, daher wird jede Kritik in einen 12-dimensionalen Vektor umgewandelt.
Die meisten Wörter in jeder Zeile sind Nullen, weil nicht jedes Dokument jedes Wort aus dem Wortschatz enthält. Daher sind BoW-Modelle oft spärlich, das heißt, sie haben viele Nullen.

Vorteile und Einschränkungen des Bag of Words

Lassen Sie uns nun einige der Vorteile und Einschränkungen des Bag of Words-Modells behandeln.

Vorteile

Einfach zu implementieren und zu interpretieren: Das Bag of Words-Modell ist eine der unkompliziertesten Textrepräsentationstechniken und ideal für Anfänger. Seine Einfachheit ermöglicht eine schnelle Implementierung ohne den Bedarf an komplexer Vorverarbeitung oder spezialisierten Modellen.
Einfach zu verwenden für Textklassifizierungsaufgaben: Bag of Words ist gut geeignet für grundlegende Aufgaben wie Textklassifizierung, Sentimentanalyse und Spam-Erkennung. Diese Aufgaben erfordern oft keine komplexen Sprachmodelle, sodass eine BOW-Repräsentation ausreichend und effizient ist.

Einschränkungen

Vokabulargröße beeinflusst die Sparsity der Darstellungen: Je größer das Vokabular, desto sparser und höherdimensionaler wird die Darstellung. Diese Sparsity kann es Modellen schwerer machen, effektiv zu lernen und erfordert eine sorgfältige Abstimmung der Vokabulargröße, um übermäßigeComputationskosten zu vermeiden.
Erzeugt sparse Matrizen, die rechenintensiv sind: Da jedes Dokument durch die Häufigkeit jedes Wortes in einem möglicherweise großen Vokabular dargestellt wird, sind die resulting Matrizen oft überwiegend Nullen, was ineffizient für die Speicherung und Verarbeitung in Maschinenlernpipelines sein kann. Sparse Matrizen verbrauchen erheblichen Speicherplatz und erfordern oft spezialisierte Tools und Bibliotheken für effiziente Speicherung und Berechnung, insbesondere bei großen Datensätzen.
Loses meaning and context: BOW vernachlässigt die Wortstellung und die Satzstruktur, was zum Verlust grammatikalischer Beziehungen und Bedeutung führt. Diese Einschränkung macht es weniger geeignet für Aufgaben, bei denen Kontext, Nuancen und Wortstellung eine Rolle spielen, wie Übersetzung oder die Erkennung von Gefühlen in komplexen Sätzen.

Die folgenden Strategien können verwendet werden, um die Größe des Wortschatzes im Bag of Words zu verringern:

Unberücksichtigung der Groß- und Kleinschreibung.
Entfernung von Interpunktion.
Entfernung von Stopwörtern, das sind häufige Wörter wie die und ein.
Sicherstellung, dass alle Wörter korrekt geschrieben sind.
Verwendung von Stemmtechniken, um Wörter auf ihre Wortwurzel zu reduzieren.

Nächste Schritte: Jenseits des Bag of Words

Eine Einschränkung des Bag of Words-Modells ist, dass es alle Wörter gleich behandelt. Leider kann dies zu Problemen führen, bei denen einige Wörter mehr Bedeutung erhalten, nur weil sie häufig vorkommen.

TF-IDF (Term Frequency-Inverse Document Frequency) ist eine Lösung für dieses Problem, da es das Gewicht der Wörter basierend auf deren Häufigkeit über alle Dokumente anpasst.

TF-IDF: Eine Erweiterung des Bag of Words

Term Frequency (TF) stellt die Häufigkeit eines Terms in einem Dokument dar. Inverse Document Frequency (IDF) reduziert den Einfluss häufig auftretender Wörter über mehrere Dokumente hinweg. Der TF-IDF-Score wird durch die Multiplikation der beiden Metriken berechnet.

Beziehen Sie einen Text mit 200 Wörtern, in dem das Wort Liebe 5 Mal vorkommt. Die TF (Term Frequency) für Liebe beträgt dann (5 / 200) = 0,025. Angenommen, wir hätten eine Million Dokumente und das Wort Liebe kommt in tausend dieser vor, die inverse Dokumentfrequenz (d.h. IDF) wird berechnet als log(1000000 / 1000) = 3. Das TF-IDF-Gewicht ist das Produkt dieser Mengen: 0,025 * 3 = 0,075.

In Scikit-learn ist es relativ einfach, dies mit der TfidfVectorizer-Klasse zu berechnen.

from sklearn.feature_extraction.text import TfidfVectorizer
# Beispielkorpus
corpus = [
    "Python is amazing and fun.",
    "Python is not just fun but also powerful.",
    "Learning Python is fun!",
]

# Erstellen des Tf-idf-VEktorisierers
tfidf_vectorizer = TfidfVectorizer()

# Anpassen und Transformieren des Korpus
X_tfidf = tfidf_vectorizer.fit_transform(corpus)

# Das Vokabular anzeigen
print("Vocabulary:", tfidf_vectorizer.get_feature_names_out())

# Die TF-IDF-Matrix anzeigen
print("TF-IDF Representation:")
print(X_tfidf.toarray())

Output:

Vocabulary: ['also' 'amazing' 'and' 'but' 'fun' 'is' 'just' 'learning' 'not'
 'powerful' 'python']
TF-IDF Representation:
[[0.         0.57292883 0.57292883 0.         0.338381   0.338381
  0.         0.         0.         0.         0.338381  ]
 [0.40667606 0.         0.         0.40667606 0.24018943 0.24018943
  0.40667606 0.         0.40667606 0.40667606 0.24018943]
 [0.         0.         0.         0.         0.41285857 0.41285857
  0.         0.69903033 0.         0.         0.41285857]]

Die obige implementierte TF-IDF-Matrix gibt Ihnen eine gewichtete Messung anstelle von rohen Häufigkeiten.

Obwohl das Bag-of-Words-Modell seine Grenzen hat, insbesondere bei größeren und komplexeren Datensätzen, ist es dennoch ein unverzichtbares Bausteин in vielen Anwendungen der NLP. Das Verständnis davon wird Ihnen helfen, wenn Sie sich mit fortgeschritteneren Modellen wie Word Embeddings und Transformers beschäftigen.

Von hier aus könnten Sie das BoW in Ihren Projekten ausprobieren, einschließlich Spam-Erkennung, Sentimentanalyse, Dokumentenclustering und mehr.

Falls Sie über das Bag-of-Words-Modell hinaus Verbesserungen anstreben, können Sie Methoden wie Word2Vec und GloVe oder tiefengebundene Modelle wie BERT erkunden.

Abschließende Gedanken

Die Technik des Bags of Words ist eine grundlegende Methode in der Natural Language Processing. Sie dient als einfache, aber effektive Möglichkeit, unstrukturierten Text in numerische Merkmale umzuwandeln, die von maschinellem Lernen verwendet werden können. In diesem Tutorial haben wir behandelt:

Was ist das Bag of Words (BoW) Modell?
Die Vorteile des Bag of Word Modells bei der Erstellung von maschinellem Lernen-Modellen.
Wie man das Bag of Words Modell in Python implementiert.
Vorteile und Beschränkungen des Bags of Words.
Die Theorie und Motivation hinter dem Bag of Words Modell.
Die Einführung von TF-IDF als Verbesserung des traditionellen Bags of Words Ansatzes.

Schauen Sie sich unsere Natural Language Processing in Python Skill Track an, um tiefer in die Natural Language Processing einzutauchen.

Source:
https://www.datacamp.com/tutorial/python-bag-of-words-model