如何在Python中实现余弦相似度

教程

NumPy

余弦相似度在现实世界中有多种应用，通过使用嵌入向量，我们能以编程方式比较现实世界的含义。Python是数据科学领域最流行的语言之一，它提供了多种库来轻松计算余弦相似度。本文将探讨如何借助Scikit-Learn和NumPy库在Python中实现余弦相似度。

何为余弦相似度？

余弦相似度是衡量n维空间中两个非零向量相似度的一种方法。它广泛应用于文本分析和推荐系统等领域，用于确定两个向量在向量空间中方向的相似程度。

余弦相似度公式

两个向量A和B之间的余弦相似度通过以下公式计算：

余弦相似度(A, B) = (A · B) / (||A|| * ||B||)

在此公式中，A · B表示向量A和B的点积。这是通过将两个向量的对应分量相乘并将结果相加来计算的。||A||表示向量A的欧几里得范数（大小），即其分量平方和的平方根。计算公式为||A|| = √(A₁² + A₂² + … + Aₙ²)。||B||表示向量B的欧几里得范数（大小），计算方式与||A||相同。

如何计算余弦相似度

要计算余弦相似度，首先完成两个向量点积的计算。然后，将其除以它们大小的乘积。所得值将在-1到1的范围内，其中：

如果余弦相似度为1，意味着向量方向相同，完全相似。
如果余弦相似度为0，意味着向量相互垂直，没有相似性。
如果余弦相似度为-1，意味着向量方向相反，完全不相似。

在文本分析中，余弦相似度用于衡量文档向量之间的相似性，其中每个文档在高维空间中表示为一个向量，每个维度对应于语料库中的一个术语或单词。通过计算文档向量之间的余弦相似度，可以确定两个文档彼此之间的相似程度。

余弦相似度计算的库

NumPy：非常适合数值运算，且优化了速度。
scikit-learn: 提供多种机器学习算法，并在其metrics包中包含计算余弦相似度的方法。

以下是一些示例，展示如何使用Python计算余弦相似度。我们将使用两个熟悉的图书评论向量 [5,3,4] 和 [4,2,4]。

纯Python实现

虽然我们之前手工计算过，但计算机当然可以做到！以下是如何使用Python而不依赖任何额外库来计算余弦相似度的方法：

Python

A = [5, 3, 4]

B = [4, 2, 4]

# Calculate dot product

dot_product = sum(a*b for a, b in zip(A, B))

# Calculate the magnitude of each vector

magnitude_A = sum(a*a for a in A)**0.5

magnitude_B = sum(b*b for b in B)**0.5

# Compute cosine similarity

cosine_similarity = dot_product / (magnitude_A * magnitude_B)

print(f"Cosine Similarity using standard Python: {cosine_similarity}")

使用NumPy

嵌入向量通常具有许多维度——数百、数千，甚至数百万或更多！使用NumPy，您可以通过高度优化的数组操作来计算余弦相似度。

Python

import numpy as np

A = np.array([5, 3, 4])

B = np.array([4, 2, 4])

dot_product = np.dot(A, B)

magnitude_A = np.linalg.norm(A)

magnitude_B = np.linalg.norm(B)

cosine_similarity = dot_product / (magnitude_A * magnitude_B)

print(f"Cosine Similarity using NumPy: {cosine_similarity}")

使用Scikit-Learn

scikit-learn的cosine_similarity函数使得计算高度优化的余弦相似度操作变得更为简便：

Python

from sklearn.metrics.pairwise import cosine_similarity

A = np.array([[5, 3, 4]])

B = np.array([[4, 2, 4]])

cosine_similarity_result = cosine_similarity(A, B)

print(f"Cosine Similarity using scikit-learn: {cosine_similarity_result[0][0]}")

优化Python中余弦相似度计算的技巧

如果您打算直接使用Python计算余弦相似度，以下是一些考虑因素：

使用优化库如NumPy或scikit-learn：这些库针对性能进行了优化，通常比纯Python更快。
使用Numba：Numba是一个针对Python和NumPy代码的开源JIT编译器，专门为优化科学计算函数而构建。
使用GPU：若您能访问GPU，可利用如Tensorflow等针对GPU优化的Python库。
并行计算：若硬件条件允许，考虑并行化计算以加速处理。

在AstraDB上通过向量搜索检索大量向量

若需检索大量向量，使用如DataStax Astra的向量搜索功能可能更高效且可扩展。Astra DB的向量搜索提供了一个强大的平台，支持内置余弦相似度计算，助您从数据中获取更深入的洞察。

Source:
https://dzone.com/articles/how-to-implement-cosine-similarity-in-python