MariaDB Vector Edition: Feito para AI

Com mais de duas décadas de experiência em sistemas de bases de dados relacionais, eu comecei recentemente a explorar a nova Edição Vector do MariaDB para ver se poderia resolver alguns dos desafios de dados de IA que estamos enfrentando. Uma rápida olhada pareceu muito convincente, especialmente com a capacidade de trazer o milagre da IA diretamente em um ambiente de banco de dados regular. No entanto, eu quis testá-lo com um caso de uso simples para verificar sua performance prática.

Neste artigo, eu compartilharia minha experiência prática e observações sobre as capacidades vetoriais do MariaDB executando um simples caso de uso. especificamente, eu vou carregar avaliações de clientes de exemplo no MariaDB e executar buscas de similaridade rápida para encontrar avaliações relacionadas.

Configuração do Ambiente

Meu experimento começou com a configuração de um container Docker usando a última versão (11.6) do MariaDB, que inclui funcionalidades vetoriais.

Shell

 

Agora, crie uma tabela e preencha-a com avaliações de clientes de exemplo que incluem pontuações de sentimento e embeddings para cada avaliação. Para gerar embeddings de texto, estou usando SentenceTransformer, que permite usar modelos pré-treinados. especificamente, decidi usar um modelo chamado paraphrase-MiniLM-L6-v2 que leva as nossas avaliações de clientes e as mapeadas para um espaço de 384 dimensões.

Python

 

Agora, vamos aproveitar as capacidades vetoriais do MariaDB para encontrar avaliações semelhantes. Isso é mais como perguntar “O que outros clientes disseram semelhantes a esta avaliação?“. No exemplo abaixo, vou encontrar as duas avaliações mais semelhantes a uma avaliação de cliente que diz “Estou super satisfeito!“. Para fazer isso, estou usando uma das funções vetoriais (VEC_Distance_Euclidean) disponíveis na versão mais recente.

Python

 

Observações

  • É fácil de configurar e podemos combinar ambos dados estruturados (como ID do produto e pontuações de sentimento), dados não estruturados (texto da avaliação) e suas representações vetoriais em uma única tabela.
  • Gosto de sua capacidade de usar sintaxe SQL juntamente com operações vetoriais, o que torna fácil para equipes que já estão familiarizadas com bases de dados relacionais. Aqui está a lista completa de funções vetoriais suportadas nesta versão.
  • O índice HNSW melhorou a performance da consulta de busca de similaridade para conjuntos de dados maiores que testei até agora.

Conclusão

Globalmente, estou impressionado! A Edição Vector de MariaDB vai simplificar certas arquiteturas baseadas em AI. Ela atravessa o gap entre o mundo tradicional de bancos de dados e as demandas evolutivas de ferramentas de AI. Nos próximos meses, eu aguardo com expectativa para ver como essa tecnologia se desenvolve e como a comunidade a adota em aplicações do mundo real.

Source:
https://dzone.com/articles/mariadb-vector-edition-hands-on-review