Carregando XML no MongoDB

Tutoriais

MongoDB

Existem muitas situações em que você pode precisar exportar dados de XML para MongoDB.

Apesar do fato de que os formatos XML e JSON(B) usados no MongoDB têm muitas semelhanças, eles também têm algumas diferenças que os tornam não intercambiáveis.

Portanto, antes de enfrentar a tarefa de exportar dados de XML para MongoDB, você precisará:

Escrever seus próprios scripts de análise XML;
Usar ferramentas ETL.

Embora os modelos de linguagem modernos possam escrever scripts de análise muito bem em idiomas como Python, esses scripts terão um problema sério — eles não serão unificados. Para cada tipo de arquivo, os modelos de linguagem modernos gerarão um script separado. Se você tiver mais de um tipo de XML, isso já cria problemas significativos na manutenção de mais de um script de análise.

O problema acima geralmente é resolvido usando ferramentas ETL especializadas. Neste artigo, vamos analisar uma ferramenta ETL chamada SmartXML. Embora o SmartXML também suporte a conversão de XML para uma representação relacional, vamos apenas analisar o processo de carregamento de XML no MongoDB.

O XML real pode ser extremamente grande e complexo. Este artigo é um artigo introdutório, então iremos analisar uma situação em que:

Todo XML tem a mesma estrutura;
O modelo lógico do XML é o mesmo que o modelo de armazenamento no MongoDB;
Os campos extraídos não precisam de processamento complexo;

Vamos abordar esses casos mais tarde, mas primeiro, vamos examinar um exemplo simples:

XML

<marketingData>

    <customer>

        <name>John Smith</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Smartphone</product>

                <category>Electronics</category>

                <price>700</price>

                <store>TechWorld</store>

                <location>New York</location>

                <purchaseDate>2025-01-10</purchaseDate>

            </purchase>

            <purchase>

                <product>Wireless Earbuds</product>

                <category>Audio</category>

                <price>150</price>

                <store>GadgetStore</store>

                <location>New York</location>

                <purchaseDate>2025-01-11</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Gold</loyaltyStatus>

            <age>34</age>

            <gender>Male</gender>

            <membershipID>123456</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Chrome</browser>

            <deviceType>Mobile</deviceType>

            <newsletterSubscribed>true</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Jane Doe</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Laptop</product>

                <category>Electronics</category>

                <price>1200</price>

                <store>GadgetStore</store>

                <location>San Francisco</location>

                <purchaseDate>2025-01-12</purchaseDate>

            </purchase>

            <purchase>

                <product>USB-C Adapter</product>

                <category>Accessories</category>

                <price>30</price>

                <store>TechWorld</store>

                <location>San Francisco</location>

                <purchaseDate>2025-01-13</purchaseDate>

            </purchase>

            <purchase>

                <product>Keyboard</product>

                <category>Accessories</category>

                <price>80</price>

                <store>OfficeMart</store>

                <location>San Francisco</location>

                <purchaseDate>2025-01-14</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Silver</loyaltyStatus>

            <age>28</age>

            <gender>Female</gender>

            <membershipID>654321</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Safari</browser>

            <deviceType>Desktop</deviceType>

            <newsletterSubscribed>false</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Michael Johnson</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Headphones</product>

                <category>Audio</category>

                <price>150</price>

                <store>AudioZone</store>

                <location>Chicago</location>

                <purchaseDate>2025-01-05</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Bronze</loyaltyStatus>

            <age>40</age>

            <gender>Male</gender>

            <membershipID>789012</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Firefox</browser>

            <deviceType>Tablet</deviceType>

            <newsletterSubscribed>true</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Emily Davis</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Running Shoes</product>

                <category>Sportswear</category>

                <price>120</price>

                <store>FitShop</store>

                <location>Los Angeles</location>

                <purchaseDate>2025-01-08</purchaseDate>

            </purchase>

            <purchase>

                <product>Yoga Mat</product>

                <category>Sportswear</category>

                <price>40</price>

                <store>FitShop</store>

                <location>Los Angeles</location>

                <purchaseDate>2025-01-09</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Gold</loyaltyStatus>

            <age>25</age>

            <gender>Female</gender>

            <membershipID>234567</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Edge</browser>

            <deviceType>Mobile</deviceType>

            <newsletterSubscribed>false</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Robert Brown</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Smartwatch</product>

                <category>Wearable</category>

                <price>250</price>

                <store>GadgetPlanet</store>

                <location>Boston</location>

                <purchaseDate>2025-01-07</purchaseDate>

            </purchase>

            <purchase>

                <product>Fitness Band</product>

                <category>Wearable</category>

                <price>100</price>

                <store>HealthMart</store>

                <location>Boston</location>

                <purchaseDate>2025-01-08</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Silver</loyaltyStatus>

            <age>37</age>

            <gender>Male</gender>

            <membershipID>345678</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Chrome</browser>

            <deviceType>Mobile</deviceType>

            <newsletterSubscribed>true</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

</marketingData>

Neste exemplo, vamos fazer o upload no MongoDB apenas dos campos que servem a um propósito prático, em vez de todo o XML.

Criar um Novo Projeto

É recomendável criar um novo projeto pela GUI. Isso criará automaticamente a estrutura de pastas necessária e as regras de análise. Uma descrição completa da estrutura do projeto pode ser encontrada na documentação oficial.

Todos os parâmetros descritos neste artigo podem ser configurados no modo gráfico, mas para clareza, vamos nos concentrar na representação textual.

Além do arquivo config.txt com as configurações do projeto, job.txt para trabalho em lote, o projeto em si consiste em:

Modelo de visualização interna intermediária SmartDOM, localizado na pasta do projeto templates/data-templates.red.
Regras para processamento e transformação do próprio SmartDOM, localizadas na pasta rules.

Vamos considerar a estrutura de data-templates.red:

Plain Text

#[

    sample: #[

        marketing_data: #[ 

            customers: [

                customer: [

                    name: none

                    email: none

                    purchases: [

                        purchase: [

                            product: none

                            category: none

                            price: none

                            store: none

                            location: none

                            purchase_date: none

                        ]

                    ]

                ]

            ]

        ]

    ]

]

Nota

O nome sample é o nome da categoria e não importa.
O marketing_data é o nome da subcategoria. Precisamos de pelo menos uma subcategoria de código (subtipo).
Os nomes de visualização intermediários não exigem correspondências exatas com os nomes das tags XML. Neste exemplo, usamos intencionalmente o estilo snake_case.

Regras de Extração

As regras estão localizadas no diretório rules na pasta do projeto.

Ao trabalhar com MongoDB, estaremos interessados apenas em duas regras:

tags-matching-rules.red — define as correspondências entre a árvore de tags XML e o SmartDOM
grow-rules.red — descreve o relacionamento entre os nós do SmartDOM e os nós XML reais

Plain Text

sample: [

    purchase: ["purchase"]

    customer: ["customer"]

]

A chave será o nome do nó no SmartDOM; o valor será um array contendo as variantes de grafia do nó do arquivo XML real. No nosso exemplo, esses nomes são os mesmos.

Tags Ignoradas

Para evitar carregar dados menores no MongoDB no exemplo acima, criamos arquivos na pasta ignores — um por seção, nomeado de acordo com cada seção. Esses arquivos contêm listas de tags a serem ignoradas durante a extração. Para o nosso exemplo, teremos um arquivo sample.txt contendo:

Plain Text

["marketingData" "customer" "lessImportantInfo" "browser"]

["marketingData" "customer" "lessImportantInfo" "deviceType"]

["marketingData" "customer" "lessImportantInfo" "newsletterSubscribed"]

Como resultado, ao analisar a morfologia, a representação intermediária terá a seguinte forma:

Plain Text

customers: [

    customer: [

        name: "John Smith"

        email: "[email protected]"

        loyalty_status: "Gold"

        age: "34"

        gender: "Male"

        membership_id: "123456"

        purchases: [

            purchase: [

                product: "Smartphone"

                category: "Electronics"

                price: "700"

                store: "TechWorld"

                location: "New York"

                purchase_date: "2025-01-10"

Observe que após a análise morfológica, apenas uma representação mínima é mostrada, contendo dados dos primeiros nós encontrados.

Aqui está o arquivo JSON que será gerado:

JSON

{

   "customers": [

      {

         "name": "John Smith",

         "email": "[email protected]",

         "loyalty_status": "Gold",

         "age": "34",

         "gender": "Male",

         "membership_id": "123456",

         "purchases": [

            {

               "product": "Smartphone",

               "category": "Electronics",

               "price": "700",

               "store": "TechWorld",

               "location": "New York",

               "purchase_date": "2025-01-10"

            },

            {

               "product": "Wireless Earbuds",

               "category": "Audio",

               "price": "150",

               "store": "GadgetStore",

               "location": "New York",

               "purchase_date": "2025-01-11"

            }

         ]

      },

      {

         "name": "Jane Doe",

         "email": "[email protected]",

         "loyalty_status": "Silver",

         "age": "28",

         "gender": "Female",

         "membership_id": "654321",

         "purchases": [

            {

               "product": "Laptop",

               "category": "Electronics",

               "price": "1200",

               "store": "GadgetStore",

               "location": "San Francisco",

               "purchase_date": "2025-01-12"

            },

            {

               "product": "USB-C Adapter",

               "category": "Accessories",

               "price": "30",

               "store": "TechWorld",

               "location": "San Francisco",

               "purchase_date": "2025-01-13"

            },

            {

               "product": "Keyboard",

               "category": "Accessories",

               "price": "80",

               "store": "OfficeMart",

               "location": "San Francisco",

               "purchase_date": "2025-01-14"

            }

         ]

      },

      {

         "name": "Michael Johnson",

         "email": "[email protected]",

         "loyalty_status": "Bronze",

         "age": "40",

         "gender": "Male",

         "membership_id": "789012",

         "purchases": [

            {

               "product": "Headphones",

               "category": "Audio",

               "price": "150",

               "store": "AudioZone",

               "location": "Chicago",

               "purchase_date": "2025-01-05"

            }

         ]

      },

      {

         "name": "Emily Davis",

         "email": "[email protected]",

         "loyalty_status": "Gold",

         "age": "25",

         "gender": "Female",

         "membership_id": "234567",

         "purchases": [

            {

               "product": "Running Shoes",

               "category": "Sportswear",

               "price": "120",

               "store": "FitShop",

               "location": "Los Angeles",

               "purchase_date": "2025-01-08"

            },

            {

               "product": "Yoga Mat",

               "category": "Sportswear",

               "price": "40",

               "store": "FitShop",

               "location": "Los Angeles",

               "purchase_date": "2025-01-09"

            }

         ]

      },

      {

         "name": "Robert Brown",

         "email": "[email protected]",

         "loyalty_status": "Silver",

         "age": "37",

         "gender": "Male",

         "membership_id": "345678",

         "purchases": [

            {

               "product": "Smartwatch",

               "category": "Wearable",

               "price": "250",

               "store": "GadgetPlanet",

               "location": "Boston",

               "purchase_date": "2025-01-07"

            },

            {

               "product": "Fitness Band",

               "category": "Wearable",

               "price": "100",

               "store": "HealthMart",

               "location": "Boston",

               "purchase_date": "2025-01-08"

            }

         ]

      }

   ]

}

Configurando a Conexão com o MongoDB

Como o MongoDB não suporta a inserção direta de dados via HTTP, será necessário um serviço intermediário.

Vamos instalar as dependências: pip install flask pymongo.

O serviço em si:

Python

from flask import Flask, request, jsonify

from pymongo import MongoClient

import json

​

app = Flask(__name__)

​

# Connection to MongoDB

client = MongoClient('mongodb://localhost:27017')

db = client['testDB']

collection = db['testCollection']

​

@app.route('/insert', methods=['POST'])

def insert_document():

    try:

        # Flask will automatically parse JSON if Content-Type: application/json

        data = request.get_json() 

​

        if not data:

            return jsonify({"error": "Empty JSON payload"}), 400

​

        result = collection.insert_one(data)

        return jsonify({"insertedId": str(result.inserted_id)}), 200

    except Exception as e:

        import traceback

        print(traceback.format_exc())

        return jsonify({"error": str(e)}), 500

​

if __name__ == '__main__':

    app.run(port=3000)

​

Vamos configurar as configurações de conexão com o MongoDB no arquivo config.txt (veja nosql-url):

Plain Text

job-number: 1

root-xml-folder: "D:/data/data-samples"

xml-filling-stat: false ; table: filling_percent_stat should exists

ignore-namespaces: false

ignore-tag-attributes: false

use-same-morphology-for-same-file-name-pattern: false

skip-schema-version-tag: true

use-same-morphology-for-all-files-in-folder: false

delete-data-before-insert: none

connect-to-db-at-project-opening: true

source-database: "SQLite" ; available values: PostgreSQL/SQLite

target-database: "SQLite" ; available values: PostgreSQL/SQLite/NoSQL

​

bot-chatID: ""

bot-token: ""

telegram-notifications: true

​

db-driver: ""

db-server: "127.0.0.1"

db-port: ""

db-name: ""

db-user: ""

db-pass: ""

​

sqlite-driver-name: "SQLite3 ODBC Driver"

sqlite-db-path: ""

​

nosql-url: "http://127.0.0.1:3000/insert"

append-subsection-name-to-nosql-url: false

no-sql-login: "" ; login and pass are empty

no-sql-pass: ""

​

Lembre-se de que o MongoDB criará automaticamente um banco de dados e uma coleção com o mesmo nome se eles não existirem. No entanto, esse comportamento pode causar erros, e é recomendável desativá-lo por padrão.

Vamos executar o serviço em si:

Python

python .\app.py

Em seguida, clique em Analisar, e depois Enviar JSON para NoSQL.

Agora conecte-se ao console do MongoDB de qualquer maneira conveniente e execute os seguintes comandos:

Plain Text

show databases

admin   40.00 KiB

config  72.00 KiB

local   72.00 KiB

testDB  72.00 KiB

use testDB

switched to db testDB

db.testCollection.find().pretty()

O resultado deve se parecer com o seguinte:

JSON

{

  _id: ObjectId('278e1b2c7c1823d4fde120ef'),

  customers: [

    {

      name: 'John Smith',

      email: '[email protected]',

      loyalty_status: 'Gold',

      age: '34',

      gender: 'Male',

      membership_id: '123456',

      purchases: [

        {

          product: 'Smartphone',

          category: 'Electronics',

          price: '700',

          store: 'TechWorld',

          location: 'New York',

          purchase_date: '2025-01-10'

        },

        {

          product: 'Wireless Earbuds',

          category: 'Audio',

          price: '150',

          store: 'GadgetStore',

          location: 'New York',

          purchase_date: '2025-01-11'

        }

      ]

    },

    {

      name: 'Jane Doe',

      email: '[email protected]',

      loyalty_status: 'Silver',

      age: '28',

      gender: 'Female',

      membership_id: '654321',

      purchases: [

        {

          product: 'Laptop',

          category: 'Electronics',

          price: '1200',

          store: 'GadgetStore',

          location: 'San Francisco',

          purchase_date: '2025-01-12'

        },

        {

          product: 'USB-C Adapter',

          category: 'Accessories',

          price: '30',

          store: 'TechWorld',

          location: 'San Francisco',

          purchase_date: '2025-01-13'

        },

        {

          product: 'Keyboard',

          category: 'Accessories',

          price: '80',

          store: 'OfficeMart',

          location: 'San Francisco',

          purchase_date: '2025-01-14'

        }

      ]

    },

    {

      name: 'Michael Johnson',

      email: '[email protected]',

      loyalty_status: 'Bronze',

      age: '40',

      gender: 'Male',

      membership_id: '789012',

      purchases: [

        {

          product: 'Headphones',

          category: 'Audio',

          price: '150',

          store: 'AudioZone',

          location: 'Chicago',

          purchase_date: '2025-01-05'

        }

      ]

    },

    {

      name: 'Emily Davis',

      email: '[email protected]',

      loyalty_status: 'Gold',

      age: '25',

      gender: 'Female',

      membership_id: '234567',

      purchases: [

        {

          product: 'Running Shoes',

          category: 'Sportswear',

          price: '120',

          store: 'FitShop',

          location: 'Los Angeles',

          purchase_date: '2025-01-08'

        },

        {

          product: 'Yoga Mat',

          category: 'Sportswear',

          price: '40',

          store: 'FitShop',

          location: 'Los Angeles',

          purchase_date: '2025-01-09'

        }

      ]

    },

    {

      name: 'Robert Brown',

      email: '[email protected]',

      loyalty_status: 'Silver',

      age: '37',

      gender: 'Male',

      membership_id: '345678',

      purchases: [

        {

          product: 'Smartwatch',

          category: 'Wearable',

          price: '250',

          store: 'GadgetPlanet',

          location: 'Boston',

          purchase_date: '2025-01-07'

        },

        {

          product: 'Fitness Band',

          category: 'Wearable',

          price: '100',

          store: 'HealthMart',

          location: 'Boston',

          purchase_date: '2025-01-08'

        }

      ]

    }

  ]

}

Conclusão

Neste exemplo, vimos como podemos automatizar o upload de arquivos XML para o MongoDB sem precisar escrever nenhum código. Embora o exemplo considere apenas um arquivo, é possível, dentro do escopo de um projeto, lidar com um grande número de tipos e subtipos de arquivos com estruturas diferentes, bem como realizar manipulações bastante complexas, como conversão de tipo e o uso de serviços externos para processar valores de campos em tempo real. Isso permite não apenas o descarregamento de dados do XML, mas também o processamento de alguns valores por meio de API externa, incluindo o uso de grandes modelos de linguagem.

Source:
https://dzone.com/articles/loading-xml-into-mongodb