Carregando XML no MongoDB

Tutoriais

MongoDB

Existem muitas situações em que você pode precisar exportar dados de XML para MongoDB.

Apesar do fato de que os formatos XML e JSON(B) usados em MongoDB têm muito em comum, eles também possuem uma série de diferenças que os tornam não intercambiáveis.

Portanto, antes de enfrentar a tarefa de exportar dados de XML para MongoDB, você precisará:

Escrever seus próprios scripts de análise de XML;
Usar ferramentas ETL.

Embora modelos de linguagem modernos possam escrever scripts de análise muito bem em linguagens como Python, esses scripts terão um problema sério — eles não serão unificados. Para cada tipo de arquivo, modelos de linguagem modernos gerarão um script separado. Se você tiver mais de um tipo de XML, isso já cria problemas significativos na manutenção de mais de um script de análise.

O problema acima geralmente é resolvido usando ferramentas ETL especializadas. Neste artigo, veremos uma ferramenta ETL chamada SmartXML. Embora o SmartXML também suporte a conversão de XML para uma representação relacional, veremos apenas o processo de upload de XML para MongoDB.

O XML real pode ser extremamente grande e complexo. Este artigo é um artigo introdutório, então vamos dissecar uma situação em que:

Todo XML tem a mesma estrutura;
O modelo lógico do XML é o mesmo que o modelo de armazenamento no MongoDB;
Os campos extraídos não precisam de processamento complexo;

Vamos abordar esses casos mais tarde, mas primeiro, vamos examinar um exemplo simples:

XML

<marketingData>

    <customer>

        <name>John Smith</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Smartphone</product>

                <category>Electronics</category>

                <price>700</price>

                <store>TechWorld</store>

                <location>New York</location>

                <purchaseDate>2025-01-10</purchaseDate>

            </purchase>

            <purchase>

                <product>Wireless Earbuds</product>

                <category>Audio</category>

                <price>150</price>

                <store>GadgetStore</store>

                <location>New York</location>

                <purchaseDate>2025-01-11</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Gold</loyaltyStatus>

            <age>34</age>

            <gender>Male</gender>

            <membershipID>123456</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Chrome</browser>

            <deviceType>Mobile</deviceType>

            <newsletterSubscribed>true</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Jane Doe</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Laptop</product>

                <category>Electronics</category>

                <price>1200</price>

                <store>GadgetStore</store>

                <location>San Francisco</location>

                <purchaseDate>2025-01-12</purchaseDate>

            </purchase>

            <purchase>

                <product>USB-C Adapter</product>

                <category>Accessories</category>

                <price>30</price>

                <store>TechWorld</store>

                <location>San Francisco</location>

                <purchaseDate>2025-01-13</purchaseDate>

            </purchase>

            <purchase>

                <product>Keyboard</product>

                <category>Accessories</category>

                <price>80</price>

                <store>OfficeMart</store>

                <location>San Francisco</location>

                <purchaseDate>2025-01-14</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Silver</loyaltyStatus>

            <age>28</age>

            <gender>Female</gender>

            <membershipID>654321</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Safari</browser>

            <deviceType>Desktop</deviceType>

            <newsletterSubscribed>false</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Michael Johnson</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Headphones</product>

                <category>Audio</category>

                <price>150</price>

                <store>AudioZone</store>

                <location>Chicago</location>

                <purchaseDate>2025-01-05</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Bronze</loyaltyStatus>

            <age>40</age>

            <gender>Male</gender>

            <membershipID>789012</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Firefox</browser>

            <deviceType>Tablet</deviceType>

            <newsletterSubscribed>true</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Emily Davis</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Running Shoes</product>

                <category>Sportswear</category>

                <price>120</price>

                <store>FitShop</store>

                <location>Los Angeles</location>

                <purchaseDate>2025-01-08</purchaseDate>

            </purchase>

            <purchase>

                <product>Yoga Mat</product>

                <category>Sportswear</category>

                <price>40</price>

                <store>FitShop</store>

                <location>Los Angeles</location>

                <purchaseDate>2025-01-09</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Gold</loyaltyStatus>

            <age>25</age>

            <gender>Female</gender>

            <membershipID>234567</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Edge</browser>

            <deviceType>Mobile</deviceType>

            <newsletterSubscribed>false</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Robert Brown</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Smartwatch</product>

                <category>Wearable</category>

                <price>250</price>

                <store>GadgetPlanet</store>

                <location>Boston</location>

                <purchaseDate>2025-01-07</purchaseDate>

            </purchase>

            <purchase>

                <product>Fitness Band</product>

                <category>Wearable</category>

                <price>100</price>

                <store>HealthMart</store>

                <location>Boston</location>

                <purchaseDate>2025-01-08</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Silver</loyaltyStatus>

            <age>37</age>

            <gender>Male</gender>

            <membershipID>345678</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Chrome</browser>

            <deviceType>Mobile</deviceType>

            <newsletterSubscribed>true</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

</marketingData>

Neste exemplo, vamos carregar no MongoDB apenas os campos que têm um propósito prático, em vez de todo o XML.

Criar um Novo Projeto

É recomendado criar um novo projeto pela interface gráfica. Isso criará automaticamente a estrutura de pastas necessária e as regras de análise. Uma descrição completa da estrutura do projeto pode ser encontrada na documentação oficial.

Todos os parâmetros descritos neste artigo podem ser configurados em modo gráfico, mas para clareza, vamos nos concentrar na representação textual.

Além do arquivo config.txt com as configurações do projeto, job.txt para trabalho em lote, o próprio projeto consiste em:

Modelo da visualização interna intermediária SmartDOM, localizado na pasta do projeto templates/data-templates.red.
Regras para processamento e transformação do SmartDOM em si, localizadas na pasta rules.

Vamos considerar a estrutura de data-templates.red:

Plain Text

#[

    sample: #[

        marketing_data: #[ 

            customers: [

                customer: [

                    name: none

                    email: none

                    purchases: [

                        purchase: [

                            product: none

                            category: none

                            price: none

                            store: none

                            location: none

                            purchase_date: none

                        ]

                    ]

                ]

            ]

        ]

    ]

]

Nota

O nome sample é o nome da categoria, e não importa.
O marketing_data é o nome da subcategoria. Precisamos de pelo menos uma subcategoria de código (subtipo).
Os nomes das visualizações intermediárias não precisam corresponder exatamente aos nomes das tags XML. Neste exemplo, usamos intencionalmente o estilo snake_case.

Regras de Extração

As regras estão localizadas no diretório rules na pasta do projeto.

Ao trabalhar com MongoDB, estaremos interessados apenas em duas regras:

tags-matching-rules.red — define as correspondências entre a árvore de tags XML e o SmartDOM
grow-rules.red — descreve a relação entre os nós do SmartDOM e os nós XML reais

Plain Text

sample: [

    purchase: ["purchase"]

    customer: ["customer"]

]

A chave será o nome do nó no SmartDOM; o valor será um array contendo as variantes de grafia do nó do arquivo XML real. No nosso exemplo, esses nomes são os mesmos.

Tags Ignoradas

Para evitar carregar dados menores no MongoDB no exemplo acima, criamos arquivos na pasta ignores — um por seção, nomeados de acordo com cada seção. Esses arquivos contêm listas de tags a serem ignoradas durante a extração. Para o nosso exemplo, teremos um arquivo sample.txt contendo:

Plain Text

["marketingData" "customer" "lessImportantInfo" "browser"]

["marketingData" "customer" "lessImportantInfo" "deviceType"]

["marketingData" "customer" "lessImportantInfo" "newsletterSubscribed"]

Como resultado, ao analisar a morfologia, a representação intermediária terá a seguinte forma:

Plain Text

customers: [

    customer: [

        name: "John Smith"

        email: "[email protected]"

        loyalty_status: "Gold"

        age: "34"

        gender: "Male"

        membership_id: "123456"

        purchases: [

            purchase: [

                product: "Smartphone"

                category: "Electronics"

                price: "700"

                store: "TechWorld"

                location: "New York"

                purchase_date: "2025-01-10"

Observe que após a análise morfológica, apenas uma representação mínima é mostrada contendo dados dos primeiros nós encontrados.

Aqui está o arquivo JSON que será gerado:

JSON

{

   "customers": [

      {

         "name": "John Smith",

         "email": "[email protected]",

         "loyalty_status": "Gold",

         "age": "34",

         "gender": "Male",

         "membership_id": "123456",

         "purchases": [

            {

               "product": "Smartphone",

               "category": "Electronics",

               "price": "700",

               "store": "TechWorld",

               "location": "New York",

               "purchase_date": "2025-01-10"

            },

            {

               "product": "Wireless Earbuds",

               "category": "Audio",

               "price": "150",

               "store": "GadgetStore",

               "location": "New York",

               "purchase_date": "2025-01-11"

            }

         ]

      },

      {

         "name": "Jane Doe",

         "email": "[email protected]",

         "loyalty_status": "Silver",

         "age": "28",

         "gender": "Female",

         "membership_id": "654321",

         "purchases": [

            {

               "product": "Laptop",

               "category": "Electronics",

               "price": "1200",

               "store": "GadgetStore",

               "location": "San Francisco",

               "purchase_date": "2025-01-12"

            },

            {

               "product": "USB-C Adapter",

               "category": "Accessories",

               "price": "30",

               "store": "TechWorld",

               "location": "San Francisco",

               "purchase_date": "2025-01-13"

            },

            {

               "product": "Keyboard",

               "category": "Accessories",

               "price": "80",

               "store": "OfficeMart",

               "location": "San Francisco",

               "purchase_date": "2025-01-14"

            }

         ]

      },

      {

         "name": "Michael Johnson",

         "email": "[email protected]",

         "loyalty_status": "Bronze",

         "age": "40",

         "gender": "Male",

         "membership_id": "789012",

         "purchases": [

            {

               "product": "Headphones",

               "category": "Audio",

               "price": "150",

               "store": "AudioZone",

               "location": "Chicago",

               "purchase_date": "2025-01-05"

            }

         ]

      },

      {

         "name": "Emily Davis",

         "email": "[email protected]",

         "loyalty_status": "Gold",

         "age": "25",

         "gender": "Female",

         "membership_id": "234567",

         "purchases": [

            {

               "product": "Running Shoes",

               "category": "Sportswear",

               "price": "120",

               "store": "FitShop",

               "location": "Los Angeles",

               "purchase_date": "2025-01-08"

            },

            {

               "product": "Yoga Mat",

               "category": "Sportswear",

               "price": "40",

               "store": "FitShop",

               "location": "Los Angeles",

               "purchase_date": "2025-01-09"

            }

         ]

      },

      {

         "name": "Robert Brown",

         "email": "[email protected]",

         "loyalty_status": "Silver",

         "age": "37",

         "gender": "Male",

         "membership_id": "345678",

         "purchases": [

            {

               "product": "Smartwatch",

               "category": "Wearable",

               "price": "250",

               "store": "GadgetPlanet",

               "location": "Boston",

               "purchase_date": "2025-01-07"

            },

            {

               "product": "Fitness Band",

               "category": "Wearable",

               "price": "100",

               "store": "HealthMart",

               "location": "Boston",

               "purchase_date": "2025-01-08"

            }

         ]

      }

   ]

}

Configurando a Conexão com o MongoDB

Como o MongoDB não suporta inserção direta de dados via HTTP, será necessário um serviço intermediário.

Vamos instalar as dependências: pip install flask pymongo.

O serviço em si:

Python

from flask import Flask, request, jsonify

from pymongo import MongoClient

import json

​

app = Flask(__name__)

​

# Connection to MongoDB

client = MongoClient('mongodb://localhost:27017')

db = client['testDB']

collection = db['testCollection']

​

@app.route('/insert', methods=['POST'])

def insert_document():

    try:

        # Flask will automatically parse JSON if Content-Type: application/json

        data = request.get_json() 

​

        if not data:

            return jsonify({"error": "Empty JSON payload"}), 400

​

        result = collection.insert_one(data)

        return jsonify({"insertedId": str(result.inserted_id)}), 200

    except Exception as e:

        import traceback

        print(traceback.format_exc())

        return jsonify({"error": str(e)}), 500

​

if __name__ == '__main__':

    app.run(port=3000)

​

Vamos configurar as definições de conexão do MongoDB no arquivo config.txt (veja nosql-url):

Plain Text

job-number: 1

root-xml-folder: "D:/data/data-samples"

xml-filling-stat: false ; table: filling_percent_stat should exists

ignore-namespaces: false

ignore-tag-attributes: false

use-same-morphology-for-same-file-name-pattern: false

skip-schema-version-tag: true

use-same-morphology-for-all-files-in-folder: false

delete-data-before-insert: none

connect-to-db-at-project-opening: true

source-database: "SQLite" ; available values: PostgreSQL/SQLite

target-database: "SQLite" ; available values: PostgreSQL/SQLite/NoSQL

​

bot-chatID: ""

bot-token: ""

telegram-notifications: true

​

db-driver: ""

db-server: "127.0.0.1"

db-port: ""

db-name: ""

db-user: ""

db-pass: ""

​

sqlite-driver-name: "SQLite3 ODBC Driver"

sqlite-db-path: ""

​

nosql-url: "http://127.0.0.1:3000/insert"

append-subsection-name-to-nosql-url: false

no-sql-login: "" ; login and pass are empty

no-sql-pass: ""

​

Lembre-se de que o MongoDB criará automaticamente um banco de dados e uma coleção com o mesmo nome se eles não existirem. No entanto, esse comportamento pode causar erros, e é recomendado desativá-lo por padrão.

Vamos executar o próprio serviço:

Python

python .\app.py

Em seguida, clique em Parse, depois Enviar JSON para NoSQL.

Agora conecte-se ao console do MongoDB de qualquer maneira conveniente e execute os seguintes comandos:

Plain Text

show databases

admin   40.00 KiB

config  72.00 KiB

local   72.00 KiB

testDB  72.00 KiB

use testDB

switched to db testDB

db.testCollection.find().pretty()

O resultado deve ser semelhante ao seguinte:

JSON

{

  _id: ObjectId('278e1b2c7c1823d4fde120ef'),

  customers: [

    {

      name: 'John Smith',

      email: '[email protected]',

      loyalty_status: 'Gold',

      age: '34',

      gender: 'Male',

      membership_id: '123456',

      purchases: [

        {

          product: 'Smartphone',

          category: 'Electronics',

          price: '700',

          store: 'TechWorld',

          location: 'New York',

          purchase_date: '2025-01-10'

        },

        {

          product: 'Wireless Earbuds',

          category: 'Audio',

          price: '150',

          store: 'GadgetStore',

          location: 'New York',

          purchase_date: '2025-01-11'

        }

      ]

    },

    {

      name: 'Jane Doe',

      email: '[email protected]',

      loyalty_status: 'Silver',

      age: '28',

      gender: 'Female',

      membership_id: '654321',

      purchases: [

        {

          product: 'Laptop',

          category: 'Electronics',

          price: '1200',

          store: 'GadgetStore',

          location: 'San Francisco',

          purchase_date: '2025-01-12'

        },

        {

          product: 'USB-C Adapter',

          category: 'Accessories',

          price: '30',

          store: 'TechWorld',

          location: 'San Francisco',

          purchase_date: '2025-01-13'

        },

        {

          product: 'Keyboard',

          category: 'Accessories',

          price: '80',

          store: 'OfficeMart',

          location: 'San Francisco',

          purchase_date: '2025-01-14'

        }

      ]

    },

    {

      name: 'Michael Johnson',

      email: '[email protected]',

      loyalty_status: 'Bronze',

      age: '40',

      gender: 'Male',

      membership_id: '789012',

      purchases: [

        {

          product: 'Headphones',

          category: 'Audio',

          price: '150',

          store: 'AudioZone',

          location: 'Chicago',

          purchase_date: '2025-01-05'

        }

      ]

    },

    {

      name: 'Emily Davis',

      email: '[email protected]',

      loyalty_status: 'Gold',

      age: '25',

      gender: 'Female',

      membership_id: '234567',

      purchases: [

        {

          product: 'Running Shoes',

          category: 'Sportswear',

          price: '120',

          store: 'FitShop',

          location: 'Los Angeles',

          purchase_date: '2025-01-08'

        },

        {

          product: 'Yoga Mat',

          category: 'Sportswear',

          price: '40',

          store: 'FitShop',

          location: 'Los Angeles',

          purchase_date: '2025-01-09'

        }

      ]

    },

    {

      name: 'Robert Brown',

      email: '[email protected]',

      loyalty_status: 'Silver',

      age: '37',

      gender: 'Male',

      membership_id: '345678',

      purchases: [

        {

          product: 'Smartwatch',

          category: 'Wearable',

          price: '250',

          store: 'GadgetPlanet',

          location: 'Boston',

          purchase_date: '2025-01-07'

        },

        {

          product: 'Fitness Band',

          category: 'Wearable',

          price: '100',

          store: 'HealthMart',

          location: 'Boston',

          purchase_date: '2025-01-08'

        }

      ]

    }

  ]

}

Conclusão

Neste exemplo, vimos como podemos automatizar o upload de arquivos XML para o MongoDB sem precisar escrever nenhum código. Embora o exemplo considere apenas um arquivo, é possível, dentro do escopo de um projeto, ter um enorme número de tipos e subtipos de arquivos com diferentes estruturas, assim como realizar manipulações bastante complexas, como conversão de tipo e o uso de serviços externos para processar valores de campos em tempo real. Isso permite não apenas a descarga de dados de XML, mas também o processamento de alguns dos valores via API externa, incluindo o uso de grandes modelos de linguagem.

Source:
https://dzone.com/articles/loading-xml-into-mongodb