XML inladen in MongoDB

MongoDB

Er zijn veel situaties waarin u gegevens van XML naar MongoDB moet exporteren.

Ondanks het feit dat XML en JSON(B)-indelingen die in MongoDB worden gebruikt veel gemeen hebben, hebben ze ook een aantal verschillen die ze niet uitwisselbaar maken.

Daarom zult u voordat u de taak van het exporteren van gegevens van XML naar MongoDB onder ogen ziet, het volgende moeten doen:

Uw eigen XML-analyse-scripts schrijven;
ETL-tools gebruiken.

Hoewel moderne taalmodellen redelijk goed analyse-scripts kunnen schrijven in talen zoals Python, zullen deze scripts een ernstig probleem hebben — ze zullen niet eenduidig zijn. Voor elk bestandstype zullen moderne taalmodellen een apart script genereren. Als u meer dan één type XML heeft, leidt dit al tot aanzienlijke problemen bij het onderhouden van meer dan één analyse-script.

Het bovenstaande probleem wordt meestal opgelost met gespecialiseerde ETL-tools. In dit artikel zullen we kijken naar een ETL-tool genaamd SmartXML. Hoewel SmartXML ook het omzetten van XML naar een relationele representatie ondersteunt, zullen we alleen kijken naar het proces van het uploaden van XML naar MongoDB.

De werkelijke XML kan extreem groot en complex zijn. Dit artikel is een inleidend artikel, dus we zullen een situatie ontleden waarin:

Alle XML dezelfde structuur heeft;
Het logische model van de XML is hetzelfde als het opslagmodel in MongoDB;
Geëxtraheerde velden hebben geen complexe verwerking nodig;

We zullen die gevallen later behandelen, maar laten we eerst een eenvoudig voorbeeld bekijken:

XML

<marketingData>

    <customer>

        <name>John Smith</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Smartphone</product>

                <category>Electronics</category>

                <price>700</price>

                <store>TechWorld</store>

                <location>New York</location>

                <purchaseDate>2025-01-10</purchaseDate>

            </purchase>

            <purchase>

                <product>Wireless Earbuds</product>

                <category>Audio</category>

                <price>150</price>

                <store>GadgetStore</store>

                <location>New York</location>

                <purchaseDate>2025-01-11</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Gold</loyaltyStatus>

            <age>34</age>

            <gender>Male</gender>

            <membershipID>123456</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Chrome</browser>

            <deviceType>Mobile</deviceType>

            <newsletterSubscribed>true</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Jane Doe</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Laptop</product>

                <category>Electronics</category>

                <price>1200</price>

                <store>GadgetStore</store>

                <location>San Francisco</location>

                <purchaseDate>2025-01-12</purchaseDate>

            </purchase>

            <purchase>

                <product>USB-C Adapter</product>

                <category>Accessories</category>

                <price>30</price>

                <store>TechWorld</store>

                <location>San Francisco</location>

                <purchaseDate>2025-01-13</purchaseDate>

            </purchase>

            <purchase>

                <product>Keyboard</product>

                <category>Accessories</category>

                <price>80</price>

                <store>OfficeMart</store>

                <location>San Francisco</location>

                <purchaseDate>2025-01-14</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Silver</loyaltyStatus>

            <age>28</age>

            <gender>Female</gender>

            <membershipID>654321</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Safari</browser>

            <deviceType>Desktop</deviceType>

            <newsletterSubscribed>false</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Michael Johnson</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Headphones</product>

                <category>Audio</category>

                <price>150</price>

                <store>AudioZone</store>

                <location>Chicago</location>

                <purchaseDate>2025-01-05</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Bronze</loyaltyStatus>

            <age>40</age>

            <gender>Male</gender>

            <membershipID>789012</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Firefox</browser>

            <deviceType>Tablet</deviceType>

            <newsletterSubscribed>true</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Emily Davis</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Running Shoes</product>

                <category>Sportswear</category>

                <price>120</price>

                <store>FitShop</store>

                <location>Los Angeles</location>

                <purchaseDate>2025-01-08</purchaseDate>

            </purchase>

            <purchase>

                <product>Yoga Mat</product>

                <category>Sportswear</category>

                <price>40</price>

                <store>FitShop</store>

                <location>Los Angeles</location>

                <purchaseDate>2025-01-09</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Gold</loyaltyStatus>

            <age>25</age>

            <gender>Female</gender>

            <membershipID>234567</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Edge</browser>

            <deviceType>Mobile</deviceType>

            <newsletterSubscribed>false</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

    <customer>

        <name>Robert Brown</name>

        <email>[email protected]</email>

        <purchases>

            <purchase>

                <product>Smartwatch</product>

                <category>Wearable</category>

                <price>250</price>

                <store>GadgetPlanet</store>

                <location>Boston</location>

                <purchaseDate>2025-01-07</purchaseDate>

            </purchase>

            <purchase>

                <product>Fitness Band</product>

                <category>Wearable</category>

                <price>100</price>

                <store>HealthMart</store>

                <location>Boston</location>

                <purchaseDate>2025-01-08</purchaseDate>

            </purchase>

        </purchases>

        <importantInfo>

            <loyaltyStatus>Silver</loyaltyStatus>

            <age>37</age>

            <gender>Male</gender>

            <membershipID>345678</membershipID>

        </importantInfo>

        <lessImportantInfo>

            <browser>Chrome</browser>

            <deviceType>Mobile</deviceType>

            <newsletterSubscribed>true</newsletterSubscribed>

        </lessImportantInfo>

    </customer>

</marketingData>

In dit voorbeeld zullen we in MongoDB alleen de velden uploaden die een praktisch doel dienen, in plaats van de volledige XML.

Maak een nieuw project aan

Het wordt aanbevolen om een nieuw project vanuit de GUI aan te maken. Hiermee wordt automatisch de benodigde mapstructuur en parseerregels aangemaakt. Een volledige beschrijving van de projectstructuur is te vinden in de officiële documentatie.

Alle parameters die in dit artikel worden beschreven, kunnen geconfigureerd worden in de grafische modus, maar voor duidelijkheid richten we ons op de tekstuele weergave.

Naast het config.txt bestand met projectinstellingen, job.txt voor batchwerk, bestaat het project zelf uit:

Template van het interne tussenliggende SmartDOM weergave, gelegen in de projectmap templates/data-templates.red.
Regels voor de verwerking en transformatie van SmartDOM zelf, gelegen in de rules map.

Laten we de structuur van data-templates.red bekijken:

Plain Text

#[

    sample: #[

        marketing_data: #[ 

            customers: [

                customer: [

                    name: none

                    email: none

                    purchases: [

                        purchase: [

                            product: none

                            category: none

                            price: none

                            store: none

                            location: none

                            purchase_date: none

                        ]

                    ]

                ]

            ]

        ]

    ]

]

Opmerking

De naam sample is de naam van de categorie en doet er niet toe.
De marketing_data is de naam van de subcategorie. We hebben minstens één code subcategorie (subtype) nodig.
De namen van de tussenweergaven hoeven niet exact overeen te komen met de XML-tag namen. In dit voorbeeld hebben we opzettelijk de snake_case stijl gebruikt.

Extractieregels

De regels bevinden zich in de map regels in de projectmap.

Bij het werken met MongoDB zullen we alleen geïnteresseerd zijn in twee regels:

tags-matching-rules.red — stelt de overeenkomsten in tussen de XML-tagstructuur en SmartDOM
grow-rules.red — beschrijft de relatie tussen SmartDOM-nodes en echte XML-nodes

Plain Text

sample: [

    purchase: ["purchase"]

    customer: ["customer"]

]

De sleutel zal de naam van de node in SmartDOM zijn; de waarde zal een array zijn met de node spellingvarianten uit het echte XML-bestand. In ons voorbeeld zijn deze namen hetzelfde.

Genegeerde Tags

Om te voorkomen dat er onbelangrijke gegevens in MongoDB worden geladen in het bovenstaande voorbeeld, maken we bestanden aan in de map negeert — één per sectie, vernoemd naar elke sectie. Deze bestanden bevatten lijsten met tags die tijdens de extractie moeten worden overgeslagen. Voor ons voorbeeld zullen we een sample.txt bestand hebben met:

Plain Text

["marketingData" "customer" "lessImportantInfo" "browser"]

["marketingData" "customer" "lessImportantInfo" "deviceType"]

["marketingData" "customer" "lessImportantInfo" "newsletterSubscribed"]

Als resultaat zal de tussenweergave bij het analyseren van de morfologie de volgende vorm aannemen:

Plain Text

customers: [

    customer: [

        name: "John Smith"

        email: "[email protected]"

        loyalty_status: "Gold"

        age: "34"

        gender: "Male"

        membership_id: "123456"

        purchases: [

            purchase: [

                product: "Smartphone"

                category: "Electronics"

                price: "700"

                store: "TechWorld"

                location: "New York"

                purchase_date: "2025-01-10"

Merk op dat na morfologische analyse alleen een minimale weergave wordt getoond met gegevens van de eerst gevonden nodes.

Hier is het JSON-bestand dat zal worden gegenereerd:

JSON

{

   "customers": [

      {

         "name": "John Smith",

         "email": "[email protected]",

         "loyalty_status": "Gold",

         "age": "34",

         "gender": "Male",

         "membership_id": "123456",

         "purchases": [

            {

               "product": "Smartphone",

               "category": "Electronics",

               "price": "700",

               "store": "TechWorld",

               "location": "New York",

               "purchase_date": "2025-01-10"

            },

            {

               "product": "Wireless Earbuds",

               "category": "Audio",

               "price": "150",

               "store": "GadgetStore",

               "location": "New York",

               "purchase_date": "2025-01-11"

            }

         ]

      },

      {

         "name": "Jane Doe",

         "email": "[email protected]",

         "loyalty_status": "Silver",

         "age": "28",

         "gender": "Female",

         "membership_id": "654321",

         "purchases": [

            {

               "product": "Laptop",

               "category": "Electronics",

               "price": "1200",

               "store": "GadgetStore",

               "location": "San Francisco",

               "purchase_date": "2025-01-12"

            },

            {

               "product": "USB-C Adapter",

               "category": "Accessories",

               "price": "30",

               "store": "TechWorld",

               "location": "San Francisco",

               "purchase_date": "2025-01-13"

            },

            {

               "product": "Keyboard",

               "category": "Accessories",

               "price": "80",

               "store": "OfficeMart",

               "location": "San Francisco",

               "purchase_date": "2025-01-14"

            }

         ]

      },

      {

         "name": "Michael Johnson",

         "email": "[email protected]",

         "loyalty_status": "Bronze",

         "age": "40",

         "gender": "Male",

         "membership_id": "789012",

         "purchases": [

            {

               "product": "Headphones",

               "category": "Audio",

               "price": "150",

               "store": "AudioZone",

               "location": "Chicago",

               "purchase_date": "2025-01-05"

            }

         ]

      },

      {

         "name": "Emily Davis",

         "email": "[email protected]",

         "loyalty_status": "Gold",

         "age": "25",

         "gender": "Female",

         "membership_id": "234567",

         "purchases": [

            {

               "product": "Running Shoes",

               "category": "Sportswear",

               "price": "120",

               "store": "FitShop",

               "location": "Los Angeles",

               "purchase_date": "2025-01-08"

            },

            {

               "product": "Yoga Mat",

               "category": "Sportswear",

               "price": "40",

               "store": "FitShop",

               "location": "Los Angeles",

               "purchase_date": "2025-01-09"

            }

         ]

      },

      {

         "name": "Robert Brown",

         "email": "[email protected]",

         "loyalty_status": "Silver",

         "age": "37",

         "gender": "Male",

         "membership_id": "345678",

         "purchases": [

            {

               "product": "Smartwatch",

               "category": "Wearable",

               "price": "250",

               "store": "GadgetPlanet",

               "location": "Boston",

               "purchase_date": "2025-01-07"

            },

            {

               "product": "Fitness Band",

               "category": "Wearable",

               "price": "100",

               "store": "HealthMart",

               "location": "Boston",

               "purchase_date": "2025-01-08"

            }

         ]

      }

   ]

}

Verbinding configureren met MongoDB

Aangezien MongoDB geen directe HTTP-gegevensinvoer ondersteunt, is een tussenliggende service vereist.

Laten we de afhankelijkheden installeren: pip install flask pymongo.

De service zelf:

Python

from flask import Flask, request, jsonify

from pymongo import MongoClient

import json

​

app = Flask(__name__)

​

# Connection to MongoDB

client = MongoClient('mongodb://localhost:27017')

db = client['testDB']

collection = db['testCollection']

​

@app.route('/insert', methods=['POST'])

def insert_document():

    try:

        # Flask will automatically parse JSON if Content-Type: application/json

        data = request.get_json() 

​

        if not data:

            return jsonify({"error": "Empty JSON payload"}), 400

​

        result = collection.insert_one(data)

        return jsonify({"insertedId": str(result.inserted_id)}), 200

    except Exception as e:

        import traceback

        print(traceback.format_exc())

        return jsonify({"error": str(e)}), 500

​

if __name__ == '__main__':

    app.run(port=3000)

​

We zullen de MongoDB verbindingsinstellingen instellen in het bestand config.txt (zie nosql-url):

Plain Text

job-number: 1

root-xml-folder: "D:/data/data-samples"

xml-filling-stat: false ; table: filling_percent_stat should exists

ignore-namespaces: false

ignore-tag-attributes: false

use-same-morphology-for-same-file-name-pattern: false

skip-schema-version-tag: true

use-same-morphology-for-all-files-in-folder: false

delete-data-before-insert: none

connect-to-db-at-project-opening: true

source-database: "SQLite" ; available values: PostgreSQL/SQLite

target-database: "SQLite" ; available values: PostgreSQL/SQLite/NoSQL

​

bot-chatID: ""

bot-token: ""

telegram-notifications: true

​

db-driver: ""

db-server: "127.0.0.1"

db-port: ""

db-name: ""

db-user: ""

db-pass: ""

​

sqlite-driver-name: "SQLite3 ODBC Driver"

sqlite-db-path: ""

​

nosql-url: "http://127.0.0.1:3000/insert"

append-subsection-name-to-nosql-url: false

no-sql-login: "" ; login and pass are empty

no-sql-pass: ""

​

Onthoud dat MongoDB automatisch een database en een collectie met dezelfde naam zal aanmaken als ze niet bestaan. Deze werkwijze kan echter fouten veroorzaken, en het wordt aanbevolen om dit standaard uit te schakelen.

Laten we de service zelf draaien:

Python

python .\app.py

Volgende, klik op Parsen, vervolgens Stuur JSON naar NoSQL.

Verbind nu met de MongoDB-console op een handige manier en voer de volgende commando’s uit:

Plain Text

show databases

admin   40.00 KiB

config  72.00 KiB

local   72.00 KiB

testDB  72.00 KiB

use testDB

switched to db testDB

db.testCollection.find().pretty()

Het resultaat zou er als volgt uit moeten zien:

JSON

{

  _id: ObjectId('278e1b2c7c1823d4fde120ef'),

  customers: [

    {

      name: 'John Smith',

      email: '[email protected]',

      loyalty_status: 'Gold',

      age: '34',

      gender: 'Male',

      membership_id: '123456',

      purchases: [

        {

          product: 'Smartphone',

          category: 'Electronics',

          price: '700',

          store: 'TechWorld',

          location: 'New York',

          purchase_date: '2025-01-10'

        },

        {

          product: 'Wireless Earbuds',

          category: 'Audio',

          price: '150',

          store: 'GadgetStore',

          location: 'New York',

          purchase_date: '2025-01-11'

        }

      ]

    },

    {

      name: 'Jane Doe',

      email: '[email protected]',

      loyalty_status: 'Silver',

      age: '28',

      gender: 'Female',

      membership_id: '654321',

      purchases: [

        {

          product: 'Laptop',

          category: 'Electronics',

          price: '1200',

          store: 'GadgetStore',

          location: 'San Francisco',

          purchase_date: '2025-01-12'

        },

        {

          product: 'USB-C Adapter',

          category: 'Accessories',

          price: '30',

          store: 'TechWorld',

          location: 'San Francisco',

          purchase_date: '2025-01-13'

        },

        {

          product: 'Keyboard',

          category: 'Accessories',

          price: '80',

          store: 'OfficeMart',

          location: 'San Francisco',

          purchase_date: '2025-01-14'

        }

      ]

    },

    {

      name: 'Michael Johnson',

      email: '[email protected]',

      loyalty_status: 'Bronze',

      age: '40',

      gender: 'Male',

      membership_id: '789012',

      purchases: [

        {

          product: 'Headphones',

          category: 'Audio',

          price: '150',

          store: 'AudioZone',

          location: 'Chicago',

          purchase_date: '2025-01-05'

        }

      ]

    },

    {

      name: 'Emily Davis',

      email: '[email protected]',

      loyalty_status: 'Gold',

      age: '25',

      gender: 'Female',

      membership_id: '234567',

      purchases: [

        {

          product: 'Running Shoes',

          category: 'Sportswear',

          price: '120',

          store: 'FitShop',

          location: 'Los Angeles',

          purchase_date: '2025-01-08'

        },

        {

          product: 'Yoga Mat',

          category: 'Sportswear',

          price: '40',

          store: 'FitShop',

          location: 'Los Angeles',

          purchase_date: '2025-01-09'

        }

      ]

    },

    {

      name: 'Robert Brown',

      email: '[email protected]',

      loyalty_status: 'Silver',

      age: '37',

      gender: 'Male',

      membership_id: '345678',

      purchases: [

        {

          product: 'Smartwatch',

          category: 'Wearable',

          price: '250',

          store: 'GadgetPlanet',

          location: 'Boston',

          purchase_date: '2025-01-07'

        },

        {

          product: 'Fitness Band',

          category: 'Wearable',

          price: '100',

          store: 'HealthMart',

          location: 'Boston',

          purchase_date: '2025-01-08'

        }

      ]

    }

  ]

}

Conclusie

In dit voorbeeld hebben we gezien hoe we het uploaden van XML-bestanden naar MongoDB kunnen automatiseren zonder dat we enige code hoeven te schrijven. Hoewel het voorbeeld slechts één bestand behandelt, is het mogelijk binnen het kader van één project een groot aantal typen en subtypen van bestanden met verschillende structuren te hebben, evenals vrij complexe manipulaties uit te voeren, zoals typeconversie en het gebruik van externe services om veldwaarden in realtime te verwerken. Dit maakt niet alleen het uitladen van gegevens uit XML mogelijk, maar ook de verwerking van sommige waarden via externe API’s, inclusief het gebruik van grote taalmodellen.

Source:
https://dzone.com/articles/loading-xml-into-mongodb