Er zijn veel situaties waarin u gegevens van XML naar MongoDB moet exporteren.
Ondanks het feit dat XML en JSON(B)-indelingen die in MongoDB worden gebruikt veel gemeen hebben, hebben ze ook een aantal verschillen die ze niet uitwisselbaar maken.
Daarom zult u voordat u de taak van het exporteren van gegevens van XML naar MongoDB onder ogen ziet, het volgende moeten doen:
- Uw eigen XML-analyse-scripts schrijven;
- ETL-tools gebruiken.
Hoewel moderne taalmodellen redelijk goed analyse-scripts kunnen schrijven in talen zoals Python, zullen deze scripts een ernstig probleem hebben — ze zullen niet eenduidig zijn. Voor elk bestandstype zullen moderne taalmodellen een apart script genereren. Als u meer dan één type XML heeft, leidt dit al tot aanzienlijke problemen bij het onderhouden van meer dan één analyse-script.
Het bovenstaande probleem wordt meestal opgelost met gespecialiseerde ETL-tools. In dit artikel zullen we kijken naar een ETL-tool genaamd SmartXML. Hoewel SmartXML ook het omzetten van XML naar een relationele representatie ondersteunt, zullen we alleen kijken naar het proces van het uploaden van XML naar MongoDB.
De werkelijke XML kan extreem groot en complex zijn. Dit artikel is een inleidend artikel, dus we zullen een situatie ontleden waarin:
- Alle XML dezelfde structuur heeft;
- Het logische model van de XML is hetzelfde als het opslagmodel in MongoDB;
- Geëxtraheerde velden hebben geen complexe verwerking nodig;
We zullen die gevallen later behandelen, maar laten we eerst een eenvoudig voorbeeld bekijken:
<marketingData>
<customer>
<name>John Smith</name>
<email>[email protected]</email>
<purchases>
<purchase>
<product>Smartphone</product>
<category>Electronics</category>
<price>700</price>
<store>TechWorld</store>
<location>New York</location>
<purchaseDate>2025-01-10</purchaseDate>
</purchase>
<purchase>
<product>Wireless Earbuds</product>
<category>Audio</category>
<price>150</price>
<store>GadgetStore</store>
<location>New York</location>
<purchaseDate>2025-01-11</purchaseDate>
</purchase>
</purchases>
<importantInfo>
<loyaltyStatus>Gold</loyaltyStatus>
<age>34</age>
<gender>Male</gender>
<membershipID>123456</membershipID>
</importantInfo>
<lessImportantInfo>
<browser>Chrome</browser>
<deviceType>Mobile</deviceType>
<newsletterSubscribed>true</newsletterSubscribed>
</lessImportantInfo>
</customer>
<customer>
<name>Jane Doe</name>
<email>[email protected]</email>
<purchases>
<purchase>
<product>Laptop</product>
<category>Electronics</category>
<price>1200</price>
<store>GadgetStore</store>
<location>San Francisco</location>
<purchaseDate>2025-01-12</purchaseDate>
</purchase>
<purchase>
<product>USB-C Adapter</product>
<category>Accessories</category>
<price>30</price>
<store>TechWorld</store>
<location>San Francisco</location>
<purchaseDate>2025-01-13</purchaseDate>
</purchase>
<purchase>
<product>Keyboard</product>
<category>Accessories</category>
<price>80</price>
<store>OfficeMart</store>
<location>San Francisco</location>
<purchaseDate>2025-01-14</purchaseDate>
</purchase>
</purchases>
<importantInfo>
<loyaltyStatus>Silver</loyaltyStatus>
<age>28</age>
<gender>Female</gender>
<membershipID>654321</membershipID>
</importantInfo>
<lessImportantInfo>
<browser>Safari</browser>
<deviceType>Desktop</deviceType>
<newsletterSubscribed>false</newsletterSubscribed>
</lessImportantInfo>
</customer>
<customer>
<name>Michael Johnson</name>
<email>[email protected]</email>
<purchases>
<purchase>
<product>Headphones</product>
<category>Audio</category>
<price>150</price>
<store>AudioZone</store>
<location>Chicago</location>
<purchaseDate>2025-01-05</purchaseDate>
</purchase>
</purchases>
<importantInfo>
<loyaltyStatus>Bronze</loyaltyStatus>
<age>40</age>
<gender>Male</gender>
<membershipID>789012</membershipID>
</importantInfo>
<lessImportantInfo>
<browser>Firefox</browser>
<deviceType>Tablet</deviceType>
<newsletterSubscribed>true</newsletterSubscribed>
</lessImportantInfo>
</customer>
<customer>
<name>Emily Davis</name>
<email>[email protected]</email>
<purchases>
<purchase>
<product>Running Shoes</product>
<category>Sportswear</category>
<price>120</price>
<store>FitShop</store>
<location>Los Angeles</location>
<purchaseDate>2025-01-08</purchaseDate>
</purchase>
<purchase>
<product>Yoga Mat</product>
<category>Sportswear</category>
<price>40</price>
<store>FitShop</store>
<location>Los Angeles</location>
<purchaseDate>2025-01-09</purchaseDate>
</purchase>
</purchases>
<importantInfo>
<loyaltyStatus>Gold</loyaltyStatus>
<age>25</age>
<gender>Female</gender>
<membershipID>234567</membershipID>
</importantInfo>
<lessImportantInfo>
<browser>Edge</browser>
<deviceType>Mobile</deviceType>
<newsletterSubscribed>false</newsletterSubscribed>
</lessImportantInfo>
</customer>
<customer>
<name>Robert Brown</name>
<email>[email protected]</email>
<purchases>
<purchase>
<product>Smartwatch</product>
<category>Wearable</category>
<price>250</price>
<store>GadgetPlanet</store>
<location>Boston</location>
<purchaseDate>2025-01-07</purchaseDate>
</purchase>
<purchase>
<product>Fitness Band</product>
<category>Wearable</category>
<price>100</price>
<store>HealthMart</store>
<location>Boston</location>
<purchaseDate>2025-01-08</purchaseDate>
</purchase>
</purchases>
<importantInfo>
<loyaltyStatus>Silver</loyaltyStatus>
<age>37</age>
<gender>Male</gender>
<membershipID>345678</membershipID>
</importantInfo>
<lessImportantInfo>
<browser>Chrome</browser>
<deviceType>Mobile</deviceType>
<newsletterSubscribed>true</newsletterSubscribed>
</lessImportantInfo>
</customer>
</marketingData>
In dit voorbeeld zullen we in MongoDB alleen de velden uploaden die een praktisch doel dienen, in plaats van de volledige XML.
Maak een nieuw project aan
Het wordt aanbevolen om een nieuw project vanuit de GUI aan te maken. Hiermee wordt automatisch de benodigde mapstructuur en parseerregels aangemaakt. Een volledige beschrijving van de projectstructuur is te vinden in de officiële documentatie.
Alle parameters die in dit artikel worden beschreven, kunnen geconfigureerd worden in de grafische modus, maar voor duidelijkheid richten we ons op de tekstuele weergave.
Naast het config.txt
bestand met projectinstellingen, job.txt voor batchwerk, bestaat het project zelf uit:
- Template van het interne tussenliggende
SmartDOM
weergave, gelegen in de projectmaptemplates/data-templates.red
. - Regels voor de verwerking en transformatie van
SmartDOM
zelf, gelegen in derules
map.
Laten we de structuur van data-templates.red
bekijken:
#[
sample: #[
marketing_data: #[
customers: [
customer: [
name: none
email: none
purchases: [
purchase: [
product: none
category: none
price: none
store: none
location: none
purchase_date: none
]
]
]
]
]
]
]
Opmerking
- De naam
sample
is de naam van de categorie en doet er niet toe. - De
marketing_data
is de naam van de subcategorie. We hebben minstens één code subcategorie (subtype) nodig. - De namen van de tussenweergaven hoeven niet exact overeen te komen met de XML-tag namen. In dit voorbeeld hebben we opzettelijk de
snake_case
stijl gebruikt.
Extractieregels
De regels bevinden zich in de map regels
in de projectmap.
Bij het werken met MongoDB zullen we alleen geïnteresseerd zijn in twee regels:
tags-matching-rules.red
— stelt de overeenkomsten in tussen de XML-tagstructuur en SmartDOMgrow-rules.red
— beschrijft de relatie tussen SmartDOM-nodes en echte XML-nodes
sample: [
purchase: ["purchase"]
customer: ["customer"]
]
De sleutel zal de naam van de node in SmartDOM zijn; de waarde zal een array zijn met de node spellingvarianten uit het echte XML-bestand. In ons voorbeeld zijn deze namen hetzelfde.
Genegeerde Tags
Om te voorkomen dat er onbelangrijke gegevens in MongoDB worden geladen in het bovenstaande voorbeeld, maken we bestanden aan in de map negeert
— één per sectie, vernoemd naar elke sectie. Deze bestanden bevatten lijsten met tags die tijdens de extractie moeten worden overgeslagen. Voor ons voorbeeld zullen we een sample.txt
bestand hebben met:
["marketingData" "customer" "lessImportantInfo" "browser"]
["marketingData" "customer" "lessImportantInfo" "deviceType"]
["marketingData" "customer" "lessImportantInfo" "newsletterSubscribed"]
Als resultaat zal de tussenweergave bij het analyseren van de morfologie de volgende vorm aannemen:
customers: [
customer: [
name: "John Smith"
email: "[email protected]"
loyalty_status: "Gold"
age: "34"
gender: "Male"
membership_id: "123456"
purchases: [
purchase: [
product: "Smartphone"
category: "Electronics"
price: "700"
store: "TechWorld"
location: "New York"
purchase_date: "2025-01-10"
]
]
]
]
Merk op dat na morfologische analyse alleen een minimale weergave wordt getoond met gegevens van de eerst gevonden nodes.
Hier is het JSON-bestand dat zal worden gegenereerd:
{
"customers": [
{
"name": "John Smith",
"email": "[email protected]",
"loyalty_status": "Gold",
"age": "34",
"gender": "Male",
"membership_id": "123456",
"purchases": [
{
"product": "Smartphone",
"category": "Electronics",
"price": "700",
"store": "TechWorld",
"location": "New York",
"purchase_date": "2025-01-10"
},
{
"product": "Wireless Earbuds",
"category": "Audio",
"price": "150",
"store": "GadgetStore",
"location": "New York",
"purchase_date": "2025-01-11"
}
]
},
{
"name": "Jane Doe",
"email": "[email protected]",
"loyalty_status": "Silver",
"age": "28",
"gender": "Female",
"membership_id": "654321",
"purchases": [
{
"product": "Laptop",
"category": "Electronics",
"price": "1200",
"store": "GadgetStore",
"location": "San Francisco",
"purchase_date": "2025-01-12"
},
{
"product": "USB-C Adapter",
"category": "Accessories",
"price": "30",
"store": "TechWorld",
"location": "San Francisco",
"purchase_date": "2025-01-13"
},
{
"product": "Keyboard",
"category": "Accessories",
"price": "80",
"store": "OfficeMart",
"location": "San Francisco",
"purchase_date": "2025-01-14"
}
]
},
{
"name": "Michael Johnson",
"email": "[email protected]",
"loyalty_status": "Bronze",
"age": "40",
"gender": "Male",
"membership_id": "789012",
"purchases": [
{
"product": "Headphones",
"category": "Audio",
"price": "150",
"store": "AudioZone",
"location": "Chicago",
"purchase_date": "2025-01-05"
}
]
},
{
"name": "Emily Davis",
"email": "[email protected]",
"loyalty_status": "Gold",
"age": "25",
"gender": "Female",
"membership_id": "234567",
"purchases": [
{
"product": "Running Shoes",
"category": "Sportswear",
"price": "120",
"store": "FitShop",
"location": "Los Angeles",
"purchase_date": "2025-01-08"
},
{
"product": "Yoga Mat",
"category": "Sportswear",
"price": "40",
"store": "FitShop",
"location": "Los Angeles",
"purchase_date": "2025-01-09"
}
]
},
{
"name": "Robert Brown",
"email": "[email protected]",
"loyalty_status": "Silver",
"age": "37",
"gender": "Male",
"membership_id": "345678",
"purchases": [
{
"product": "Smartwatch",
"category": "Wearable",
"price": "250",
"store": "GadgetPlanet",
"location": "Boston",
"purchase_date": "2025-01-07"
},
{
"product": "Fitness Band",
"category": "Wearable",
"price": "100",
"store": "HealthMart",
"location": "Boston",
"purchase_date": "2025-01-08"
}
]
}
]
}
Verbinding configureren met MongoDB
Aangezien MongoDB geen directe HTTP-gegevensinvoer ondersteunt, is een tussenliggende service vereist.
Laten we de afhankelijkheden installeren: pip install flask pymongo
.
De service zelf:
from flask import Flask, request, jsonify
from pymongo import MongoClient
import json
app = Flask(__name__)
# Connection to MongoDB
client = MongoClient('mongodb://localhost:27017')
db = client['testDB']
collection = db['testCollection']
route('/insert', methods=['POST']) .
def insert_document():
try:
# Flask will automatically parse JSON if Content-Type: application/json
data = request.get_json()
if not data:
return jsonify({"error": "Empty JSON payload"}), 400
result = collection.insert_one(data)
return jsonify({"insertedId": str(result.inserted_id)}), 200
except Exception as e:
import traceback
print(traceback.format_exc())
return jsonify({"error": str(e)}), 500
if __name__ == '__main__':
app.run(port=3000)
We zullen de MongoDB verbindingsinstellingen instellen in het bestand config.txt
(zie nosql-url
):
job-number: 1
root-xml-folder: "D:/data/data-samples"
xml-filling-stat: false ; table: filling_percent_stat should exists
ignore-namespaces: false
ignore-tag-attributes: false
use-same-morphology-for-same-file-name-pattern: false
skip-schema-version-tag: true
use-same-morphology-for-all-files-in-folder: false
delete-data-before-insert: none
connect-to-db-at-project-opening: true
source-database: "SQLite" ; available values: PostgreSQL/SQLite
target-database: "SQLite" ; available values: PostgreSQL/SQLite/NoSQL
bot-chatID: ""
bot-token: ""
telegram-notifications: true
db-driver: ""
db-server: "127.0.0.1"
db-port: ""
db-name: ""
db-user: ""
db-pass: ""
sqlite-driver-name: "SQLite3 ODBC Driver"
sqlite-db-path: ""
nosql-url: "http://127.0.0.1:3000/insert"
append-subsection-name-to-nosql-url: false
no-sql-login: "" ; login and pass are empty
no-sql-pass: ""
Onthoud dat MongoDB automatisch een database en een collectie met dezelfde naam zal aanmaken als ze niet bestaan. Deze werkwijze kan echter fouten veroorzaken, en het wordt aanbevolen om dit standaard uit te schakelen.
Laten we de service zelf draaien:
python .\app.py
Volgende, klik op Parsen, vervolgens Stuur JSON naar NoSQL.
Verbind nu met de MongoDB-console op een handige manier en voer de volgende commando’s uit:
show databases
admin 40.00 KiB
config 72.00 KiB
local 72.00 KiB
testDB 72.00 KiB
use testDB
switched to db testDB
db.testCollection.find().pretty()
Het resultaat zou er als volgt uit moeten zien:
{
_id: ObjectId('278e1b2c7c1823d4fde120ef'),
customers: [
{
name: 'John Smith',
email: '[email protected]',
loyalty_status: 'Gold',
age: '34',
gender: 'Male',
membership_id: '123456',
purchases: [
{
product: 'Smartphone',
category: 'Electronics',
price: '700',
store: 'TechWorld',
location: 'New York',
purchase_date: '2025-01-10'
},
{
product: 'Wireless Earbuds',
category: 'Audio',
price: '150',
store: 'GadgetStore',
location: 'New York',
purchase_date: '2025-01-11'
}
]
},
{
name: 'Jane Doe',
email: '[email protected]',
loyalty_status: 'Silver',
age: '28',
gender: 'Female',
membership_id: '654321',
purchases: [
{
product: 'Laptop',
category: 'Electronics',
price: '1200',
store: 'GadgetStore',
location: 'San Francisco',
purchase_date: '2025-01-12'
},
{
product: 'USB-C Adapter',
category: 'Accessories',
price: '30',
store: 'TechWorld',
location: 'San Francisco',
purchase_date: '2025-01-13'
},
{
product: 'Keyboard',
category: 'Accessories',
price: '80',
store: 'OfficeMart',
location: 'San Francisco',
purchase_date: '2025-01-14'
}
]
},
{
name: 'Michael Johnson',
email: '[email protected]',
loyalty_status: 'Bronze',
age: '40',
gender: 'Male',
membership_id: '789012',
purchases: [
{
product: 'Headphones',
category: 'Audio',
price: '150',
store: 'AudioZone',
location: 'Chicago',
purchase_date: '2025-01-05'
}
]
},
{
name: 'Emily Davis',
email: '[email protected]',
loyalty_status: 'Gold',
age: '25',
gender: 'Female',
membership_id: '234567',
purchases: [
{
product: 'Running Shoes',
category: 'Sportswear',
price: '120',
store: 'FitShop',
location: 'Los Angeles',
purchase_date: '2025-01-08'
},
{
product: 'Yoga Mat',
category: 'Sportswear',
price: '40',
store: 'FitShop',
location: 'Los Angeles',
purchase_date: '2025-01-09'
}
]
},
{
name: 'Robert Brown',
email: '[email protected]',
loyalty_status: 'Silver',
age: '37',
gender: 'Male',
membership_id: '345678',
purchases: [
{
product: 'Smartwatch',
category: 'Wearable',
price: '250',
store: 'GadgetPlanet',
location: 'Boston',
purchase_date: '2025-01-07'
},
{
product: 'Fitness Band',
category: 'Wearable',
price: '100',
store: 'HealthMart',
location: 'Boston',
purchase_date: '2025-01-08'
}
]
}
]
}
Conclusie
In dit voorbeeld hebben we gezien hoe we het uploaden van XML-bestanden naar MongoDB kunnen automatiseren zonder dat we enige code hoeven te schrijven. Hoewel het voorbeeld slechts één bestand behandelt, is het mogelijk binnen het kader van één project een groot aantal typen en subtypen van bestanden met verschillende structuren te hebben, evenals vrij complexe manipulaties uit te voeren, zoals typeconversie en het gebruik van externe services om veldwaarden in realtime te verwerken. Dit maakt niet alleen het uitladen van gegevens uit XML mogelijk, maar ook de verwerking van sommige waarden via externe API’s, inclusief het gebruik van grote taalmodellen.