Produkt- & Verfügbarkeits-Crawler für Lieferantendaten
Viele Lieferanten stellen ihre Daten nur über unstrukturierte Portale, sporadische CSV-Dateien oder veraltete Produktseiten bereit. Der manuelle Abgleich neuer Artikel und die tägliche Prüfung von Verfügbarkeiten war bislang zeitaufwendig, unzuverlässig und fehleranfällig – besonders bei wechselnden Sortimenten oder Dropshipping-Konzepten.
Zielsetzung
- Neue Produkte automatisch erfassen, strukturieren und einpflegen
- Verfügbarkeiten laufend aktualisieren – unabhängig vom Datenformat
- Webcrawling nur einsetzen, wenn keine bessere Schnittstelle verfügbar ist
- Crawler nahtlos mit Mapping- und Klassifizierungsprozessen verbinden
- Manuelle Pflege, E-Mail-Exporte und Nachfragen deutlich reduzieren
Funktionsweise im Detail
1. Produktdaten-Crawler (Desktop-Anwendung)
Der Produktcrawler ist eine eigenständige Desktopapplikation, die neue Artikel automatisiert von Lieferantenseiten erfasst – hauptsächlich über HTML-Webcrawling. Alternativ können auch strukturierte Daten (CSV, Excel, XML) verarbeitet werden.
Die gewonnenen Daten werden automatisch aufbereitet und direkt mit dem Mappingmodul für „Intelligente Attribut-Zuordnung für E-Commerce-Daten“ kombiniert. Parallel läuft ein semantisches Kategoriemapping im selben Stil. Je nach Konfiguration werden:
- Produkttitel, Hersteller, Texte, Attribute und Bilder erfasst
- Varianten (z. B. Grössen, Farben) erkannt und korrekt zugeordnet
- Metadaten (SEO, Kurztexte, interne Kommentare) erzeugt
- Neue Kategorien oder Attribute wahlweise automatisch erstellt oder geprüft
Der Fokus liegt auf wiederverwendbarem, steuerbarem Crawling – pro Lieferant anpassbar. Die Lösung ist ideal, wenn keine strukturierte Datenbereitstellung vorliegt.
2. Verfügbarkeits-Crawler (geplanter Hintergrundjob)
Der Verfügbarkeitscrawler läuft als geplanter Hintergrundprozess. Ziel ist die tagesaktuelle Prüfung der Lagerverfügbarkeit externer Artikel – bevorzugt über strukturierte Quellen:
- CSV-/Excel-Dateien über verschlüsselte FTP-Server
- REST- oder XML-APIs mit Zugriffsbeschränkung
- HTML-Webcrawling nur als Fallback, wenn keine andere Quelle vorhanden ist
Pro Lieferant wird eine eigene Crawler-Instanz mit spezifischem Verhalten genutzt. Verfügbarkeiten werden automatisch mit dem internen Produktbestand abgeglichen, Lagerlabels aktualisiert und – bei Bedarf – Back-in-Stock-Mails versendet. Auch Variantenverfügbarkeiten (z. B. Grössen) werden exakt erfasst und gepflegt.
Ergebnisse
- Neue Produkte erscheinen strukturiert und angereichert im System
- Lieferverfügbarkeiten sind tagesaktuell – unabhängig vom Lieferantenformat
- Webcrawling wird gezielt nur eingesetzt, wenn keine bessere Alternative vorliegt
- Enorme Zeitersparnis bei gleichzeitiger Verbesserung der Datenqualität
Besonderheiten
- Nahtlose Verknüpfung mit Attribut- und Kategorisierungssystem
- Lieferantenspezifische Crawler-Logik und Konfiguration
- Desktoptool mit intelligenter Steuerung für Mapping und Datenerzeugung
- Sicherer Umgang mit sensiblen Lagerdaten (z. B. verschlüsselte FTP-Verbindungen)
- Logging, Fehlerprotokolle und vollständige Kontrolle