← Zurück zu Projekte
Lab · Industrial AIIntern

Product Data Indexer

Der Product Data Indexer ist eine End-to-End-Pipeline zur Analyse und Erschließung industrieller Produktkataloge. Ein Scrapy-basierter Crawler extrahiert strukturierte Produktdaten (Spezifikationen, Maße, Materialien, Schutzarten) und speichert sie normalisiert in SQLite mit hierarchischer Kategorie-/Familien-Taxonomie. Das System bietet drei KI-gestützte Kernfunktionen: einen Produktfinder mit Multi-Kriterien-Filterung, einen Stücklisten-Assistenten, der hochgeladene BOM-Dateien (CSV, Excel, PDF) per Fuzzy-Matching und GPT-4o Function Calling automatisch passenden Katalogartikeln zuordnet, sowie einen Produktberater-Chatbot, der natürlichsprachliche Anfragen in strukturierte Datenbankabfragen übersetzt.

VORSCHAU
Product Data Indexer – Screenshot 1
FEATURES
  • Scrapy-Crawler mit 5 Spiders für hierarchische Produktdaten-Extraktion: Kategorien, Familien, Produktseiten, Spezifikationen und Dokumente
  • Normalisierte SQLite-Datenbank mit 5.400+ Produkten, Volltextsuche und hierarchischer Taxonomie (Kategorie → Familie → Produkt)
  • Produktfinder mit Multi-Kriterien-Filterung: Gewindeart, Gewindegröße, Kabeldurchmesser, Schutzart, Material — kombinierbar
  • Stücklisten-Assistent: Upload von CSV/Excel/PDF, automatisches Spalten-Mapping, Fuzzy-Matching via rapidfuzz (Token Set Ratio) mit Confidence-Scoring
  • GPT-4o Function Calling mit 8 registrierten Tools für kontextuelle Produktsuche, Spezifikationsabfrage und Alternativenvorschläge
  • Produktberater-Chatbot: Natürlichsprachliche Anfragen werden via LLM in strukturierte DB-Queries übersetzt — inkl. Streaming-Responses
  • PDF-Extraktion mit pdfplumber + GPT-Fallback: Automatische Tabellenerkennung, bei Scheitern LLM-basierte Strukturierung
  • MCP-Server (FastMCP) mit 13 Tools für Integration in KI-Agenten und IDE-Plugins
STACK
PythonScrapyFlaskSQLiteOpenAI GPT-4oFunction CallingFastMCPrapidfuzzpdfplumberJinja2