← Zurück zu Projekte
Lab · Industrial AIIntern
Product Data Indexer
Der Product Data Indexer ist eine End-to-End-Pipeline zur Analyse und Erschließung industrieller Produktkataloge. Ein Scrapy-basierter Crawler extrahiert strukturierte Produktdaten (Spezifikationen, Maße, Materialien, Schutzarten) und speichert sie normalisiert in SQLite mit hierarchischer Kategorie-/Familien-Taxonomie. Das System bietet drei KI-gestützte Kernfunktionen: einen Produktfinder mit Multi-Kriterien-Filterung, einen Stücklisten-Assistenten, der hochgeladene BOM-Dateien (CSV, Excel, PDF) per Fuzzy-Matching und GPT-4o Function Calling automatisch passenden Katalogartikeln zuordnet, sowie einen Produktberater-Chatbot, der natürlichsprachliche Anfragen in strukturierte Datenbankabfragen übersetzt.
VORSCHAU

FEATURES
- →Scrapy-Crawler mit 5 Spiders für hierarchische Produktdaten-Extraktion: Kategorien, Familien, Produktseiten, Spezifikationen und Dokumente
- →Normalisierte SQLite-Datenbank mit 5.400+ Produkten, Volltextsuche und hierarchischer Taxonomie (Kategorie → Familie → Produkt)
- →Produktfinder mit Multi-Kriterien-Filterung: Gewindeart, Gewindegröße, Kabeldurchmesser, Schutzart, Material — kombinierbar
- →Stücklisten-Assistent: Upload von CSV/Excel/PDF, automatisches Spalten-Mapping, Fuzzy-Matching via rapidfuzz (Token Set Ratio) mit Confidence-Scoring
- →GPT-4o Function Calling mit 8 registrierten Tools für kontextuelle Produktsuche, Spezifikationsabfrage und Alternativenvorschläge
- →Produktberater-Chatbot: Natürlichsprachliche Anfragen werden via LLM in strukturierte DB-Queries übersetzt — inkl. Streaming-Responses
- →PDF-Extraktion mit pdfplumber + GPT-Fallback: Automatische Tabellenerkennung, bei Scheitern LLM-basierte Strukturierung
- →MCP-Server (FastMCP) mit 13 Tools für Integration in KI-Agenten und IDE-Plugins
STACK
PythonScrapyFlaskSQLiteOpenAI GPT-4oFunction CallingFastMCPrapidfuzzpdfplumberJinja2