OCR-Scraper für KMU: Automatisierte Angebotserfassung im HYKO-Projekt

Wie Unternehmen von Texterkennung profitieren

Problem & Motivation

Jede Woche stapeln sich in Unternehmen neue Angebote und Bestellungen. Sie kommen per E-Mail, als PDF oder eingescanntes Dokument. Das Problem: Die Daten liegen unstrukturiert vor – Bestellnummern, Kundendaten oder Preise müssen manuell übertragen werden. Das kostet Zeit, ist fehleranfällig und bindet Mitarbeitende an Routineaufgaben. Genau hier setzt unser OCR-Scraper an. Im Rahmen des Projekts HYKO haben wir einen Prototyp entwickelt, der Angebote automatisch einliest, wichtige Informationen extrahiert und in einer zentralen Export-Datei speichert.

So funktioniert der Prototyp

  1. Texterkennung (OCR): Eingehende Angebots-PDFs oder Bilddateien werden automatisch verarbeitet. Mit PaddleOCR können auch komplexe Layouts oder Scans ausgelesen werden.
  2. Datenextraktion: Eine Parser-Logik erkennt wichtige Inhalte wie Bestellnummer, Kunde, Preise oder Lieferbedingungen und strukturiert diese.
  3. Strukturierte Speicherung: Die Daten werden konsolidiert in einer Export-Datei (Excel, CSV oder Datenbank) abgelegt.

Potenziale für KMU

  • Effizienzsteigerung: Automatische Datenerfassung spart Zeit
  • Fehlerreduktion: Weniger Übertragungsfehler bei Angeboten
  • Mitarbeiterentlastung: Fokus auf wertschöpfende Tätigkeiten
  • Datenqualität: Einheitliche Erfassung für bessere Auswertungen

Nächste Schritte & Ausblick

  • Skalierbarkeit: Der Ansatz ist leicht übertragbar auf andere Dokumente (z. B. Rechnungen, Lieferscheine).
  • Integration: Anbindung an ERP- oder CRM-Systeme möglich → direkte Einbindung in Geschäftsprozesse.
  • KI-Integration: Künftig kann der Scraper mit GPT-Modellen erweitert werden, um flexibler mit Layouts und Sprachen umzugehen

Fazit

Unser OCR-Scraper zeigt, wie Texterkennung und Parser-Logik Routineaufgaben in KMU automatisieren können. Das Ergebnis: höhere Geschwindigkeit, weniger Fehler und ein klarer Wettbewerbsvorteil.

„Von PDF zu strukturierten Daten – in Sekunden statt Stunden.“