Case Study: Intelligentes Zuschneiden von hochgeladenen Kunden-Dokumenten

Case Study: Intelligentes Zuschneiden von hochgeladenen Kunden-Dokumenten

Diese Case Study ist der zweite Teil der Serie „KI-geführter Registrierungsprozess“. In der ersten Case Study haben wir uns mit der Klassifizierung der hochgeladenen Kundenbilder beschäftigt. Um sich für die THG-Quotenantragsstellung zu qualifizieren, müssen die Kunden Bilder der Vorder- und Rückseite ihrer Fahrzeugpapiere einreichen. Unser Deep-Learning-Modell, das für diese Klassifizierungsaufgabe trainiert wurde, gibt den Kunden eine unmittelbare Rückmeldung zu ihren Uploads. Dieses Feedback enthält Informationen darüber, ob sie die Vorder-, Rück- oder beide Seiten des Dokuments in einem einzigen Bild hochgeladen haben oder ob keine der Seiten im Bild vorhanden ist.

Die Herausforderung für das Unternehmen

Die Kunden werden aufgefordert, getrennte Bilder der Vorder- und Rückseite ihres Fahrzeugscheins hochzuladen. Einige Kunden (ca. 3 %) scannen bzw. fotografieren die Vorder- und Rückseite und fügen sie in ein einziges Bild zusammen und laden das zusammengeführte Dokument sowohl als Vorderseite und Rückseite separat hoch. Dies führt zu Unklarheiten in den nachfolgenden Bearbeitungsschritten:

  • Bei der Auslesung der Fahrzeugscheine mit der nachgelagerten OCR-Modell (OCR von hochgeladenen Kunden-Dokumenten ist der dritte Artikel in der Case-Study-Reihe „KI-geführter Registrierungsprozess“). 
  • Bei der Antragsstellung an das Umweltbundesamt, bei dem auch die Nachweise (die Vorder- und Rückseiten der Fahrzeugscheine) übermittelt werden.

Daher ist ein zuverlässiger und automatisierter Eingriff unerlässlich, um Vorder- und Rückseiten zu trennen, indem:

  • Die Koordinaten der Vorderseite innerhalb des zusammengefügten Bildes lokalisiert werden,
  • um im anschluss die Vorderseite anhand der gefundenen Koordinaten auszuschneiden, 
  • wodurch zwei sauber getrennte Bilder erzeugt mit der Fahrzeugschein-Vorderseite und -Rückseite erstellt werden.

Methodisch-technische Lösung

Vorverarbeitung der Daten für Deep Learning-Modelle: Im Rahmen dieses Projekts wurde ein Datensatz von 818 Bildern verwendet, von denen jedes sowohl die Vorder- als auch die Rückseite eines Fahrzeugscheins enthält. Unser Datenbeschriftungsprozess wurde durch den Einsatz der Datenbeschriftungssoftware CVAT erleichtert. Mit diesem Tool konnte unser Datenbeschriftungsteam Rechtecke um die Koordinaten der Vorderseite ziehen und diese genau markieren. Anschließend teilten wir die beschrifteten Bilder sorgfältig in Trainings-, Validierungs- und Testteilmengen auf. Die kontinuierliche Modellvalidierung spielte während des gesamten Trainingsprozesses eine zentrale Rolle, um die Robustheit der Modelle zu gewährleisten. Darüber hinaus wurden unsere Modelle strengen Tests mit Bildern unterzogen, mit denen sie noch nie zuvor in Berührung gekommen waren, was ihre Verallgemeinerbarkeit und Leistungsgenauigkeit bestätigte.

Training und Bewertung: Wir haben uns für eine bewährte Architektur von EfficientDet entschieden, die das vortrainierte EfficientNet von ImageNet als Grundlage verwendet, da es bei Benchmark-Datensätzen nachweislich den neuesten Stand der Technik repräsentiert und seine Effektivität und beeindruckende Genauigkeit bei geringerem Einsatz von Rechenressourcen unter Beweis gestellt hat. Das trainierte Modell erreichte eine bemerkenswerte Genauigkeitsrate von 99% auf dem als Testsatz vorgesehenen Datensatz. Dieser Genauigkeitsgrad ist besonders bemerkenswert, wenn man bedenkt, dass wir nur eine begrenzte Anzahl von Trainingsbildern zur Verfügung hatten.

Versionierung, Codeprüfung und Bereitstellung: Die Versionierung der Deep-Learning-Modelle ist von entscheidender Bedeutung, um eine kontinuierliche Verfolgung der eingesetzten Modelle zu gewährleisten. Dies ermöglicht das laufende Testen des eingesetzten Modells in realen Szenarien und erleichtert den Einsatz neuerer Modelle mit verbesserter Genauigkeit, sobald diese verfügbar sind. 

Das folgende Diagramm veranschaulicht die kombinierte Funktionsweise von zwei tiefgehenden Modellen, indem es die erste Case Study mit dieser zusammenfasst:

Mehrwert für das Unternehmen

Die Kundenzufriedenheit ist mithilfe der KI-gesteuerten Zuschneidung von hochgeladenen Kunden-Dokumenten um 2,97 % gestiegen, weil die Kunden nicht dazu aufgefordert wurden, ihr zusammengefügtes Dokument, aus Vorder- und Rückseite, umständlich zu trennen und erneut hochzuladen. Nach der Einführung dieses KI-Modells müssen nur noch 3 von 10.000 von Kundenanmeldungen mit zusammengeführten Dokumenten von Kundenservice-Mitarbeitern bearbeitet werden. Dies beinhaltet eine gründliche Prüfung der Fälle und die manuelle Lösung von Registrierungsproblemen, die auf eine Fehlregistrierung zurückzuführen sind. Zudem arbeitet der nachgelagerte OCR-Prozess effizienter, da er nun ausschließlich die Vorderseiten der Fahrzeugpapiere erhält. Diese Reduzierung der manuellen Bearbeitung spart nicht nur Zeit für unsere Kunden, sondern kommt auch dem Unternehmen zugute.

Projektdetails

Diese Case Study ist der zweite Teil der Serie "KI-geführter Registrierungsprozess" und konzentriert sich auf das intelligente Zuschneiden von Kunden-Dokumentenbildern. Das Deep-Learning-Modell erreicht eine beeindruckende Genauigkeit von 99%, indem es Bilder einer Fahrzeugzulassung (auch Fahrzeugschein) in Vorder- und Rückseiten aufteilt. Durch die Implementierung dieser Anwendung hat das Unternehmen erfolgreich weitere 2,97% aller Fälle automatisiert, was den Gesamtanteil auf 99,97% erhöht. Nur noch 0,03% der Anmeldungen erfordern jetzt manuelle Überprüfung. Dies trägt zur gesteigerten Effizienz der OCR-Verarbeitung bei und führt zu Zeitersparnissen für Kunden und Unternehmen.

Projektaufgaben

  • Evaluation

    Wir erzielten eine bemerkenswerte Effizienz von 99% bei der Bewertung unter Verwendung des vorgesehenen Testdatensatzes.

  • Mehrwert für das Unternehmen

    Die erfolgreiche Implementierung eines Modells verbessert erheblich die Benutzererfahrung, indem Bilder von Fahrzeugzulassungspapieren präzise zugeschnitten werden. Dies führt zu einer spürbaren Verringerung des Bedarfs an Interventionen des Kundendienstes und manueller Bearbeitung, wodurch die Gesamteffizienz in nachgelagerten OCR-Vorgängen gesteigert und das Unternehmen unterstützt wird.