Iconclass Classification Pipeline

Automatisierte Klassifikation von Kulturgütern

Autor:in
Zugehörigkeit

Moritz Mähr

Universität Basel

Geändert

8. Dezember 2025

Iconclass Classification Pipeline

Die Iconclass Classification Pipeline ist ein automatisiertes Werkzeug zur Klassifizierung von digitalen Kulturgütern mittels Iconclass-Codes. Das System nutzt ein Vision-Language-Model (VLM), das lokal über Ollama gehostet wird, um Kunstwerke und historische Objekte zu analysieren und zu kategorisieren.

Die Pipeline wurde speziell für die digitalen Sammlungen von Stadt.Geschichte.Basel entwickelt und ermöglicht eine effiziente, nachvollziehbare Verarbeitung grosser Bildbestände. Sie verarbeitet Metadaten, lädt Bilder herunter, klassifiziert diese automatisch und dokumentiert den gesamten Prozess mit vollständiger Provenienz.

Funktionen

Das Werkzeug bietet umfangreiche Möglichkeiten zur automatisierten Klassifikation:

  • Automatisierte Iconclass-Klassifikation: Nutzt das Iconclass VLM-Modell für präzise Kategorisierung
  • Stapelverarbeitung: Verarbeitet ganze Sammlungen aus metadata.json-Dateien
  • Intelligente Bildverarbeitung: Automatischer Download, Skalierung, Normalisierung und SHA256-basiertes Caching
  • Flexible Stichproben: Zufällige, feste oder vollständige Datensatz-Modi mit reproduzierbaren Seeds
  • Mehrere Prompts: Drei Prompt-Vorlagen (Standard, Instruktion, Few-Shot) für optimale Ergebnisse
  • Vollständige Provenienz: Zeitgestempelte Ausführungsverzeichnisse mit vollständigem Audit-Trail

Anwendung

Die Pipeline lässt sich über die Kommandozeile steuern und unterstützt sowohl lokale (Ollama) als auch Cloud-basierte (OpenRouter) Klassifikation. Das System filtert automatisch die zu verarbeitenden Objekte und speichert die Ergebnisse strukturiert ab.

Alle Ergebnisse werden in zeitgestempelten Verzeichnissen mit vollständiger Dokumentation gespeichert, einschliesslich der Original-Metadaten, verarbeiteten Bilder, Klassifikationsanfragen und -antworten sowie detaillierten Logs.

Technologie

Das zugehörige GitHub-Repository iconclass-classification enthält den Open-Source-Code der Pipeline. Die Verwendung von Python und modernen Bibliotheken wie Pydantic gewährleistet Typsicherheit und Datenvalidierung. Umfangreiche Tests sichern die Zuverlässigkeit des Systems.

Durch die Offenlegung des Quellcodes wird Transparenz gefördert und die Nachnutzung für andere Forschungsprojekte ermöglicht. Die Pipeline folgt den Best Practices für reproduzierbare Forschung und ist vollständig dokumentiert.

Zurück nach oben