MILHOUSE: LLM-basierte Sacherschließung in der Praxis

Ein Werkstattbericht der Universitätsbibliothek Magdeburg

Authors

DOI:

https://doi.org/10.5282/o-bib/6220

Keywords:

Automated subject indexing, Large Language Models (LLM), Artificial intelligence in libraries, Human-in-the-Loop

Abstract

Academic libraries are experiencing a rapid increase in media holdings, making comprehensive subject indexing increasingly difficult to manage with existing staff resources.
This paper presents MILHOUSE, a tool developed at the University Library of Magdeburg that leverages large language models for the (semi-)automated assignment of subject classification notations.
The application enriches bibliographic records with suitable metadata, employs structured prompts with fixed output schemes, and integrates a plausibility check to reduce model-induced hallucinations. The quality of the results is ensured through a human-in-the-loop approach.
MILHOUSE was practically tested by subject librarians of the University Library of Magdeburg in a near-production setting (Q3 2025).
The paper highlights the advantages of this lightweight approach over traditional training pipelines and derives design principles for the rapid and responsible integration of artificial intelligence into library workflows.

References

Association of Research Libraries: ARL Statistics Survey Statistical Trends. Expenditure Trends in ARL Libraries, 1986–2018, Association of Research Libraries, 2019, https://www.arl.org/arl-statistics-survey-statistical-trends/, Stand: 05.01.2026.

Balakrishnan, Uma; Kühn, Armin: Ergebnisse der Umfrage zur sachlichen Erschließung in GBV-und SWB-Teilnehmerbibliotheken, 2019, https://opus.k10plus.de/frontdoor/index/index/docId/464, Stand: 05.01.2026.

Bosse, Sascha; Lücke, Christine; Thomas, Linda: Library Inventory Statistics Application. Eine Fallstudie über die agile Projektarbeit im Rahmen des Fachreferats, in: o-bib 9 (2), 2022, S. 1–15, https://doi.org/10.5282/o-bib/5774.

Brador, Isabel: Could Artificial Intelligence Help Catalog Thousands of Digital Library Books? An Interview with Abigail Potter and Caroline Saccucci, 2024, https://blogs.loc.gov/thesignal/2024/11/could-artificial-intelligence-help-catalog-thousands-of-digital-library-books-an-interview-with-abigail-potter-and-caroline-saccucci/, Stand: 05.01.2026.

Chang, Winston; Cheng, Joe; Allaire, JJ u. a.: shiny: Web Application Framework for R, 2025, https://cran.r-project.org/web/packages/shiny/index.html, Stand: 05.01.2026.

D’Souza, Jennifer; Sadruddin, Sameer; Israel, Holger u. a.: SemEval-2025 Task 5. LLMs4Subjects - LLM-based Automated Subject Tagging for a National Technical Library’s Open-Access Catalog, in: Rosenthal, Sara; Rosá, Aiala; Ghosh, Debanjan u. a. (Hg.): Proceedings of the 19th International Workshop on Semantic Evaluation (SemEval-2025), Vienna, Austria 2025, S. 2570–2583, https://aclanthology.org/2025.semeval-1.328/.

Deutsche Nationalbibliothek: Start der Erschließungsmaschine EMa, 2022, https://jahresbericht.dnb.de/Webs/jahresbericht/DE/2022/Hoehepunkte/Erschliessungsmaschine/erschliessungsmaschine_node.html, Stand: 05.01.2026.

Deutscher Bibliotheksverband e.V.: Bibliotheken 2024, 2024, https://www.bibliotheksverband.de/sites/default/files/2024-10/Bibliotheken%202024_web.pdf, Stand: 05.01.2026.

Dobreski, Brian; Hastings, Christopher: AI Chatbots and Subject Cataloging. A Performance Test, in: Library Resources & Technical Services 69 (2), 2025, S. 1–14, https://doi.org/10.5860/lrts.69n2.8440.

Franke-Maier, Michael; Kasprzik, Anna; Ledl, Andreas u. a. (Hg.): Editorial, in: Qualität in der Inhaltserschließung, Berlin, Boston 2021, S. 1–18, https://doi.org/10.1515/9783110691597-001.

Fraunhofer IESE: Retrieval Augmented Generation (RAG). Chat mit eigenen Daten, 2024, https://www.iese.fraunhofer.de/blog/retrieval-augmented-generation-rag/, Stand: 15.01.2026.

Gil-Leiva, Isidoro; Fujita, Mariângela Spotti Lopes; Ortuño, Pedro Dı́az u. a.: The Abandonment of the Assignment of Subject Headings and Classification Codes in University Libraries Due to the Massive Emergence of Electronic Books, in: Knowledge Organization 47 (8), 2021, S. 646–667, https://doi.org/10.5771/0943-7444-2020-8-646.

Golub, Koraljka: Automated Subject Indexing. An Overview, in: Cataloging & Classification Quarterly 59 (8), 2021, S. 702–719, https://doi.org/10.1080/01639374.2021.2012311.

Golub, Koraljka; Suominen, Osma; Mohammed, Ahmed Taiye u. a.: Automated Dewey decimal classification of Swedish library metadata using Annif software, in: Journal of Documentation 80 (5), 2024, S. 1057–1079, https://doi.org/10.1108/JD-01-2022-0026.

Google LLC: Google Books APIs v1 Reference, https://developers.google.com/books, Stand: 05.01.2026.

hbz – Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen: Deutsche Bibliotheksstatistik (DBS), 2025, https://www.bibliotheksstatistik.de/, Stand: 05.01.2026.

Hübler, Conrad: ALIMA – Sacherschließung unterstützt durch große Sprachmodelle. Ein Werkstattbericht, 2025, https://blog.dini.de/EPub_FIS/2025/05/19/alima-sacherschliessung/, Stand: 05.01.2026.

Kalai, Adam Tauman; Nachum, Ofir; Vempala, Santosh S. u. a.: Why Language Models Hallucinate, in: arXiv preprint arXiv:2509.04664, 2025, https://arxiv.org/abs/2509.04664.

Kasprzik, Anna: Automating Subject Indexing at ZBW: Making Research Results Stick in Practice, in: LIBER Quarterly 33 (1), 2023, S. 1–18, https://doi.org/10.53377/lq.13579.

Kasprzik, Anna; Seeliger, Frank: KI in wissenschaftlichen Bibliotheken, Teil 1: Handlungsfelder, große Player und die Automatisierung der Erschließung, 2022, https://www.zbw-mediatalk.eu/de/2022/08/ki-in-wissenschaftlichen-bibliotheken-teil-1-handlungsfelder-grosse-player-und-die-automatisierung-der-erschliessung/, Stand: 05.01.2026.

Kasprzik, Argie: Die KI(rche) im Dorf lassen, in: o-bib 12 (4), 2025, https://doi.org/10.5282/O-BIB/6201.

Kortick, Yoel: Trends in Physical and Electronic Resource Usage in U.S. Academic Libraries, in: Ex Libris Blog, 2021, https://exlibrisgroup.com/blog/changing-priorities-trends-in-physical-and-electronic-resource-usage-in-us-academic-libraries/, Stand: 05.01.2026.

Leibniz-Gemeinschaft, Senat: Stellungnahme zur ZBW – Leibniz-Informationszentrum Wirtschaft, Kiel/Hamburg, Senatsstellungnahme 18. März 2025, Leibniz-Gemeinschaft, 2025, https://www.leibniz-gemeinschaft.de/fileadmin/documents/3131-2964/ZBW_-_Senatsstellungnahme_18_03_2025_mit_Anlagen.pdf, Stand: 05.01.2026.

LibAuto: AI-Powered Dewey Decimal Classifier Tool, 2024, https://www.libauto.in/2024/12/ai-powered-dewey-decimal-classifier-tool.html, Stand: 05.01.2026.

Mosqueira-Rey, Eduardo; Hernández-Pereira, Elena; Alonso-Rı́os, David u. a.: Human-in-the-loop machine learning. A state of the art, in: Artificial Intelligence Review 56 (4), 2023, S. 3005–3054, https://doi.org/10.1007/s10462-022-10246-w.

OpenAI: OpenAI API Pricing Documentation, https://platform.openai.com/docs/pricing, Stand: 05.01.2026.

OpenAI: Structured model outputs, https://platform.openai.com/docs/guides/structured-outputs, Stand: 05.01.2026.

Posit Software, PBC: Shiny Server, Boston, MA 2025, https://posit.co/products/open-source/shiny-server/, Stand: 05.01.2026.

R Core Team: R: A Language and Environment for Statistical Computing, Vienna, Austria 2025, https://www.R-project.org/, Stand: 05.01.2026.

Staatsbibliothek zu Berlin: Mensch.Maschine.Kultur. Künstliche Intelligenz für das digitale Kulturerbe, 2022, https://mmk.sbb.berlin/, Stand: 05.01.2026.

Sühl-Strohmenger, Wilfried; Tappenbeck, Inka (Hg.): Praxishandbuch Wissenschaftliche Bibliothekar:innen, Berlin, Boston 2024, https://doi.org/10.1515/9783110790375.

Suominen, Osma: Building Civilized AI. Five Principles for Working with AI in Cultural Heritage and Libraries, 2024, https://docs.google.com/presentation/d/e/2PACX-1vRA1o11pODoJ0FmFc8dRj-xNZRUs7lsxzDACkiYt6d-Bdfql1ujw3gGpSedTQnXDG0MrRg3_WAl1GQS/pub, Stand: 05.01.2026.

Suominen, Osma: Annif: DIY automated subject indexing using multiple algorithms, in: LIBER Quarterly 29 (1), 2019, S. 1–25, https://doi.org/10.18352/lq.10285.

Tschochohei, Maximilian; Adams, Lisa Christine; Bressem, Keno Kyrill u. a.: KI-gestützte klinische Entscheidungsunterstützungssysteme. Herausforderungen und Potenziale, in: Bundesgesundheitsblatt – Gesundheitsforschung – Gesundheitsschutz 68, 2025, S. 872–879, https://doi.org/10.1007/s00103-025-04092-8.

Universitätsbibliothek Magdeburg: Systematik der Universitätsbibliothek Magdeburg, 2025, https://www.ub.ovgu.de/ub_media/Literatursuche/Systematik.pdf, Stand: 05.01.2026.

VDE ITG: Große Sprachmodelle und Reasoning, 2025, https://www.vde.com/de/itg/publikationen/itg-kurzinformationen/grosse-sprachmodelle-und-reasoning, Stand: 15.01.2026.

Wickham, Hadley; Vaughan, Davis; Posit Software, PBC: ellmer. A Unified Interface to Large Language Models in R, Version 0.3.0, 2025, https://ellmer.tidyverse.org, Stand: 05.01.2026.

Wiesenmüller, Heidrun; Hinrichs, Imma: Computerunterstützte Inhaltserschließung. Bericht über einen Workshop an der UB Stuttgart – mit einem Exkurs zum neuen Inhaltserschließungskonzept der DNB, in: o-bib 4 (3), 2017, S. 94–105, https://doi.org/10.5282/o-bib/2017H3S94-105.

Downloads

Published

2026-02-20

Issue

Section

Full papers

How to Cite

Niemann, U., & Bosse, S. (2026). MILHOUSE: LLM-basierte Sacherschließung in der Praxis: Ein Werkstattbericht der Universitätsbibliothek Magdeburg. O-bib, 13(1), 1-17. https://doi.org/10.5282/o-bib/6220