Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen

Hauptsächlicher Artikelinhalt

Dimitri Busch

Abstract

Das Problem der mehrsprachigen Suche gewinnt in der letzten Zeit immer mehr an Bedeutung, da viele nützliche Fachinformationen in der Welt in verschiedenen Sprachen publiziert werden. RSWBPlus ist eine bibliographische Datenbank zum Nachweis der Fachliteratur im Bereich Planen und Bauen, welche  deutsch- und englischsprachige Metadaten-Einträge enthält. Bis vor Kurzem war es problematisch Einträge zu finden, deren Sprache sich von der Anfragesprache unterschied. Zum Beispiel fand man auf deutschsprachige Anfragen nur deutschsprachige Einträge, obwohl die Datenbank auch potenziell nützliche englischsprachige Einträge enthielt. Um das Problem zu lösen, wurde nach einer Untersuchung bestehender Ansätze, die RSWBPlus weiterentwickelt, um eine mehrsprachige (sprachübergreifende) Suche zu unterstützen, welche unter Einbeziehung eines zweisprachigen begriffbasierten Thesaurus erfolgt. Der Thesaurus wurde aus bereits bestehenden Thesauri automatisch gebildet. Die Einträge der Quell-Thesauri wurden in SKOS-Format (Simple Knowledge Organisation System) umgewandelt, automatisch miteinander vereinigt und schließlich in einen Ziel-Thesaurus eingespielt, der ebenfalls in SKOS geführt wird. Für den Zugriff zum Ziel-Thesaurus werden Apache Jena und MS SQL Server verwendet. Bei der mehrsprachigen Suche werden Terme der Anfrage durch entsprechende Übersetzungen und Synonyme in Deutsch und Englisch erweitert. Die Erweiterung der Suchterme kann sowohl in der Laufzeit, als auch halbautomatisch erfolgen. Das verbesserte Recherchesystem kann insbesondere deutschsprachigen Benutzern helfen, relevante englischsprachige Einträge zu finden. Die Verwendung vom SKOS erhöht die Interoperabilität der Thesauri, vereinfacht das Bilden des Ziel-Thesaurus und den Zugriff zu seinen Einträgen.

 

In recent times, the problem of multi-lingual search is gaining more and more importance, because a lot of useful specialized information are published in several languages. RSWBPlus is a bibliographic database which includes German and English metadata entries in the field of construction and planning. Until recently it was difficult to find entries whose language differed from the query language. For example, German queries found only German entries, although the database also contained potentially useful English entries. After an investigation of existing approaches, the RSWBPlus was improved to support cross-language information retrieval, which is carried out with the involvement of a bilingual concept-based thesaurus. The thesaurus has been automatically generated from existing thesauri. The entries in the source thesauri were converted in SKOS format (Simple Knowledge Organization System), automatically merged and finally recorded in a target thesaurus, which also was saved in SKOS format. To access the target thesaurus Apache Jena and MS SQL Server are used. In the multilingual retrieval, query terms are extended by appropriate translations and synonyms in English and German. The expansion of the search terms can be carried out both semi-automatically and in the runtime. The improved retrieval system can especially help German users to find relevant English entries. The use of SKOS format increases interoperability of thesauri, simplifies the building of the target thesaurus and the access to its entries.

Artikel-Details

Zitationsvorschlag
Busch, D. (2016). Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen. O-Bib. Das Offene Bibliotheksjournal / Herausgeber VDB, 3(4), 202-216. https://doi.org/10.5282/o-bib/2016H4S202-216
Rubrik
Kongressbeiträge

Literaturhinweise

– Apache. „Apache Jena.“ Zuletzt geprüft am 02.09.2016. https://jena.apache.org.

– Allemang, Dean und James Hendler. Semantic Web for the Working Ontologist: Effective
Modeling in RDFS and OWL, 2. Auflage. Amsterdam u.a.: Morgan Kaufmann, 2011.

– Buitelaar, Paul, Klaus Netter und Feiyu Xu, „Integrating Different Strategies in Cross-Language
Information Retrieval in the MIETTA Project.“ In Language technology in multimedia
information retrieval: Proceedings of the Fourteenth Twente Workshop on Language Technology,
December 7-8, 1998, Enschede, The Netherlands, herausgegeben von Djoerd Hiemstra,
Franciska de Jong und Klaus Netter. Enschede: Univ. Twente, 1998, 9-17.

– Fraunhofer-Informationszentrum Raum und Bau, Hrsg. FINDEX Bau: Facettenartiges Indexierungssystem
für das Bauwesen, 2. Auflage. Stuttgart: IRB Verlag, 1985.

– Fraunhofer-Informationszentrum Raum und Bau, Hrsg. FINDEX Raum: Facettenartiges
Indexierungssystem für Raumordnung, Städtebau, Wohnungswesen, 1. Auflage. Stuttgart: IRB
Verlag, 1985.

– DIN-Normenausschuss Information und Dokumentation (NID) im DIN e.V., DIN 1463-1,
Erstellung und Weiterentwicklung von Thesauri. Einsprachige Thesauri. Berlin: Beuth, 1987.

– DIN-Normenausschuss Terminologie (NAT) im DIN e.V., DIN 2342-1, Begriffe der Terminologielehre.
Grundbegriffe. Berlin: Beuth, 1992.

– Hedden, Heather. „Three M’s: Mapping, Merging, and Multilingual Taxonomies“. Vortrag
auf der Special Librarians Association Annual Conference, Chicago, Ill., 15.-18. Juli, 2012.
Vortragsfolien. Zuletzt geprüft am 02.09.2016. http://www.hedden-information.com/
HeatherHedden-ThreeMs-SLA2012.pdf.

– IFLA. Guidelines for Multilingual Thesauri. The Hague: International Federation of Library
Associations and Institutions, 2009.

– Lacasta, Javier, Javier Nogueras-Iso und Francisco Zarazags-Soria. Terminological Ontologies:
Design, Management and Practical Applications. New York: Springer, 2010.

– McCarley, J. Scott. „Should We Translate the Documents or the Queries in Cross-Language
Information Retrieval?“ In Proceedings of the 37th Annual Meeting of the Association for
Computational Linguistics, College Park, 21. Juni 1999, herausgegeben von Association for
Computational Linguistics. 208-214. San Francisco: Morgan Kaufmann, 1999.

– Nie, Jian-Yun. Cross-Language Information Retrieval. San Rafael: Morgan & Claypool, 2010.

– NISO. „Format for Exchange of Thesaurus Data Conforming to ISO 25964-1.“ Zuletzt
geprüft am 02.09.2016. http://www.niso.org/schemas/iso25964/schema-intro/.

– NRC. „Canadian Thesaurus of Construction Science and Technology.“ Zuletzt geprüft am
02.09.2016. http://irc-wae.irc.nrc.ca/thesaurus/welcome.html.

– Peters, Carol, Martin Braschler und Paul Clough. Multilingual Information Retrieval: From
Research to Practice. Berlin Heidelberg: Springer, 2012.

– Stock, Wolfgang. Information Retrieval: Informationen suchen und finden. Einführung in die
Informationswissenschaft 1. München: Oldenbourg Wissenschaftsverlag, 2007.

– Stock, Wolfgang und Mechtild Stock. Wissensrepräsentation: Informationen auswerten und
bereitstellen. München: Oldenbourg Wissenschaftsverlag, 2008.

– W3C. „SKOS Current Status.“ Zuletzt geprüft am 02.09.2016. https://www.w3.org/standards/techs/skos#w3c_all.

– W3C. „SKOS/Datasets.“ Zuletzt geprüft am 02.09.2016. https://www.w3.org/2001/sw/
wiki/SKOS/Datasets.

– W3C. „SKOS Simple Knowledge Organization System Primer.“ Zuletzt geprüft am
02.09.2016. https://www.w3.org/TR/skos-primer/