Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen

Autor*innen

  • Dimitri Busch Fraunhofer-Informationszentrum Raum und Bau (IRB)

DOI:

https://doi.org/10.5282/o-bib/2016H4S202-216

Schlagwörter:

Mehrsprachige Suche, Sprachübergreifende Suche, Information Retrieval, Thesaurus, Ordnungssystem, Literaturdokumentation

Abstract

Das Problem der mehrsprachigen Suche gewinnt in der letzten Zeit immer mehr an Bedeutung, da viele nützliche Fachinformationen in der Welt in verschiedenen Sprachen publiziert werden. RSWBPlus ist eine bibliographische Datenbank zum Nachweis der Fachliteratur im Bereich Planen und Bauen, welche  deutsch- und englischsprachige Metadaten-Einträge enthält. Bis vor Kurzem war es problematisch Einträge zu finden, deren Sprache sich von der Anfragesprache unterschied. Zum Beispiel fand man auf deutschsprachige Anfragen nur deutschsprachige Einträge, obwohl die Datenbank auch potenziell nützliche englischsprachige Einträge enthielt. Um das Problem zu lösen, wurde nach einer Untersuchung bestehender Ansätze, die RSWBPlus weiterentwickelt, um eine mehrsprachige (sprachübergreifende) Suche zu unterstützen, welche unter Einbeziehung eines zweisprachigen begriffbasierten Thesaurus erfolgt. Der Thesaurus wurde aus bereits bestehenden Thesauri automatisch gebildet. Die Einträge der Quell-Thesauri wurden in SKOS-Format (Simple Knowledge Organisation System) umgewandelt, automatisch miteinander vereinigt und schließlich in einen Ziel-Thesaurus eingespielt, der ebenfalls in SKOS geführt wird. Für den Zugriff zum Ziel-Thesaurus werden Apache Jena und MS SQL Server verwendet. Bei der mehrsprachigen Suche werden Terme der Anfrage durch entsprechende Übersetzungen und Synonyme in Deutsch und Englisch erweitert. Die Erweiterung der Suchterme kann sowohl in der Laufzeit, als auch halbautomatisch erfolgen. Das verbesserte Recherchesystem kann insbesondere deutschsprachigen Benutzern helfen, relevante englischsprachige Einträge zu finden. Die Verwendung vom SKOS erhöht die Interoperabilität der Thesauri, vereinfacht das Bilden des Ziel-Thesaurus und den Zugriff zu seinen Einträgen.

 

In recent times, the problem of multi-lingual search is gaining more and more importance, because a lot of useful specialized information are published in several languages. RSWBPlus is a bibliographic database which includes German and English metadata entries in the field of construction and planning. Until recently it was difficult to find entries whose language differed from the query language. For example, German queries found only German entries, although the database also contained potentially useful English entries. After an investigation of existing approaches, the RSWBPlus was improved to support cross-language information retrieval, which is carried out with the involvement of a bilingual concept-based thesaurus. The thesaurus has been automatically generated from existing thesauri. The entries in the source thesauri were converted in SKOS format (Simple Knowledge Organization System), automatically merged and finally recorded in a target thesaurus, which also was saved in SKOS format. To access the target thesaurus Apache Jena and MS SQL Server are used. In the multilingual retrieval, query terms are extended by appropriate translations and synonyms in English and German. The expansion of the search terms can be carried out both semi-automatically and in the runtime. The improved retrieval system can especially help German users to find relevant English entries. The use of SKOS format increases interoperability of thesauri, simplifies the building of the target thesaurus and the access to its entries.

Literaturhinweise

– Apache. „Apache Jena.“ Zuletzt geprüft am 02.09.2016. https://jena.apache.org.

– Allemang, Dean und James Hendler. Semantic Web for the Working Ontologist: Effective

Modeling in RDFS and OWL, 2. Auflage. Amsterdam u.a.: Morgan Kaufmann, 2011.

– Buitelaar, Paul, Klaus Netter und Feiyu Xu, „Integrating Different Strategies in Cross-Language

Information Retrieval in the MIETTA Project.“ In Language technology in multimedia

information retrieval: Proceedings of the Fourteenth Twente Workshop on Language Technology,

December 7-8, 1998, Enschede, The Netherlands, herausgegeben von Djoerd Hiemstra,

Franciska de Jong und Klaus Netter. Enschede: Univ. Twente, 1998, 9-17.

– Fraunhofer-Informationszentrum Raum und Bau, Hrsg. FINDEX Bau: Facettenartiges Indexierungssystem

für das Bauwesen, 2. Auflage. Stuttgart: IRB Verlag, 1985.

– Fraunhofer-Informationszentrum Raum und Bau, Hrsg. FINDEX Raum: Facettenartiges

Indexierungssystem für Raumordnung, Städtebau, Wohnungswesen, 1. Auflage. Stuttgart: IRB

Verlag, 1985.

– DIN-Normenausschuss Information und Dokumentation (NID) im DIN e.V., DIN 1463-1,

Erstellung und Weiterentwicklung von Thesauri. Einsprachige Thesauri. Berlin: Beuth, 1987.

– DIN-Normenausschuss Terminologie (NAT) im DIN e.V., DIN 2342-1, Begriffe der Terminologielehre.

Grundbegriffe. Berlin: Beuth, 1992.

– Hedden, Heather. „Three M’s: Mapping, Merging, and Multilingual Taxonomies“. Vortrag

auf der Special Librarians Association Annual Conference, Chicago, Ill., 15.-18. Juli, 2012.

Vortragsfolien. Zuletzt geprüft am 02.09.2016. http://www.hedden-information.com/

HeatherHedden-ThreeMs-SLA2012.pdf.

– IFLA. Guidelines for Multilingual Thesauri. The Hague: International Federation of Library

Associations and Institutions, 2009.

– Lacasta, Javier, Javier Nogueras-Iso und Francisco Zarazags-Soria. Terminological Ontologies:

Design, Management and Practical Applications. New York: Springer, 2010.

– McCarley, J. Scott. „Should We Translate the Documents or the Queries in Cross-Language

Information Retrieval?“ In Proceedings of the 37th Annual Meeting of the Association for

Computational Linguistics, College Park, 21. Juni 1999, herausgegeben von Association for

Computational Linguistics. 208-214. San Francisco: Morgan Kaufmann, 1999.

– Nie, Jian-Yun. Cross-Language Information Retrieval. San Rafael: Morgan & Claypool, 2010.

– NISO. „Format for Exchange of Thesaurus Data Conforming to ISO 25964-1.“ Zuletzt

geprüft am 02.09.2016. http://www.niso.org/schemas/iso25964/schema-intro/.

– NRC. „Canadian Thesaurus of Construction Science and Technology.“ Zuletzt geprüft am

09.2016. http://irc-wae.irc.nrc.ca/thesaurus/welcome.html.

– Peters, Carol, Martin Braschler und Paul Clough. Multilingual Information Retrieval: From

Research to Practice. Berlin Heidelberg: Springer, 2012.

– Stock, Wolfgang. Information Retrieval: Informationen suchen und finden. Einführung in die

Informationswissenschaft 1. München: Oldenbourg Wissenschaftsverlag, 2007.

– Stock, Wolfgang und Mechtild Stock. Wissensrepräsentation: Informationen auswerten und

bereitstellen. München: Oldenbourg Wissenschaftsverlag, 2008.

– W3C. „SKOS Current Status.“ Zuletzt geprüft am 02.09.2016. https://www.w3.org/standards/techs/skos#w3c_all.

– W3C. „SKOS/Datasets.“ Zuletzt geprüft am 02.09.2016. https://www.w3.org/2001/sw/

wiki/SKOS/Datasets.

– W3C. „SKOS Simple Knowledge Organization System Primer.“ Zuletzt geprüft am

09.2016. https://www.w3.org/TR/skos-primer/

Downloads

Veröffentlicht

2016-12-16

Zitationsvorschlag

Busch, D. (2016). Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen. O-Bib. Das Offene Bibliotheksjournal / Herausgeber VDB, 3(4), 202–216. https://doi.org/10.5282/o-bib/2016H4S202-216

Ausgabe

Rubrik

Kongressbeiträge