Die Skizzierung der bisher sich abzeichnenden Lösungsansätze der oben beschriebenen Problembereiche orientiert sich an der Unterscheidung zwischen Prozessen einerseits (Kommunikation und Datenaustausch innerhalb und zwischen den Instituten) sowie Objekten, d. i. die vorliegenden Datenbestände, andererseits. Während die Prozesseite unter den Stichwörtern "Workflow" bzw. "Process Reengineering" (cf. Kap. 7.1) gefaßt ist, findet sich die Behandlung der zur Disposition stehenden Objekte im Kap. 7.2.
Nach erster Sichtung ergeben sich für die ALLBUS-Erstellung folgende Ansatzpunkte für eine Unterstützung durch entsprechende Software-Komponenten:
* Ein gewinnbringender Schritt besteht in der Bereitstellung eines Fragebogen-Editors. Vorarbeiten hierzu liegen in Form eines Sets von Dokument- und Formatvorlagen sowie Makros in Word für Windows 6.0 (Schneid 1995) bereits vor. Die mit diesem Editor erstellten Fragebögen wären mit gemeinsamer Zugriffsmöglichkeit zu halten und stünden so auch den Mitarbeitern beim ZA für die Vercodung und Studienbeschreibungen zur Verfügung. Dies würde den momentan noch betriebenen Aufwand für die wiederholte Erfassung der Fragebögen beim ZA überflüssig machen.
* Weitere Unterstützung bei der Fragebogenerstellung und -verarbeitung könnte ein elektronisches Fragebogenarchiv bieten, das die konkreten Frageformulierungen in Kombination mit dem graphischen Layout enthält. Hier wären adäquate Recherchewerkzeuge zur Suche nach bereits "erprobten" Fragen zur Verfügung zu stellen sowie die Möglichkeit der direkten Übernahme in den Fragebogen-Editor, um ein direktmanipulatives Arbeiten zu gewährleisten.
* Ein weiterer Vorteil zentral gehaltener bzw. allen Beteiligten online zugänglicher Informationen bestünde in einer dann möglichen Unterstützung der Aggregierung von ALLBUS-Fragen bei der inhaltlichen Erschließung in der Studienbeschreibung. Dies ließe sich erreichen, indem die Mitarbeiter der ALLBUS-Abteilung bei ZUMA die eventuell bereits bei der Erstellung des Fragebogens entstehenden Vorläuferversionen, Grobklassifikationen oder -gliederungen der Studienbeschreibung zur Verfügung stellen. So ließe sich die Diskrepanz zwischen dem Top-Down-Ansatz bei ZUMA (Überbegriffe/Grobklassifizierung => Feindifferenzierung) und dem Bottom-up-Vorgehen des ZA (Einzelformulierungen => Überbegriffe/Gruppenbildung) minimieren und somit auch der Arbeitsaufwand deutlich reduzieren.
* Die Instrumentarien zur Erfassung der formalen Bestandteile der Studienbeschreibungen wie Erhebungszeitraum, Stichprobenumfang u ä. sind ebenfalls online zur Verfügung zu stellen, da diese Informationen von unterschiedlichen Personen in den beteiligten Instituten und eventuell vom externen Erheber (INFRATEST) eingeholt werden müssen bzw. geliefert werden. Indem gemeinsames Bearbeiten zugelassen wird, können die entsprechenden Daten bereits zum Zeitpunkt ihres Vorliegens bzw. Bekanntwerdens eingegeben werden, d. h. im Moment der Genese, was den weiteren Arbeitsaufwand minimieren dürfte (der Aufwand für das Wiederauffinden von Information entfällt). So muß der einzelne Bearbeiter nicht warten, bis das entsprechende Dokument zu ihm durchgedrungen ist. Damit wird der Einzelne in wesentlich stärkerem Maße als bisher von Arbeitsrhythmus und -geschwindigkeit anderer unabhängig, Rückfragen wegen fehlender Einträge aus vorherigen Arbeitsschritten können entfallen oder werden zumindest erheblich reduziert.
* Die bei ZUMA gehaltenen Literaturhinweise zu ALLBUS-Publikationen müssen wie auch die IZ-Datenbanken SOLIS und FORIS online aus der Arbeitsumgebung heraus verfügbar sein, damit sie z. B. für die Verfassung der Studienbeschreibung optimal genutzt werden können. Andererseits sollten ZA-Mitarbeiter neue Literaturhinweise direkt und reibungslos ("papierlos") an die ZUMA-Literaturbestände weitergeben können, um allen Beteiligten ein Optimum an verfügbaren Informationen zur Verfügung stellen zu können.
Weitere Optimierungen des ALLBUS-Erstellungsprozesses durch Einsatz von Groupware- und Workflowelementen sind anhand einer detaillierten Analyse der Anwendungsdomäne zu erwarten und müssen wie auch die oben genannten Punkte auf ihre Realisierbarkeit und Akzeptanz hin geprüft werden.
Die bei diesem Schritt gewonnenen Erkenntnisse über den adäquaten Einsatz von Workflow-Komponenten sind auch auf ihren möglichen Einsatz bei Gruppenarbeitsprozessen im Internet, bspw. bei einer gemeinsamen Erstellung einer Publikation im WWW (cf. GESIS-Arbeitsgruppe "Internet" 1995) zu prüfen.
In punkto intrainstitutionelle Arbeitsgestaltung können die Vorteile eines Process Reengineering besonders wirkungsvoll durch eine Applikation anhand der Produktion von Publikationen auf der Basis vorhandener Datenbasen deutlich gemacht werden. Für dieses Arbeitsgebiet, das GESIS-weit auftritt, bietet sich eine Behandlung am Beispiel der soFid-Erstellung des IZ an. Diese ist bis dato als eine Abfolge stark separierter Arbeitsschritte ohne dynamischen Informationsfluß realisiert, bei der die Datenbankrecherche getrennt ist vom eigentlichen Publishing-Prozeß, wobei die einzelnen Aufgaben von jeweils unterschiedlichen Mitarbeitern geleistet werden. Dadurch sind sehr viel zusätzlicher Codieraufwand sowie zahlreiche Rückfragen zwischen den einzelnen Personen notwendig. Analog zum Fragebogenarchiv bzw. dem Fragebogenbaukasten sollte auch hier das Ergebnis einer Recherche unmittelbar in eine Aufbereitungskomponente eingehen, in der die Dokumente gesichtet, sortiert, editiert und gesetzt werden können. Durch eine Art Formatvorlage bzw. Formatfilter kann ein homogenes Outfit über alle Themenbereiche einer Publikation gewährleistet werden, die nun von einer Person, angefangen von der Datenauswahl bis hin zu deren Aufbereitung, komplett bearbeitet wird.
Ein erster Prototyp für einen Teilprozeß der soFid-Produktion liegt bereits vor und wird zur Zeit anhand von Benutzergesprächen evaluiert.
Die an diesem Beispiel erprobte Vorgehensweise bzw. die dabei entwickelten Komponenten sind gerade für die im GESIS-Verband geplanten gemeinsamen Themendokumentationen nutzbar, die im Rahmen der mittelfristigen Prioritäten der GESIS definiert wurden (cf. GESIS-Prioritäten 1995).
Der Schwerpunkt dieses Projekteils besteht in der Entwicklung von Verfahren, die strukturierte und unstrukturierte Daten (Integration von Text- und Fakteninformationen) in einer GESIS-übergreifenden Arbeitsumgebung gleichermaßen behandeln und dem Benutzer in integrierter Form zur Verfügung stellen. Für die Realisierung eines derartigen Systems bieten sich folgende Arbeitsschritte und Abstufungen an:
Die momentan noch nicht mögliche kombinierte Suche in den Datenbeständen der GESIS ist ein grundlegendes Problem und muß daher durch ein Verfahren gelöst werden, daß dem Benutzer erlaubt, in allen GESIS-Datenbeständen gleichzeitig zu recherchieren. In einer ersten Stufe muß das System dabei die aktuelle Recherche automatisch auf jeweils relevante Datenbestände überträgt und damit einen iterativen Rechercheprozeß bzw. eine Ausweitung der Suche ermöglichen. Hierbei sind folgende Problembereiche anzugehen:
* Die Integration von FORIS und SOLIS sollte vordringlich realisiert werden, weil eine flexible Lösung zur Behandlung verteilt gehaltener Textinformation in strukturierten Dokumenten die Grundlage für die integrierte Suche in den verteilten Fakten- und Textdatenbeständen der GESIS bildet.
* Darüber hinaus sollte der Benutzer gleichzeitig im Datenbestandskatalog des ZA und den Codebüchern recherchieren können, um den Informationsverlust, der durch die von den Fragetexten der Umfragen abstrahierenden Studienbeschreibungen entsteht, durch eine kombinierte Recherche in den Frage- und Antworttexten der Codebücher auszugleichen. Eine Recherche in den Codebüchern ist bislang jedoch nicht möglich. Möchte man z. B. die Beliebtheit einer Person wie Adenauer über die Jahre hinweg beobachten, so muß der Benutzer wissen, daß er in den Studienbeschreibungen nach dem abstrakteren Begriff "Kanzlerpräferenz" suchen muß, während eine Suche nach "Adenauer" auf Frage- und Antwortebene in den Codebüchern vermutlich eher zum Erfolg führen würde.
* Ferner muß eine integrierte Suche in Datenbestandskatalog, Codebüchern, FORIS und SOLIS ermöglicht werden, so daß zu einem bestimmten, vom Benutzer angegebenen Thema bei Bedarf neben empirischen Studien auch gleichzeitig Projekt- und Literaturnachweise vom System gefunden werden. Für die Realisierung eines derartigen Systems hat sich die Möglichkeit einer kombinierten Suche in SOLIS, FORIS und ALLBUS als vordringlich herauskristallisiert.
* Des weiteren bietet sich bei den Codebüchern des ZA ein ergebnisorientiertes Retrieval auf den Randauszählungen als Ausgangsbasis an. Befindet sich der Benutzer z. B. in einer Reihen-Studie über Rollenverhalten in eheähnlichen Gemeinschaften aus dem Jahre 1970, sollte er durch (numerische oder graphische) Manipulation eines Variablenwertes in der Statistik als Ergebnis eine Studie angezeigt bekommen, in der der angegebene Wert erreicht wird. Dadurch kann die langwierige intellektuelle Sichtung einer u. U. großen Studienmenge vermieden werden. Ein derartiges Verfahren ließe sich auch auf die bereits bei ZUMA entwickelten Systeme DISI und ZIS bzw. auf die ihnen zugrundeliegenden historischen Zeitreihen übertragen.
Im Rahmen des an der Universität Regensburg durchgeführten Projekts WING-IIR wurde für die Recherche in Faktendatenbanken das Retrievalwerkzeug WING-GRAPH (cf. Wolff 1995a) entworfen, das in der Lage ist, tabellarisch abgelegte Faktendaten graphisch zu visualisieren (z. B. als Liniendiagramm) und an dieser Ergebnisrepräsentation Manipulationen zuzulassen, die als neue Query-Formulierung an die Datenbank fungieren (d. i. graphisches Ergebnis-Retrieval). Für den erwähnten Teil der GESIS-Datenbestände hat sich dieses Modul als Ergebnis einer Anwendungsprüfung bereits als geeignet erwiesen, wobei sich eine Reihe interessanter Retrieval-Möglichkeiten ergaben, wie folgende Anwendungsszenarien verdeutlichen (cf. Wolff 1995b:6-7):
Beispiel 1: "Beliebtheit von Politikern, z. B. Adenauer"
Fragen nach der Beliebtheit von Politikern lassen sich in der Regel als Zeitreihe darstellen und sind damit einem Vergleich zugänglich. Konkret könnte das bedeuten, Zeitreihen zu einer bestimmten Fragestellung unabhängig von Zeitpunkt zu vergleichen. Damit ließen sich etwa Beliebtheitsprofile von Politkern vergleichen und kontrastieren.
Gegeben sei bspw. die aktuelle Beliebtheitskurve von Rudolf Scharping; eine vergleichende Fragestellung könnte auf der Basis dieses Profils ähnliche (bessere, schlechtere etc.) Profile recherchieren und anschließend durch die Bestimmung des jeweiligen Zeitkontextes weitergehende Interpretationsmöglichkeiten eröffnen. Natürlich kann bei ausreichend umfangreicher Datenbasis der Zeitbezug auch absolut gesetzt werden, so daß man den Vergleich der Beliebtheitsprofile von Politikern im je identischen Vergleichszeitraum erhält.
Beispiel 2: "Wann lag zum ersten Mal der Anteil der im Haushalt mithelfenden Männer über 50%"
Das Beispiel impliziert nicht unmittelbar eine graphische Retrievalfunktion, da es intuitiv zunächst nahe liegt, die entsprechenden Daten als eine Zeitreihe darzustellen bzw. in ein Diagramm einzutragen. Wie schon bei voranstehendem "Politikerbeispiel" ergibt sich der Übergang zu einer graphischen Recherche erst aus einer vergleichenden Fragestellung, d. h. nicht aus der Frage nach dem Wann an sich, sondern an der möglicherweise nach Beantwortung dieses Informationsbedürfnisses auftretenden Folgefrage, wie z. B. welche vergleichbaren zeitgebundenen Entwicklungen lassen sich hierzu ermitteln?" "Gibt es dazu radikal unterschiedliche Entwicklungen". In beiden Folgefragen wäre es angesichts der umfangreichen Datenbestände in der Allbus-Erhebungen unerläßlich, eine Domänenbegrenzung einzuführen, d. h. recherchiert werden dürfte nur nach den Fragestellungen, die mit der Ausgangsfrage zusammenhängen oder zwischen denen eine interessante Korrelation vermutet wird.[2]
* Die Integrationsmöglichkeit weiterer GESIS-Datenbestände (Skalen, Soziale Indikatoren, Osteuropa-Datenbank) muß geprüft werden.
Für all diese Datenbestände bzw. für ihre Gesamtheit ist eine Entscheidung über die zu wählende Erschließungs- und Retrievalmethode zu treffen, die wesentlichen Einfluß auf die Güte des Gesamtsystems haben wird.
Gerade in punkto Volltextdatenbanken konkurrieren schon seit langem computerlinguistische und statistische Techniken, ohne daß Erkenntnisse darüber bestehen, welches Verfahren sich für welche Domäne, d. h. Textsorte bzw. für welches Informationsbedürfnis am besten eignet. Bei den klassischen Deskriptorensystemen mit Boolescher Algebra als Abfrageoperatoren sind sehr exakte Anfragen mit exakten Ergebnismengen möglich, wobei allerdings das Problem besteht, daß sie aufgrund der harten Suchlogik alle Dokumente des Rechercheergebnisses gleich behandeln und daher eine Ergebnismenge produzieren, die in sich nicht strukturiert ist. Statistische Verfahren dagegen sind in der Lage, differenziertere Relationen, z. B. Ähnlichkeiten zwischen Dokumenten herzustellen. Allerdings sind diese Verfahren bei einem spezifischen Informationswunsch zu ungenau.
Es stellt sich daher die Frage, ob nicht gerade eine Kombination der beiden Methoden bzw. ihr kontextsensitives Einsetzen je nach Benutzerprofil, Informationsbedürfnis, Textsorte u. ä. einen Qualitätsgewinn der Rechercheergebnisse bringt. Daher müssen diese Ansätze bzw. deren Ausprägungen anhand verschiedener kommerzieller (QSearch, ISYS u. ä.) oder auch wissenschaftlicher Systeme getestet und evaluiert werden, was auf der Basis der SOLIS- und FORIS-Datenbanken erfolgen wird.
Über diese Grundproblematik einer virtuellen Integration von Text- und Faktendaten hinaus muß das Sonderproblem der Vagheit von Benutzeranforderungen bei der Informationssuche mit Hilfe statistischer oder computerlinguistischer Verfahren des Information Retrieval in Angriff genommen werden. Dieses Problem spiegelt sich insbesondere in folgenden Bereichen wider:
Die in Kap. 7.2.1 beschriebene Grundfunktionalität der einfachen Verknüpfung von Datenbeständen, indem das System eine bloße Übertragung der Recherchelogik, d. h. der aktuellen Suchformulierung von einem Datenbestand auf einen anderen vornimmt, birgt das grundsätzliche Problem, das als Rechercheergebnis u. U. große Mengen von Dokumenten aus unterschiedlichen Datenbeständen ungefiltert nebeneinander gestellt und nicht untereinander in Beziehung gebracht werden. Sucht der Benutzer bspw. Informationen zu einer bestimmten Person der aktuellen Forschungslandschaft, so bekommt er als Ergebnis die von dieser Person publizierten Literatur und durchgeführten Forschungsvorhaben oder Studien. Beide Kategorien stünden dann aber in einem wie in Kap. 7.2.1 beschriebenen Grundsystem isoliert nebeneinander, ohne daß die Relationen untereinander präsentiert werden könnten (z. B. Welche Literatur bezieht sich auf welche Studie des Autors? Welche Literatur behandelt das in einer Studie X empirisch untersuchte Grundthema theoretisch? u. ä.). Um eine integrative Sicht auf die GESIS-Daten zu gewährleisten, muß ein integriertes Informationssystem der GESIS daher in der Lage sein, zu ausgewählten Dokumenten eines Ergebnis-Sets inhaltlich ähnliche Dokumente (aus demselben Set oder aus anderen Datenbeständen) zu präsentieren, damit der Benutzer z. B. zu einer laufenden Studie Projekte oder Literatur zum Thema finden kann.
Darüber hinaus kann das Problem entstehen, daß ein und derselbe Suchbegriff aufgrund der möglicherweise unterschiedlichen inhaltlichen Strukturierung bzw. unterschiedlichen Verschlagwortung in den einzelnen Datenbeständen unterschiedlich gut greift. Dies wird deutlich, wenn man sich bspw. die verschiedenen Abstraktionsebenen von Studienbeschreibungen und Codebüchern vor Augen hält, bei denen eine Suche zum gleichen Thema einmal konkret ("Adenauer"), im anderen Fall aber nur abstrakt ("Kanzlerpräferenz") erfolgreich verläuft. Bei der Fragebogen-Vercodung ergibt sich eine ähnliche Problematik hinsichtlich der Abstrahierung der Items von den konkreten Frageformulierungen, wo es i.d.R. keine linguistische Entsprechung zwischen dem Text einer Suggestivfrage und den der Frage zugeordneten Items gibt (s. z. B. `Todessehnsucht von Jugendlichen'). Ein integriertes Informationssystem muß daher durch eine Komponente angereichert werden, die durch eine kontextsensitive Analyse von Thesaurus- bzw. Verschlagwortungsstrukturen die Relevanz von Dokumenten (Umfragen, Literatur- oder Projektnachweise) für eine bestimmte Fragestellung bestimmen kann.
Des weiteren bieten die Datenbestände der GESIS über die klassischen, explizit dokumentierten GESIS-Datentypen (Literatur, Projekte, Umfragen, Skalen, Soziale Indikatoren) hinaus viele Ansatzpunkte für Aggregationen dieser Basis-Informationseinheiten zu Meta-Objekten. Typische Beispiele hierfür sind Beschreibungen sozialwissenschaftlicher Institutionen, Konferenzen, Personen, Zeitschriften, Themen etc., die sich aus in den Basis-Dokumenten enthaltenen und in der Regel auf verschiedene Datenbestände sich verteilenden Einzelinformationen zusammensetzen. Da bisher nur nach den oben genannten Dokumentarten recherchiert werden kann, müssen hier Modellierungen implementiert werden, die solche virtuellen Dokumente generieren und dem Benutzer ebenfalls als suchbare Informationsbestandteile eines GESIS-Informationssystems zur Verfügung stellen. So sollte es z. B. möglich sein, daß das System dem Benutzer bei Bedarf (z. B. auf Anforderung oder bei Voreinstellung automatisch) zu einem Thema auch eine (einschlägige) Institution mit einer Beschreibung ihres Forschungsschwerpunktes, ihrer Publikationen und Projekte u. a. m. präsentiert.
Ein weiterer Anwendungsfall, der in den Bereich der Aggregierung von Information fällt, betrifft die Vergleichbarkeit von Skalen in verschiedenen Studien hinsichtlich der Anfrage eines Benutzers. Hier sollte ein Verfahren entwickelt werden, daß unterschiedliche Skalen in den Studien (z. B. 3er-Skala in der einen und 5er-Skala in einer anderen Studie) hinsichtlich der Benutzervorstellung von einer Skala (z. B. 4er-Skala) auf ihre Ähnlichkeit prüft und ggf. durch eine deduktive Aggregierung vergleichbar macht (z. B. `sehr gut' und `gut' wird zu `gut' aggregiert). In diesem Zusammenhang sollte auch das Problem der konsistenten Vergabe von Variablennamen für die Umfragedaten gelöst werden. Es hat sich gezeigt, daß die Einheitlichkeit der Variablen-Label bei gleichartigen Fragestellungen für die Vergleichbarkeit insbesondere von Reihenstudien von großer Bedeutung ist. Hierfür sollte ein Komponente entwickelt werden, die den Inhalt der Fragetexte neu zu archivierender Studien mit den Frageformulierungen bereits vorhandener Studien vergleicht und bei einer semantischen Entsprechung derselben den Variablennamen der älteren Studie vorschlägt.
Über diese Aggregierungsformen hinaus sollte die Recherche durch den Einsatz intelligenter Komponenten, wie z. B. das am IZ entwickelte System AKCESS, verbessert werden, d. h. durch Recherchemodelle, die auf die Besonderheiten der speziellen Datenstrukturen der GESIS-Datenbanken und die Recherchebedürfnisse und -strategien der Informationsvermittler abgestimmt sind und daher über die Aussagekraft herkömmlicher Retrievalmodelle weit hinausgehen. Der in AKCESS realisierte Ansatz interpretiert z. B. komplexe wissenschaftsstrukturelle und thematische Zusammenhänge in Datenbanken unter Vagheitsbedingungen und kommt auf dieser Grundlage nicht nur zu differenzierten Aussagen über die Relevanz von Dokumenten und Wissenschaftlern für die Fragestellung eines Benutzers, sondern auch über die Struktur einer Forschungslandschaft (cf. Mutschke 1994, Mutschke 1995).
Für die im Rahmen dieses Projekts entwickelten Komponenten ist eine nach softwareergonomischen Kriterien ausgerichtete konsistente Oberflächengestaltung erforderlich. Die Vielzahl und Unterschiedlichkeit der bislang in den GESIS-Instituten eingesetzten Benutzerschnittstellen (maskenorientierte Systeme wie die FORIS und SOLIS-Oberflächen, Hypertext-Systeme wie DISI, sonstige Windows-Applikationen wie ISYS usw.) sind nicht zuletzt im Rahmen eines integrierten Informationssystems nicht mehr tragbar, da es beim Shift von einer Komponente auf eine andere zu unnötigen Reibungsverlusten bzw. zu Fehlbedienungen aufgrund falscher Analogiebildung kommt.
Im Rahmen des an der Universität Regensburg durchgeführten Projekts WING-IIR konnten aufgrund intensiver Benutzertests umfangreiche Erkenntnisse über eine benutzeradäquate multimodale Oberflächengestaltung für Fakten- und Textdatenbanken gesammelt werden. Das aus dieser Arbeit resultierende WOB-Modell (cf. Krause 1994), eine Theorie zur Entwicklung von Oberflächen, die bereits mehrfach bei kommerziellen Anwendungen die Basis bildete, soll daher zunächst als mögliches Oberflächenkonzept geprüft werden. Es bietet neben seiner empirischen Evaluierung und der modularen Ausrichtung, die eine leichte Erweiterung durch zusätzliche Werkzeuge erlaubt, u. a. den Vorteil, daß es bei gleichbleibender Gestaltung doppelt (d. h. sowohl als Formular- als auch als Werkzeugkastensystem) interpretiert werden kann und somit für Anfänger und für Experten bzw. fortgeschrittene Benutzer gleichermaßen angemessen ist. Damit kann für das breite Spektrum der GESIS-Nutzer, angefangen vom Endverbraucher der CD-ROM-Dienste bis hin zu den hoch spezialisierten Rechercheuren in der GESIS selbst ein einheitliches System zur Verfügung gestellt werden, was Mehrfachentwicklungen überflüssig macht. Auch für eine Präsentation der GESIS-Datenbestände im Internet wird zur Zeit die Anwendbarkeit des WOB-Modells geprüft (cf. GESIS-Arbeitsgruppe "Internet" 1995).
[2] Ein Problem dürfte hier sicher sein, daß sich gerade interpretativ interessante Korrelationen gerade nicht ex ante bestimmen lassen oder zunächst absurd anmuten mögen. Daher sollte eine Domäneneingrenzung immer durch den Benutzer modifizierbar sein.