(dieser Blog-Beitrag erschien zuerst im Blog des Arbeitskreises FTI der DeGEval)
Manche Jahrestagungen von wissenschaftlichen Fachgesellschaften schaffen es ja durchaus in die überregionalen Medien, heute z.b. erschienen ein Beitrag in der Süddeutschen Zeitung zum Deutschen Historikertag. Diese Aufmerksamkeit ist der Jahrestagung der DeGEval bislang nicht vergönnt gewesen. Nun ist die DeGEval sicher nicht mit den deutschen Historikern zu vergleichen, sie ist ungleich weniger im Fächerkanon deutscher Universitäten verankert, auch der breiten Bevölkerung bis das Thema Evaluation vermutlich relativ unbekannt und auch egal. Andererseits ist die Tätigkeit von Evaluatorinnen und Evaluatoren möglicherweise deutlich praxisrelevante als die der deutschen Historikerinnen und Historiker. Grund genug, einen kurzen Rückblick auf die diesjährige Tagung unserer Fachgesellschaft zugeben und aus der Perspektive der Forschungs-, Technologie- und Innovationspolitik auf einigen der besonders relevanten Sessions zu schauen.
Manche Jahrestagungen von wissenschaftlichen Fachgesellschaften schaffen es ja durchaus in die überregionalen Medien, heute z.b. erschienen ein Beitrag in der Süddeutschen Zeitung zum Deutschen Historikertag. Diese Aufmerksamkeit ist der Jahrestagung der DeGEval bislang nicht vergönnt gewesen. Nun ist die DeGEval sicher nicht mit den deutschen Historikern zu vergleichen, sie ist ungleich weniger im Fächerkanon deutscher Universitäten verankert, auch der breiten Bevölkerung bis das Thema Evaluation vermutlich relativ unbekannt und auch egal. Andererseits ist die Tätigkeit von Evaluatorinnen und Evaluatoren möglicherweise deutlich praxisrelevante als die der deutschen Historikerinnen und Historiker. Grund genug, einen kurzen Rückblick auf die diesjährige Tagung unserer Fachgesellschaft zugeben und aus der Perspektive der Forschungs-, Technologie- und Innovationspolitik auf einigen der besonders relevanten Sessions zu schauen.
Das Motto der diesjährigen Jahrestagung der DeGEval war Wirkungsorientierung und Evaluation. Einerseits scheint dies fast schon eine überflüssige Differenzierung zu sein. Geht es nicht in allen Evaluation auch um Wirkung? Andererseits ist die Messung von Wirkung sicher eine der großen Herausforderungen der Evaluation. Gerade im Bereich von Technologie- und Innovationspolitik (aber nicht nur hier) ist die Wirkung nicht einfach zu messen. Zu viele unterschiedliche Faktoren beeinflussen, interne wie externe. Es geht also meist eher um die Zuschreibung als um die kausale Verknüpfung von Ursache und Wirkung, um Contribution statt Attribution. Auch ist der zeitliche Abstand zwischen Intervention und messbarer Wirkung meist zu lange für reale Evaluationen.
Wie auch in der Vergangenheit zahlten die Vorträge der Tagung allerdings auch dieses Jahr unterschiedlich klar auf das Oberthema ein. Natürlich ging es fast immer irgendwie um Wirkung, aber die spezifischen Herausforderung der Wirkungsanalyse wurden in den meisten Vorträgen nicht wirklich in den Mittelpunkt gerückt.
Hier nun einige Eindrücke von den Sessions, die ich selbst besucht habe:
Session A4 - Analyse komplexer Wirkungsketten von Gleichstellungsmaßnahmen im Innovationssystem
Die Session konzentrierte sich ausschließlich auf eine Zwischenbilanz des europäischen Projektes EFFORTI (“evaluation framework for promoting gender equality in Research and Innovation”). Ziel des Projektes ist es im Wesentlichen, eine Toolbox für Verantwortliche von genderorientierte Maßnahmen im Bereich FTI sowie für Evaluatorinnen und Evaluatoren in diesem Feld zu erarbeiten. Dabei stützt sich das Projekt auf das Konzept der Theorie-basierten Wirkungsanalyse, also die Modellierung von Wirkungsvermutungen und Einflussfaktoren und die Prüfung anhand geeigneter Indikatoren, inwieweit diese Wirkungsvermutung plausibel bzw. durch Daten bestätigt werden können.
Im zweiten Teil der Session wurden zwei Fallbeispiele präsentiert, die das Projektteam erarbeitet hat. Die eine Fallstudie richtete sich auf ein Programm zur Förderung von innovativen Unternehmensgründungen durch Frauen, die andere zielte auf FEMTech, ein Förderprogramm in Österreich, das Projekte fördert die Gender-Dimensionen in die Produkt- und Technologieentwicklung einbeziehen. Beide Fallstudien dienten vor allen Dingen als Trainingsmaterial, um Indikatoren und Zugänge für die Toolbox zusammenzutragen und auf ihre Nutzbarkeit zu prüfen. Einige der untersuchten Beispielen scheinen auch zuvor schon evaluiert worden zu sein, auch waren die Ressourcen für die Fallstudien selbst deutlich kleiner als die für “echte” Evaluation. Aufgrund der Präsentationen wurde nicht deutlich, ob in den Fallstudien tatsächlich neue Erhebungsinstrumente oder Indikatoren genutzt werden. Im Mittelpunkt stand der Zugang über das Wirkmodell. Dies ist für den Bereich FTI eine relativ verbreitete Praxis in Evaluationen. Grundsätzlich lässt sich fragen, ob der Ansatz der EU-Kommission, in solchen Projekten Toolboxen und Leitfäden zu erarbeiten, die dann hinterher in der Evaluationspraxis bzw Förderpraxis genutzt werden, tatsächlich Wirkung entfalten.
Session C1 - Wirkungsorientierte Instrumente im Kontext von Haushalten
In der Session wurden insgesamt drei Vorträge präsentiert. Zwei davon stellten deutsche bzw. österreichische Ansätze der wirkungsorientierten Haushaltssteuerung vor. Während der deutsche Vortrag, der sich auf sogenannte “Spending Reviews” konzentrierte (das BMF hat das Konzept auf seiner Internetseite sehr gut dokumentiert und sowohl Berichte der bisher schon durchgeführten spending reviews als auch Hintergrundartikel eingestellt), ein stark dialogorientiertes, sehr selektives Verfahren der Diskussion von Zielen, Zielerreichung und Konsequenzen für die Steuerung von Politikfeldern beschrieb, präsentierten die österreichischen Kollegen die Praxis der wirkungsorientierten Haushaltsführung und ihr Spannungsverhältnis zur langjährig gelebten Praxis der Evaluation von Einzelfördermaßnahmen.
In beiden Kontexten sind klassische Evaluationen eher eine von mehreren Quellen für die Bewertung von Zielerreichungen. Interessant ist die Betrachtung der Schnittstelle zwischen der Welt der Evaluation und und der Welt der politischen Bewertung von Politikfeldern, ihrer Ziele und der “Performanz”. Hier zeigten insbesondere die österreichischen Kollegen die manchmal doch größere Begriffsverwirrung, die zwischen Controlling, Monitoring und Evaluation, Wirkung und Zielerreichung aufscheint. Letztlich macht das österreichische Beispiel deutlich, wo die Grenzen eines stark auf KPI (key performance indicators) basierten Steuerungsansatzes liegen. Angesprochen wurde z.b. ein möglicherweise zu geringes Ambitionsniveau bei der Formulierung von Zielen. Ebenso thematisiert wurde, dass die Fokussierung auf wenige Indikatoren dazu führen kann, dass unterkomplexe Perspektiven gewählt werden, die wenig Raum für Lernerfahrung bieten. Der deutsche Vortrag zu den “Spending Reviews” veranschaulichte zwar sehr gut, wie der Prozess im Moment organisiert wird und wo auch die Vorteile eines stark diskursiven Ansatzes liegen. Allerdings konnte im Rahmen der Session nicht am konkreten Beispiel diskutiert werden, welche Indikatoren denn im Einzelfall für die Bewertung eines Politikfeldes herangezogen werden, wie mit unterschiedlichen Interpretationen und daraus resultierende konfligierenden Einschätzungen umgegangen wird und in welchem Verhältnis eine solche breitere Perspektive zu Einzelevaluation steht.
Der letzte der drei Vorträge kam aus dem Politikfeld Entwicklungszusammenarbeit. Die Vortragenden der GIZ stellten eine interne Studie vor, die die Nutzung von “experimental design” -Ansätzen untersuchte und dabei zu dem interessanten Schluss kam, dass auftraggeberseitig solche neuen Evaluationsansätze wenig nachgefragt werden, sondern dass die Initiative für diese Ansätze vielmehr bottom-up von einzelnen Verantwortlichen sowie Forschenden ausgeht.
D4: Wirkungszusammenhänge und Wirkungsmessungen in technologieaffinen Projekten und Maßnahmen
in dieser Session wurde zunächst eine kleine Studie für das BMWi aus dem letzten Jahr vorgestellt, in der es um die Analyse von Trends in der technologieoffenen Förderung ging. Der Fokus der Präsentation lag auf methodischen Fragen. In der Studie wurden zwei Ansätze gewählt, einerseits die Befragung von Gutachtern in den beiden untersuchten Programmen, andererseits eine auf "Text Mining" angelegte quantitative Analyse von Projektbeschreibungen. Die beiden Programme, es handelt sich um das Zentrale Innovationsprogramm Mittelstand - ZIM sowie die industrielle Gemeinschaftsforschung - IGF, sind zusammengenommen die größten innovationspolitischen Fördermaßnahmen für den deutschen Mittelstand. Sie erreichen also in der Breite kleine und mittelständische Unternehmen und müssten geeignet sein, um Technologietrends in dieser Zielgruppe frühzeitig zu identifizieren. Tatsächlich war es über die Gutachterbefragung möglich, relativ differenziert Trends zu beschreiben, allerdings war die zeitliche Einordnung nicht einfach, außerdem bewegten sich die Trends auf sehr unterschiedlicher Ebene. Während einerseits übergreifende Paradigmen wie Industrie 4.0 benannt wurden, ging es andererseits um sehr konkrete Einzellösungen. Das "Text Mining" wiederum war in der Lage, die Gesamtmenge von 5.000 Projektbeschreibungen automatisiert in thematische Cluster zuordnen und lieferte darüber hinaus Hinweise auf die Entstehung neuer Trends. Es zeigte sich allerdings auch, dass hier methodisch noch einiges zu entwickeln ist, bevor tatsächlich Trends und Trendverläufen gesichert beschrieben werden können.
Ein zweiter Vortrag bezog sich auf die Nutzung von sogenannten “technology readiness level” (TRL) -Skalen, um die standardisierte Einordnung von Projekten entlang des Forschungs- und Entwicklungszyklus vorzunehmen. Die Vortragenden beschrieben auf Grundlage mehrerer Evaluationsbeispiele die Herausforderungen, die sich dabei stellen. So ist es z.B. nicht immer eindeutig, ob in Verbundprojekten das TRL auf Teilvorhaben oder auf die Verbundebene selbst bezogen wird. Auch scheinen immer wieder Befragte Schwierigkeiten mit dem Verständnis von TRL allgemein zu haben. In manchen Branchen wie der Luftfahrtindustrie wird dieses System seit langem genutzt, in anderen Branchen ist es noch weitgehend unbekannt oder eignet sich auch nur sehr bedingt. Dies wäre z.b. für den Bereich Software anzunehmen. Auf der anderen Seite bietet ein standardisiertes Verfahren die Chance, über Programme hinweg Daten zu vergleichen und so zu einer querschnittliche Perspektive von Evaluationen beizutragen.
Ein dritter Vortrag aus Österreich stellte eine konkrete Evaluation in den Mittelpunkt, nämlich die Evaluation des Programms BRIDGE. Der Charme dieses Vortrags lag darin, dass aus Auftraggeber- wie Auftragnehmersicht die Entwicklung des Evaluationsdesigns und seine Umsetzung diskutiert wurde, und zwar in einem sehr lebendigen Dialog. So Bude rekonstruiert, wie die Erwartungen auf Auftraggeberseite, kausale Verbindungen von Ursache und Wirkung tatsächlich messbar zu machen, von Auftragnehmerseite zum Teil enttäuscht werden musste. Andere Absprachen betrafen die Machbarkeit konkreter methodischer Zugänge.
Insgesamt hat die DeGEval-Tagung wieder spannende Einblicke in die Evaluationspraxis des Politikfelds FTI ermöglicht. Die nächste Gelegenheit wird sich im November ergeben, wenn in Wien die Konferenz "Impact of Research and Innovation Policy at the Crossroads of Policy Design, Implementation and Evaluation".