Daten, Archive und Analysen: Was ist Data Analytics?

Daten, Archive und Analysen: Was ist Data Analytics?

Mit der Sammlung von Daten, dem umgangssprachlichen Gold unseres Zeitalters, haben wir uns schon oft befasst. Die Unmenge an Datenmaterial, die infolge der Digitalisierung unter anderem der industriellen Produktion und Teilen der menschlichen Kommunikation zur Verfügung steht, eröffnet unserer Gegenwart völlig neue Wege und Tiefen der Analyse. Kurzum erlauben es die Expansivität moderner Sensorik und die Steigerung der Rechenleistung und Verarbeitungskapazitäten, große Mengen an Informationen aufzunehmen, zu ordnen und Erkenntnisse aus den gesammelten Daten zu gewinnen.

Mit dieser Entwicklung erlangt der spezifische Forschungsbereich der Data Analytics immer mehr an Bedeutung. Hierbei geht es um die Werkzeuge, die Technologien und Prozesse, mit deren Hilfe Muster, Verläufe und Problemlösungen gestützt auf ein Konvolut an Daten ermittelt werden können. Neben der eigentlichen analytischen Auswertung ist die Sicherung der Qualität der Datensätze und eine effiziente Archivverwaltung für die weiteren Schritte elementar.

Können elektrische Schafe halluzinieren?

Mit der Verbreitung KI-gestützter Technologien traten Phänomene in den Fokus der Öffentlichkeit, die der Data Analytics thematisch nahestehen: Infrage steht vereinfacht formuliert, ob zum Beispiel Chat GPT lügen kann. Bei manchen Anfragen kam es zu Ausgaben, die schlicht falsch waren, unter anderem ganz offensichtlicher Fehlurteile wie die Anzahl bestimmter Buchstaben in einem Wort. Dieses Phänomen wurde als Halluzination beschrieben und erhielt einige Aufmerksamkeit: Die Ermittlung der Ursache der Fehlausgabe hatte das Problem der Komplexität des Programms, aber nicht nur der Architektur der künstlichen Intelligenz mit seinen Legionen an Knotenpunkten und Schichten, sondern auch in Hinsicht der Datenmengen und deren komplexer Verwaltung. Letzterer Aspekt zielt auf die Archivstrukturen und den Umgang mit den riesigen Datenmengen und -banken, die großen Sprachmodellen wie Chat GPT für den Trainingsprozess zugrunde liegen.

Neben der Frage, warum diese Fehler überhaupt aufkamen, war auch offen, an welchen Zeitpunkt sie entstanden. Die Programme selbst waren selbstredend nicht zur Ausgabe falscher Antworten angehalten, gleichwohl verlangt der Umgang mit der natürlichen Sprache und manche Formen der Anwendung eine gewisse Qualität der Kreativität, also der Dehnung und Übertragung, die die Programme leisten müssen. Zum Beispiel bei dem Wunsch, den dritten Akt von Romeo und Julia in der Sprache modernen Ostküsten-HipHops zu reformulieren – ein solches Werk existiert bislang nicht, das Modell muss also selbst kreativ werden um diese Anfrage zu beantworten. Es werden große Anstrengungen unternommen, die Anzahl der Halluzinationen von Modellen zu minimieren, was auch die Relevanz zeigt, wie Daten verwertet und verarbeitet, Datensätze gereinigt oder auch korrumpierte Daten aussortiert oder gerettet werden. Und weiter, wie komplexe Technologien mit einem Gros an Datensätzen interagieren. Und hier setzt die Data Analytics an.

Was ist Data Analytics?

Die Data Analytics befasst sich mit der Analyse von Daten und deren Auswertung zu unterschiedlichen Zwecken. Sie ist ein multidisziplinäres Forschungsfeld zwischen der Informatik, der Mathematik und der Statistik sowie weiterer Bereiche, die produktiv verknüpft werden. Generell lässt sich die Data Analytics in vier Ansätze unterteilen: Die deskriptive Analyse versucht zu beschreiben, welche Veränderungen bereits geschehen sind. Dagegen zielt die diagnostische Analytik auf eine Erklärung, warum etwas wie passiert ist. Die letzten beiden Zugänge schlagen eine andere Richtung ein: Aus den Daten Prognosen über zukünftige Entwicklungen abzuleiten ist das Ziel der prädiktiven Analysen. Diese Prognose wird im Falle der präskriptiven Analytik noch durch die optimale Reaktion ergänzt. Die unterschiedlichen Ansätze verfolgen nicht nur verschiedene Ziele, sie gehen auch anders mit den Daten um und haben differenzierte Ansprüche an die Daten.

Seit gut zwei Jahren hat Constantin Pohl die Professur für „Data Analytics“ an der Fakultät für Informatik der Hochschule Schmalkalden inne und nutzt die Gelegenheit seiner Antrittsvorlesung, ein Licht auf verschiedene Facetten seiner Forschung und seiner Lehre zu werfen. Bereits in seiner Dissertation befasste er sich mit der Frage, wie sich moderne Hardware zur Beschleunigung von Datenbank-Anfragen optimal nutzen ließe. Anders formuliert war das Thema, wie Datenverwaltungen strukturiert und organisiert sein müssen, um Ressourcen und Kapazitäten bedarfsgerecht zu nutzen und Suchanfragen effizient zu verarbeiten. Die Datenmengen auf Servern nehmen einerseits beständig zu und macht Suchvorgänge aufwändiger und langsamer, zugleich erlauben die vielen Kerne moderner Prozessoren über das Multithreading parallele Verarbeitungen. So gilt es, Managementsystem für Datenbanken und Datenströme zu entwickeln, die den neuen Anforderungen gerecht werden und zudem die technischen Möglichkeiten optimal nutzen.

Öl-Druck und Reparaturzyklen

In einem zurückliegenden Forschungsprojekt widmete sich Constantin Pohl der Frage, wie KI-Modelle für die Wartung von industriellen Anlagen und Maschinen wie einem Druckluftkompressor genutzt werden können. Das Ziel ist, Wartungsarbeiten an Verschleißteilen nicht mehr an fixen Zeitpunkten oder nach Werkzeugausfällen anzusetzen, sondern vorausschauend anhand konkreter und in Echtzeit erhobener Daten der laufenden Maschinen. Um diese Optimierung zu realisieren ist eine Prognose wichtig: Anhand von Sensordaten sollen Aussagen über die Zukunft getroffen werden, zum Beispiel das ein Filter noch 22 Stunden halten wird, bevor er gewechselt werden sollte. Hieran ließen sich dann entsprechende Reparaturmaßnahmen orientieren.

Die Ausgangsbasis sind wieder verschiedene Sensoren, welche die Maschinen anhand unterschiedlicher Parameter vermessen. In dem konkreten Projekt wurden 26 Merkmale sensorisch erfasst, neben der Temperatur und der Ölqualität auch der Differenzdruck zwischen verschiedenen Filtern. Bevor mit diesen Daten aber Aussagen getroffen werden können, mussten die Algorithmen anhand der Ausfälle der Kompressoren trainiert werden. In Regressionsmodellen wurden unterschiedliche vorverarbeitete und ausgewählte Datenmengen genutzt, um Ausfälle vorherzusagen. Wichtig ist dabei zu verstehen, dass es hier nicht um eine Größe wie die Temperatur ging, um diese Prognose zu machen: Die Modelle berücksichtigen viele Daten und ihre Verläufe, auch über eine längere Zeit, und verknüpften diese zugleich. Diese komplexen Berechnungen sind die spezifischen Leistungen der KI-Modelle, die zur Erkennung von Mustern und Strukturen sowie Abweichungen geeignet sind.

Am Ende des Projektes ließ sich die Prognostizierbarkeit grundsätzlich umsetzen. Mit einem entwickelten Ölsensor und der Nutzung der regulären Sensorik konnten die fehlerhaften Vorhersagen auf 0,09% reduziert werden. Auch die maximalen Abweichungen waren bei einer Gesamtzahl 158.000 Vorhersagen nur in einem Fall bei sechs Tagen und ansonsten bei einem Tag. Der entscheidende Faktor für die erfolgreiche Ermittlung und Prognose ist der Ölsensor.

Datenströme

Neben dieser Thematik befasst sich Professor Pohl auch mit Fragen des Stream Processing: In der Datenverarbeitung lassen sich zwei Ansätze unterscheiden, die sich für verschiedene Anwendungen und Ziele eignen. Der klassische Weg ist die Paketlösung: In einem bestimmten Zeitraum werden Daten erfasst und dann als Block archiviert. Im Anschluss können diese Daten verarbeitet und ausgewertet werden. Offensichtlich ist hierbei die große Latenz, also die Zeitspanne, die zwischen der Messung und den Ergebnissen einer Auswertung steht. Das Stream Processing zielt dagegen auf die Auswertung der Datenströme in Echtzeit, wobei durch diesen Fokus andere Imperative der Verarbeitung wichtig werden.

Die Analyse von Datenströmen steht vor der Herausforderung, eine permanente Aufnahme und Verarbeitung zu gewährleisten. Die Auslastung muss so gestaltet werden, dass durch die Interaktion verschiedener Komponenten keine Flaschenhälse oder Stausituationen entstehen. Kurzum geht es darum, effiziente Strukturen zu etablieren, die eine möglichst permanente und effiziente Verteilung und Verarbeitung erlauben und die Kapazitäten entsprechend nutzen.

Constantin Pohl befasst sich mit der Entwicklung und Erprobung von Stream Processing Engines. Im konkreten Fall ging es um die Vorhersage des Zielhafens und der Ankunftszeit. Die pendelnden Schiffe geben während ihren Reisen permanent Informationen weiter, zum Beispiel über ihre Position, ihre Geschwindigkeit und den Schiffstyp, die in einem komplexen Modell für Vorsagen ihrer Zielhäfen genutzt werden können. Kurzum bietet sich so die Möglichkeit, über eine Einschätzung einer komplexen Sachlage mit vielen Akteuren und zu beachtenden Parametern Strategien der Optimierung der Zielhäfen zu entwickeln.

Fußstapfen

Constantin Pohl hat bislang noch eine Juniorprofessur an der Hochschule Schmalkalden, die im Rahmen des bundesweiten Projektes „FH-Personal“ geschaffen wurde. Mit seiner Berufung wurde die Professur von Martin Golz zu einer Schwerpunktprofessur, die es diesem erlaubt, das Lehrdeputat zu senken und sich vermehrt der Forschung zu widmen.

Professor Pohl kann seine Arbeit in einem laufenden Lehr- und Forschungsbetrieb aufnehmen und den Lehrstuhl intensiv kennenlernen. Ziel ist es, die Reibungsverluste zu minimieren und durch geteilte Wege strukturelle Kontinuitäten zu etablieren. Er unterrichtet neben Grundlagen der Daten- und Wissensverarbeitung auch Deep Learning Architekturen und Wissensentdeckung in Datenbanken. Als Mitglied im Prüfungsausschuss der Fakultät Informatik widmet er sich gemeinsam mit den anderen Mitgliedern den Problemen der Studierenden in Prüfungsangelegenheiten. Auch am Hochschulinformationstag und dem Absolvententreffen stellte er sich und seine Forschung dem interessierten Publikum vor.

Der 3.E-Science Day an der Hochschule Schmalkalden

Der 3.E-Science Day an der Hochschule Schmalkalden

Zum nunmehr dritten Mal wurde von der Fakultät der Elektrotechnik zum E-Science Day geladen. Ziel dieser Veranstaltung ist es zunächst, einen Überblick über die Forschungsaktivitäten an der Fakultät, also über unterschiedliche aktuelle Themen und Projekte, zu geben. Zudem werden Kooperationspartner aus der Wirtschaft und von wissenschaftlichen Institutionen eingeladen und können sich vorstellen. Ferner besteht der Zweck des E-Science Days darin, die Öffentlichkeit von der Schmalkalder Stadtgesellschaft bis hin zu jungen Menschen, die gerade auf der Suche nach einem passenden Studiengang sind, aufmerksam und neugierig auf die Forschungsthemen und -vorhaben zu machen.

Messstationen, Künstliche Intelligenz und Computerchips

Nach der Begrüßung durch die Professoren Roy Knechtel und Silvio Bachmann im Namen der Fakultät Elektrotechnik wurde der erste Vortrag von Professor  Martin Schreivogel gehalten, der an der HSM die Professur für die Grundlagen der Elektrotechnik innehat. Dieser nutzte die Gelegenheit nicht nur dazu, kurz in das Thema der Gassensorik einzuführen, sondern auch, ein Projekt zur Luftgütevermessung via kompakter Messboxen vorzustellen. Das zu lösende Problem war die Ermittlung der Luftgüte in Innenstädten: Anstelle von punktuellen Messungen ist es für eine Beurteilung zweckmäßiger, über viele, im Stadtraum verteilte Messstationen ein detailliertes und dynamisches Bild der Verteilung zu erhalten, also die Luftströme und die Effekte der städtischen Architektur mit in Betracht zu ziehen. Hierfür waren ebenso viele technische Herausforderungen der Sensorik insbesondere hinsichtlich der Kompaktheit der Geräte sowie die Kosteneffizienz zu meistern, die eine Vielzahl solcher Stationen erst möglich macht. Zudem umriss Martin Schreivogel ein aktuelles Vorhaben, das in der Optimierung bereits laufender Wasserstoffanlagen besteht. Eine der zentralen Aufgabe der Energiewende ist die Speicherung und der Transport von Energie, und eine Lösung dafür ist die Transformation in Wasserstoff. Die Forschungsfrage ist nun, wie sich die Prozesse der Elektrolyse unter Realbedingungen optimieren lassen.

Im Anschluss gaben Professorin Maria Schweigel, Inhaberin der Professur für autonome Systeme, und Lisa Schneeweiß einen Einblick in den aktuellen Forschungsstand des Projektes BauKIRo. Dieses Forschungsvorhaben findet in Zusammenarbeit mit dem Lehrstuhl FAPS der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) über eine industrielle Gemeinschaftsforschung mit dem Deutschen Beton- und Bautechnik-Verein E.V. (DBV) statt und wird vom BMWK gefördert. Die Idee hinter dem Projekt ist digitale Herstellung von Bauplänen, für deren Vermessung nicht nur Drohnen, sondern auch Applikationen genutzt werden, die auf künstliche Intelligenz zurückgreifen. Ein Zwischenergebnis besteht in der Notwendigkeit, die Drohnen, die den Baufortschritt prüfen und dokumentieren sollen, auf die spezifische Umgebung sich im Bau befindlicher Gebäude anzupassen. Hierbei geht es zum Beispiel um die Gefahr, die von herumhängenden Kabeln verursacht werden. Ein anderes Problem ist die Datenverarbeitung der Bilder, wodurch fehlerhafte Punktwolken entstehen können. Somit hat die Forschung neue Aufgaben, ihren Ansatz anzupassen und zu optimieren.

Über das von der Carl-Zeiß-Stiftung geförderte Projekt „Material innovations for wafer-level packaging technologies“ informierte Professor Roy Knechtel, Inhaber der Professur für Autonome Intelligente Sensoren. Dieses Verfahren bietet die Möglichkeit, im Vergleich zur klassischen Herstellung kleinere und kosteneffizientere integrierte Halbleiterbauelemente herstellen zu können. Üblicherweise werden die dünnen Siliziumscheiben, die Wafer, zunächst getrennt und im Anschluss in einem komplexen Prozess mit einem Umgehäuse und elektrischen sowie Montageanschlüssen versehen. Im „wafer-level packaging“-Verfahren indes werden die Komponenten schon auf dem Wafer selbst aufgebracht und eingehaust. Durch diese 3D-Integration lassen sich noch kleinere, leistungsstarke Chips herstellen, wie sie zum Beispiel für Smartphones der neueren Generationen Verwendung finden. Ein anderes Beispiel eines solchen Chips sind die Infrarot-Sensoren der Smartwatch eines namhaften Herstellers. In dem Forschungsprojekt ergeben sich zugleich enge Kooperationsmöglichen mit der Materialwissenschaft und den technischen Möglichkeiten von 3D-Druck-Systemen.

Den Abschluss des ersten Blocks machte dann der Vortrag Norbert Greifzus vom Team der „Eingebetteten Diagnosesysteme (EDS)“. Er stellte eine Kooperation zwischen der Elektrotechnik und dem Maschinenbau vor, bei dem es um den Einsatz künstlicher Intelligenz bei Verfahren des Spritzgusses geht. Kurzum können verschiedene Sensordaten und speziell trainierte Programme dabei helfen, fehlerhafte Teile zu prognostizieren und so rechtzeitige Eingriffe in die Fertigung vorzunehmen, um diesen Ausschuss zu vermeiden. Hier werden unter anderem Messungen von Temperatur und Druck verwandt und auf Basis der Verläufe vieler vorheriger Messungen bewertet. Wichtig ist hierbei zugleich, dass die Modelle der künstlichen Intelligenz das Zustandekommen ihrer Beurteilung transparent machen, um so letzter die Akzeptanz bei den Nutzenden zu erhöhen. Dies wäre zum Beispiel über eine graphische Ausgabe von Markierungen an Verlaufskurven der Temperatur oder des Drucks möglich.

Infrarotsensoren, Mikrostrukturen und 3D-Drucker

Der zweite Teil des E-Science-Days wurde mit einem online-Vortrag von Rachel Gleeson vom belgischen Unternehmen Melexis eingeläutet. Sie kooperiert in ihrer Forschung mit dem in Erfurt ansässigen Unternehmen X-FAB sowie mit Roy Knechtel. In ihrem Beitrag konturierte sie zunächst die Breite der Anwendungsmöglichkeiten von miniaturisierten Infrarotsensoren, denen über die Messung der thermischen Strahlung die präzise berührungslose und somit schnelle Ermittlung von Temperaturen möglich ist. Dieser Auffächerung zuvor ging ein Blick auf die Komplexität der Integration der Komponenten in eines Mikro-Elektro-Mechanischen Systems (MEMS) bei einer gleichzeitigen Minimierung des Platz- und Stromverbrauchs. Wichtig ist hierbei zu beachten, dass es unterschiedliche Infrarotsensoren für verschiedene Anwendungen gibt, zum Beispiel unterscheiden man Sensoren für punktuelle Messungen und bildgebende Sensorarrays. Je nach Anwendungsfeld unterscheiden sich auch die Ansprüche an Präzision: So nimmt sich die erforderte Exaktheit auf dem Gebiet medizinischer Anwendungen um einiges höher aus, als bei Produkten für Konsumenten wie zum Beispiel Fitnesstrackern oder Heimelektronik.

Die Infrarotsensoren finden in unserer Gegenwart bereits breite Verwendung: Zum einen in Geräten wie Smartphones und -watches, die so die Körpertemperatur ermitteln können. Damit ist die Health-Tech ein relevantes Anwendungsfeld, das noch an Bedeutung gewinnen wird. Ein zentraler Pluspunkt in diesem Bereich medizinischer Anwendungen ist, dass die Temperaturmessung ohne direkten Kontakt funktioniert. Andere Gebiete sind zum Beispiel die wärmesensorische Vermessung von Gebäuden, was unter anderem dem Auffinden von Stellen dient, an denen Wärme verloren geht. Ein Nebeneffekt der Vermessung über Infrarotsensoren ist, dass sie ihre Daten anonymisiert erheben, sind doch Personen detektier aber nicht identifizierbar. Dies macht die Sensoren auch für die Überwachung und Automation von Gebäuden nützlich, wie zum Beispiel bei der smarten Steuerung von Licht- oder Heizungsanlagen, die z.B. in Bürogebäuden Anwendung findet.

Stephanie Lippmann forscht an der Friedrich-Schiller-Universität Jena zu Themen der Materialwissenschaften und hat hier zurzeit eine Vertretungsprofessur für metallische Werkstoffe am Otto-Schott-Institut für Materialforschung inne. Grundsätzlich widmet sie sich Aspekten der Metallphysik, genauer thermodynamischen und kinetischen Prozessen bei mikroskopischen Strukturveränderungen der Werkstoffe während Zustandsänderungen, sogenannten Phasen­umwandlungen. Die Thermodynamik befasst sich zunächst als Teilgebiet der Physik mit Fragen der Umwandlung und Änderung von Energie innerhalb eines oder mehrerer Systeme.

Die Kinetik betrachtet die Zeitabhängigkeit, also die Geschwindigkeit, dieser Umwandlungsprozesse. Im Fokus von Stephanie Lippmanns Forschung wiederum stehen die mikrostrukturellen Prozesse in metallischen Legierungen bei besonders schnellen Phasenumwandlungen, also wenn z.B. eine Schmelze erstarrt, aber auch bei Festkörperphasenübergängen während rascher Wärmebehandlungen. Den Prozessen dieser „rapid phase tranformations“ im Material versucht sie mittels einer spezifischen Testanlage und unter besonderen Konditionen nachzugehen, die eine sehr schnelle Erhitzung und Abkühlung der Testobjekte bietet. Um diese Umwandlungsprozesse genauer zu verstehen, verwendet Stephanie Lippmann die thermo-kinetische Modellierung, mit dem Ziel, die Materialstruktur, das sogenannte Gefüge, gezielt anhand der Zusammensetzung und der Wärmebehandlung einstellen zu können. Über die Steuerung des Gefüges ist es schließlich möglich, die Eigenschaften einer Legierung für die gewünschte Anwendung zu optimieren. 

Für die Elektrotechnik ist diese Forschung der benachbarten Disziplin gerade deswegen so relevant, weil solche strukturellen Umwandlungsprozesse auch bei der Herstellung und Qualifizierung von mikroelektronischen Schaltkreisen auftreten. Ein grundlegenderes Verständnis hilft unter anderem auch die Ursachen von Mängeln im elektronischen Bauteil zu verstehen. Da in den zunehmend komplexeren, und weiter miniaturisierten Objekten die Anforderungen an die Reinheit und Zuverlässigkeit der verwendeten metallischen Komponenten immer weiter steigen, ist es hier zentral, voneinander zu lernen. Zu diesem Zweck wurde im Rahmen des bereits vorgestellten Projekts „Material innovations for wafer-level packaging technologies“ eine Kooperation zwischen Friedrich-Schiller-Universität Jena und der Hochschule Schmalkalden auf den Weg gebracht.

Den offiziellen Teil des E-Science-Day abrunden durfte Martin Hedges von der Neotech AMT GmbH aus Nürnberg, wobei die Abkürzung für Advanced Manufacturing Technologies for 3D Printed Electronics steht und sich das Unternehmen entsprechend vor allem im Bereich des 3D-Drucks von komplexen elektronischen Bauteilen einen Namen gemacht hat. Durch diese Expertise ergab sich auch die Kooperation mit der elektrotechnischen Fakultät und mit Roy Knechtel. Wie dieser schon in seiner einführenden Vorstellung klarmachte, ist eine Vision in der Elektrotechnik, ein Gerät zu haben, dass vollständige elektronische Bauteile wie Schaltungen herstellen kann. Die 3D-Drucker, die Neotech entwickelte, kommen diesem Ziel schon recht nahe.

Der 3D-Druck von elektronischen Bauteilen hat allen voran den Vorteil, ein schnelles und günstiges Prototypingverfahren  zu sein und zugleich eine Vielfalt an möglichen Formen zu gestatten. Hierbei kommt hinzu, dass die 3D-Drucker von Neotech verschiedene Verfahren des 3D-Drucks als Funktionen bieten und sich so die Anwendungsbreite durch die Kombination noch deutlich steigern lässt. Ein Beispiel der neuen Möglichkeiten war die Herstellung einer Glühbirne: Bei üblichen Glühbirnen sind neben den Materialien, die das Produkt bei der Herstellung bedarf, auch die Ressourcen einzupreisen, die das Recycling verlangt. Der 3D-Druck lässt es hier zu, beide Enden bereits im Design zu bedenken und so nachhaltige Lösungen zu ermöglichen.

Im kleineren Rahmen wurde im Anschluss in den Räumen der Fakultät Elektrotechnik die Einweihung eines solchen 3D-Druck-Systems feierlich begangen, an dem Forschenden nun den Möglichkeiten und Grenzen dieser Herstellungsverfahren nachgehen werden. Ziel ist es gemäß der Vision, eine rein additive Herstellungsweise zu entwickeln, die es erlaubt, ganze elektronische Bauteile wie Sensoren zu produzieren. Möglich machte dies eine Förderung von der Europäischen Union.