威尼斯赌博游戏_威尼斯赌博app-【官网】

图片

威尼斯赌博游戏_威尼斯赌博app-【官网】

图片

"Spot the mistake in ~50 million data points, cleverly"

Beim HIDA Datathon?am 5.-6. November 2020 wurden von Wissenschaftlern der Helmholtz Gemeinschaft fünf aktuelle Probleme im Bereich der Umweltwissenschaften gesammelt, deren L?sung vielversprechend für eine Anwendung von Methoden im Bereich "Data Science" war. Christian Werner, Maximilian Graf und Julius Polz nahmen an der Challenge "Spot the mistake in ~50 million data points, cleverly" teil und gewannen.


Die Challenge wurde vom UFZ in Leipzig gestellt. Es ging dabei um die SoilNet Bodenfeuchte und -temperatur Daten der TERENO Station "Hohes Holz", die seit einigen Jahren mit den am FZ Jülich entwickelten Sensoren erhoben werden. Diese Sensoren sind abh?ngig von einer manuellen Datenqualit?tskontrolle. Das Ziel der Challenge war es, diesen Prozess zu automatisieren, wenn m?glich ohne Benutzung der bereits gesammelten manuellen "Qualit?tsflags". Entsprechend wird ?unsupervised machine learning“ gegenüber den g?ngigen supervised Algorithmen bevorzugt, die für den Lernprozess die "Wahrheit" kennen müssen.

Die eingereichte L?sung des Problems bestand aus zwei Schlüsselkomponenten. Erstens die ?berführung der teils unorganisierten Daten in ein koh?rentes Zeitreihenformat, um generell maschinelles Lernen zu erm?glichen. Und zweitens die Anwendung von? Uniform Manifold Approximation and Projection?(UMAP) und anschliessendem "Clustering" der Daten in verschiedene Kategorien. Mit diesem Ansatz konnten innerhalb von zwei Tagen alle Anforderungen einer L?sung, inklusive einer robusten Validierung der Methode, erfüllt werden.

Die effiziente und effektive Kombination unterschiedlichen Expertenwissens erm?glichte die folgende vorgestellte end-to-end L?sung.

Beitrag startet bei 36:53 Minuten

?

Diese L?sung ist ein erster Schritt und bietet viel Optimierungspotential. Der Ansatz soll in Zukunft gemeinsam mit dem UFZ weiterverfolgt werden, da es sich für viele Anwendungen am IMK-IFU und?der Universit?t Augsburg anbietet. Unter dem Titel "Supervised and unsupervised machine-learning for automated quality control of environmental sensor data" wird ein weitgehend von Daten losgel?stes Projekt verstanden, das?auch als Beitrag bei der?diesj?hrigen EGU-Konferenz in der Session "Machine learning for earth system modelling" eingereicht wurde.

Suche