Kooperation mit Institut für Digital Engineering: Studenten feilen an Amazon-Software zur Datenanalyse

In ihrer täglichen Arbeit folgen die Mitarbeiter von Amazon sogenannten Leadership-Prinzipien. Sie sind der Strang, an dem man bei Amazon gemeinsam zieht. Eines der Prinzipien lautet: „Invent and Simplify“ – also erfinden und vereinfachen. Dinge neu zu denken und auszuprobieren, um in der Zukunft schneller, effizienter oder genauer arbeiten zu können, ist ausdrücklich erwünscht. Und das nicht nur auf Führungsebene, sondern in allen Bereichen und auf allen Ebenen. Beleg dafür ist ein aktuelles Projekt von acht Studenten des Hasso-Plattner-Instituts (HPI) für Digital Engineering der Universität Potsdam.

Zwei Semester ihres sechssemestrigen Bachelorstudiums widmete die Gruppe einer Arbeit für Amazon, die ganz im Zeichen von Erfinden und Vereinfachen stand: „Im fünften und sechsten Semester hat es Tradition am HPI, dass alle Studenten in Gruppen ein Bachelor-Projekt bearbeiten“, erklärt Malte Barth, der Teil des achtköpfigen Teams war. Er und seine Mitstreiter gehörten dem 16. Jahrgang an, der am Hasso-Plattner-Institut an einem solchen Bachelor-Projekt teilnahm. „Das Tolle daran ist, dass jedes Projekt in Zusammenarbeit mit einem Industriepartner durchgeführt wird und somit ein Thema aus der Praxis aufgreift.“ Amazon war 2019 zum ersten Mal als Partner dabei: Am Lehrstuhl für Informationssysteme, unter der Leitung von Prof. Dr. Felix Naumann, verbesserten die Bachelor-Anwärter ein bestehendes Programm zum Test von Datenbanken – „Unit testing for data“ heißt das in der Fachsprache. Im Tagesgeschäft kommen bei Amazon täglich Unmengen an Daten zusammen, von unzähligen Sucheingaben bis hin zu Filmen, die angeschaut wurden. Diese Daten werden gesammelt und beispielsweise zur Verbesserung von Services eingesetzt.

„Dabei ist die Datenqualität von größter Wichtigkeit“, hebt Jan Westphal, einer der am Projekt beteiligten Studenten, hervor. „Es gibt Programme, deren Zweck ist es, genau diese Datenqualität zu überprüfen – daran haben wir gearbeitet.“ Amazon testet seine Datensätze unter anderem mit dem Programm Deequ, das als Open Source-Software kostenlos verfügbar ist. Doch die Software hatte einen Haken, bevor sich das Studenten-Team im August 2018 an die Arbeit machte: Bislang funktionierte sie nur bei Nutzung einer bestimmten Software für verteilte Datenverarbeitung, nicht aber bei Nutzung von Datenbanksystemen wie etwa Amazon Redshift. Dass man Deequ nicht zum Testen beider Varianten nutzen konnte, hing unter anderem mit Feinheiten in der Anfragesprache zusammen. Zwischen Oktober 2018 und Februar 2019 schrieb das Team also die entsprechenden Stellen im Code um.

Einmal in der Woche kamen die Studenten dazu mit ihrem Professor vom HPI zu Meetings zusammen, alle zwei Wochen präsentierten sie ihre Fortschritte in Terminen mit ihren Betreuern bei Amazon. Mit fortschreitender Dauer nahm die Intensität des Projekts sukzessive zu. Arbeiteten die Studenten zunächst an zwei Tagen in der Woche daran, widmeten sie sich im 6. Semester in Vollzeit ihrer Projektaufgabe. Ab März forschte und programmierte das Team schließlich direkt bei Amazon vor Ort – als Visiting Students. Federführend initiiert und betreut wurde das Projekt über den gesamten Zeitraum hinweg von Dr. Dustin Lange, Applied Science Manager bei Amazon Search, der selbst am HPI studiert und promoviert hatte. Er stand den Studenten auch während der zweiten Phase der Arbeit zur Seite.

„Nachdem wir die Kompatibilität von Deequ hergestellt hatten, war nur der erste Teil des Jobs erledigt“, erläutert Student Mats Pörschke. „Im zweiten Schritt haben wir noch ein Tool entwickelt, das mithilfe verschiedener wissenschaftlicher Methoden herausfindet, ob sich bestimmte Datensätze für Machine Learning nutzen lassen oder nicht.“ Dazu arbeiteten die Studenten mit statistischen Modellen, die sie an Trainings- sowie entsprechenden Produktionsdatensätzen testeten. „Diese Arbeit werden wir nach Abschluss des Projekts bei Amazon fortführen, um gemeinsam an einem Paper zu arbeiten“, blickt Mats Pörschke voraus.

Bis dahin schreiben alle acht Studenten an ihren Bachelorarbeiten – größtenteils über Spezialbereiche ihres gemeinsamen Projekts, das sie rundum positiv beurteilen. „Mich hat es vor allem gereizt, mit einem so großen und innovativen Industriepartner wie Amazon zusammenzuarbeiten“, sagt Malte Barth. Und sein Kommilitone Jan Westphal ergänzt: „Ich fand außerdem die Arbeit im Bereich Machine Learning faszinierend – das möchte ich später im Beruf mal machen.“ Dann vielleicht bei Amazon. Dass man sich hier mit innovativen Ansätzen und Konzepten rund um das Thema Erfinden und Vereinfachen schon früh einbringen kann, haben die Studenten jedenfalls über ein Jahr hinweg aus erster Hand erfahren können.

Foto von www.kayherschelmann.de

Translate »
error: