Dr.
Mehdi Ali

Lead Scientist Foundation Models NLP

Mehdi Ali ist Innovationsgruppenleiter für Foundation-Model-Forschung am Lamarr-Institut. Seine Gruppe spielt eine Schlüsselrolle in nationalen und internationalen Projekten zum Training von Large Language Models (LLMs), darunter OpenGPT-X, TrustLLM und EuroLingua-GPT.

Er promovierte in Informatik an der Universität Bonn mit einem Forschungsschwerpunkt auf Knowledge-Graph-Representation-Learning. Seine Arbeiten wurden in führenden Machine-Learning-Fachzeitschriften und -konferenzen wie JMLR, TPAMI und ISWC veröffentlicht. Seine Publikation „Improving Inductive Link Prediction Using Hyper-Relational Facts“ wurde auf der ISWC 2021 mit dem Best Paper Award ausgezeichnet. Darüber hinaus ist Mehdi Gründer von PyKEEN, einer Open-Source-Python-Bibliothek für das Lernen und Evaluieren von Knowledge-Graph-Embeddings. PyKEEN hat sich inzwischen zu einem community-getriebenen Projekt innerhalb der Knowledge-Graph-Representation-Learning-Community entwickelt.

Nach seiner Promotion verlagerte Mehdi seinen Fokus auf mehrsprachige Large Language Models und trug zu zentralen Forschungsbereichen wie hochwertigem multilingualem Datenfiltern, Tokenisierung, Pretraining, Instruction Tuning und Evaluation bei. Seine Arbeiten in diesen Bereichen wurden auf führenden Konferenzen wie EMNLP, NAACL und ECAI veröffentlicht. Zudem ist er einer der Kernforscher hinter Teuken-7B, einem mehrsprachigen Sprachmodell mit sieben Milliarden Parametern, das von Grund auf in allen 24 offiziellen europäischen Sprachen trainiert wurde. Teuken-7B wurde bereits über 100.000 Mal auf Hugging Face heruntergeladen.

Themen

Natural Language Processing