Actuary's Last Exam - Benchmarking großer Sprachmodelle

  • 47 views

  • 0 comments

  • 0 favorites

Die Leistungsfähigkeit großer Sprachmodelle lässt sich mit bestehenden Benchmarks nur unzureichend für aktuarielles Arbeiten beurteilen, da diese fachliche Anforderungen kaum abbilden. Mit actubench wird ein domänenspezifisches Benchmarking vorgestellt, das auf einem mehrstufigen agentischen Workflow basiert: Ein Mehragentensystem aus spezialisierten LLM-Agenten generiert, verifiziert und klassifiziert automatisiert anspruchsvolle Prüfungsaufgaben aus dem IAA-Syllabus, von der Schlüsselwortextraktion über die Wissensbasis bis zur unabhängigen Qualitätsprüfung. Die so erzeugten Aufgaben dienen anschließend als Benchmark, anhand dessen verschiedene LLMs hinsichtlich fachlicher Kompetenz, Modellversionen und Kostenstrukturen verglichen werden. Die Ergebnisse zeigen, dass kein Modellanbieter durchgängig überlegen ist und kleine Modelle überraschend gut abschneiden können. Der Vortrag gibt praktische Empfehlungen für den gezielten Einsatz von LLMs, sowohl als Werkzeug als auch als autonome Agenten, in der Versicherungsmathematik und in Versicherungsunternehmen.

Tags:
Categories: ASTIN / NON-LIFE

0 Comments

There are no comments yet. Add a comment.