Actuary's Last Exam - Benchmarking großer Sprachmodelle - Media

47 views
0 comments
0 likes
0 favorites

DAVDGVFMGermany
586 media
uploaded May 11, 2026

Die Leistungsfähigkeit großer Sprachmodelle lässt sich mit bestehenden Benchmarks nur unzureichend für aktuarielles Arbeiten beurteilen, da diese fachliche Anforderungen kaum abbilden. Mit actubench wird ein domänenspezifisches Benchmarking vorgestellt, das auf einem mehrstufigen agentischen Workflow basiert: Ein Mehragentensystem aus spezialisierten LLM-Agenten generiert, verifiziert und klassifiziert automatisiert anspruchsvolle Prüfungsaufgaben aus dem IAA-Syllabus, von der Schlüsselwortextraktion über die Wissensbasis bis zur unabhängigen Qualitätsprüfung. Die so erzeugten Aufgaben dienen anschließend als Benchmark, anhand dessen verschiedene LLMs hinsichtlich fachlicher Kompetenz, Modellversionen und Kostenstrukturen verglichen werden. Die Ergebnisse zeigen, dass kein Modellanbieter durchgängig überlegen ist und kleine Modelle überraschend gut abschneiden können. Der Vortrag gibt praktische Empfehlungen für den gezielten Einsatz von LLMs, sowohl als Werkzeug als auch als autonome Agenten, in der Versicherungsmathematik und in Versicherungsunternehmen.

Tags:

Categories: ASTIN / NON-LIFE

0 Comments

There are no comments yet. Add a comment.

Categories

Livestreams

Media Actuary's Last Exam - Benchmarking großer Sprachmodelle

Actuary's Last Exam - Benchmarking großer Sprachmodelle

Starting at:

Permalink

QR Code

Recommend

Embed Code

Blank page embed

0 Comments