Zum Inhalt springen

Header

Audio
Benchmark-Tests sollen KIs ins Grübeln bringen
KI-Bild: Midjourney/SRF
abspielen. Laufzeit 47 Minuten 8 Sekunden.
Inhalt

KI-Benchmarks haben mehr Probleme als Lösungen

KI-Entwickler brüsten sich stolz mit den Zahlen, die ihre Systeme in Benchmark-Tests erreichen. Wir erklären, wie KI-Benchmarks funktionieren und fragen: Wie aussagekräftig sind solche Tests wirklich? Und kommt es am Ende vielleicht bloss auf die «Vibes» an?

Download

Der ganze Podcast im Überblick:

(00:01:28) Was sind eigentlich KI-Benchmark-Tests?

(00:06:23) Neun Probleme

(00:34:27) Drei Lösungen

Chatbot Arena:

https://chat.lmsys.org

SRF Geek Sofa bei Discord:

https://discord.gg/geeksofa

Mehr von «Digital Podcast»