Vorgestellte Tools am Crash-Kurs für Zahnarztpraxen

Tool Besprochene Hauptfunktionen Webadresse Kosten (Free-Version)
Perplexity Echtzeit-Suchfunktionen mit KI-Algorithmen perplexity.ai Kostenlose Basisversion verfügbar
AnswerThis.io Gezielte Suche nach wissenschaftlicher Literatur answerthis.io Kostenloser Zugang mit eingeschränkten Funktionen
ChatGPT Analyse und Interpretation wissenschaftlicher Daten, Konzepte entwickeln, Brainstorming. openai.com/chatgpt Free-Version (GPT-3.5), kostenpflichtige Pro-Version (GPT-4)
Claude Erstellung von Statistiken und Grafiken zur Datenvisualisierung claude.ai Basisversion kostenlos, Premium-Optionen verfügbar
AnyGuard Dental Datenschutzkonforme ChatGPT-Lösung mit vielen praxisspezifischen Workflows https://dentronik.ch/anyguard-dental/ Ab 99.-/Mt.
NotebookLM Interaktive Chats und Audio-Zusammenfassungen notebooklm.google.com Kostenlos für Google-Nutzer
NapkinAI Grafische Darstellung von Ideen in Diagrammen, Mindmaps und Konzepten napkin.ai Kostenlose Testversion, kostenpflichtige Vollversion
Veed.io Erstellung und Bearbeitung von Lernvideos mit KI veed.io Free-Version mit Wasserzeichen, kostenpflichtige Optionen
Gamma.app Erstellung ansprechender Präsentationen mit KI gamma.app Kostenlose Basisversion, Premium-Funktionen kostenpflichtig

Copyright: Dr. Thomas Müller, Institut für angewandte Dentronik IAD GmbH

https://dentronik.ch

Wie verlässlich sind die grossen Sprachmodelle?

Der MMLU-Benchmark (Massive Multitask Language Understanding) ist ein umfassendes Bewertungssystem für große Sprachmodelle (LLMs), das deren Fähigkeiten in 57 Fachgebieten testet. Diese reichen von Mathematik und Informatik bis hin zu Geschichte, Recht und Ethik. Ziel ist es, die Breite des Weltwissens, die Problemlösungsfähigkeiten und die Generalisierungsfähigkeit der Modelle zu bewerten. Der Benchmark verwendet Multiple-Choice-Fragen, deren Schwierigkeitsgrad von Schulniveau bis hin zu Expertenniveau reicht. Die Leistung wird als Prozentsatz korrekt beantworteter Fragen gemessen, wobei der Durchschnitt aller Fächer die Gesamtnote ergibt.

Gruppe/Modell Leistung (%)
Zufallsergebnis 25%
Crowdworker ~34.5%
Menschliche Experten ~90%
LLMs:
GPT-4o ~88.7%
Llama 3.1 ~88.6%
Grok-2 ~87.5%
Claude3 Opus ~86.8%
Gemini 2.0 ~76.4%

Quelle: Perplexity

Die Modelle ChatGPT o1 und o3-mini-high sind beide fortschrittliche KI-Reasoning-Modelle, die sich durch ihre Fähigkeit auszeichnen, komplexe Aufgaben zu lösen, einschließlich medizinischer Fragestellungen. Hier ist eine detaillierte Analyse auf diese beiden Modelle mit Fokus auf ihre Leistung bei medizinischen Fragen:

Leistung im MMLU-Benchmark und medizinischen Kontext

Beide Modelle wurden anhand des MMLU-Benchmarks getestet, der ihre Fähigkeiten über eine Vielzahl von Fachgebieten, einschließlich Medizin, bewertet.

Vergleich der Modelle für medizinische Anwendungen

Kriterium ChatGPT o1 o3-mini-high
MMLU-Score (medizinisch) 92,3 % 86,9 %
Erklärungsniveau Sehr detailliert und präzise Prägnant, mit Fokus auf Effizienz
Geschwindigkeit Moderat (~30 Sekunden für komplexe Aufgaben) Langsamer (~60 Sekunden bei hoher Komplexität)7
Anwendungsbereiche Forschung, multidisziplinäre Diagnosen Echtzeit-Diagnosen, technische Analysen
Kosten-Effizienz Höherer Preis ($15/$60 pro Million Tokens) Günstiger ($1.10/$4.40 pro Million Tokens)7

Stärken der Modelle bei medizinischen Fragen

ChatGPT o1