Vorgestellte Tools am Crash-Kurs für Zahnarztpraxen

Tool	Besprochene Hauptfunktionen	Webadresse	Kosten (Free-Version)
Perplexity	Echtzeit-Suchfunktionen mit KI-Algorithmen	perplexity.ai	Kostenlose Basisversion verfügbar
AnswerThis.io	Gezielte Suche nach wissenschaftlicher Literatur	answerthis.io	Kostenloser Zugang mit eingeschränkten Funktionen
ChatGPT	Analyse und Interpretation wissenschaftlicher Daten, Konzepte entwickeln, Brainstorming.	openai.com/chatgpt	Free-Version (GPT-3.5), kostenpflichtige Pro-Version (GPT-4)
Claude	Erstellung von Statistiken und Grafiken zur Datenvisualisierung	claude.ai	Basisversion kostenlos, Premium-Optionen verfügbar
AnyGuard Dental	Datenschutzkonforme ChatGPT-Lösung mit vielen praxisspezifischen Workflows	https://dentronik.ch/anyguard-dental/	Ab 99.-/Mt.
NotebookLM	Interaktive Chats und Audio-Zusammenfassungen	notebooklm.google.com	Kostenlos für Google-Nutzer
NapkinAI	Grafische Darstellung von Ideen in Diagrammen, Mindmaps und Konzepten	napkin.ai	Kostenlose Testversion, kostenpflichtige Vollversion
Veed.io	Erstellung und Bearbeitung von Lernvideos mit KI	veed.io	Free-Version mit Wasserzeichen, kostenpflichtige Optionen
Gamma.app	Erstellung ansprechender Präsentationen mit KI	gamma.app	Kostenlose Basisversion, Premium-Funktionen kostenpflichtig

Wie verlässlich sind die grossen Sprachmodelle?

Der MMLU-Benchmark (Massive Multitask Language Understanding) ist ein umfassendes Bewertungssystem für große Sprachmodelle (LLMs), das deren Fähigkeiten in 57 Fachgebieten testet. Diese reichen von Mathematik und Informatik bis hin zu Geschichte, Recht und Ethik. Ziel ist es, die Breite des Weltwissens, die Problemlösungsfähigkeiten und die Generalisierungsfähigkeit der Modelle zu bewerten. Der Benchmark verwendet Multiple-Choice-Fragen, deren Schwierigkeitsgrad von Schulniveau bis hin zu Expertenniveau reicht. Die Leistung wird als Prozentsatz korrekt beantworteter Fragen gemessen, wobei der Durchschnitt aller Fächer die Gesamtnote ergibt.

Gruppe/Modell	Leistung (%)
Zufallsergebnis	25%
Crowdworker	~34.5%
Menschliche Experten	~90%
LLMs:
GPT-4o	~88.7%
Llama 3.1	~88.6%
Grok-2	~87.5%
Claude3 Opus	~86.8%
Gemini 2.0	~76.4%

Quelle: Perplexity

Die Modelle ChatGPT o1 und o3-mini-high sind beide fortschrittliche KI-Reasoning-Modelle, die sich durch ihre Fähigkeit auszeichnen, komplexe Aufgaben zu lösen, einschließlich medizinischer Fragestellungen. Hier ist eine detaillierte Analyse auf diese beiden Modelle mit Fokus auf ihre Leistung bei medizinischen Fragen:

Leistung im MMLU-Benchmark und medizinischen Kontext

Beide Modelle wurden anhand des MMLU-Benchmarks getestet, der ihre Fähigkeiten über eine Vielzahl von Fachgebieten, einschließlich Medizin, bewertet.

ChatGPT o1: Erreicht eine beeindruckende Punktzahl von 92,3 % im MMLU-Benchmark und zeigt außergewöhnliche Fähigkeiten in medizinischen Bereichen wie auch Biologie, Chemie und Physik. Es übertrifft GPT-4o in diesen Kategorien und ist besonders stark in der Analyse wissenschaftlicher und medizinischer Daten.
o3-mini-high: Erreicht im MMLU-Benchmark eine Punktzahl von 86,9 %, was etwas unterhalb von o1 liegt. Es ist jedoch optimiert für spezifische Reasoning-Aufgaben und bietet eine verbesserte Genauigkeit bei technischen und wissenschaftlichen Themen, einschließlich medizinischer Diagnosen und Behandlungsunterstützung3 7.

Vergleich der Modelle für medizinische Anwendungen

Kriterium	ChatGPT o1	o3-mini-high
MMLU-Score (medizinisch)	92,3 %	86,9 %
Erklärungsniveau	Sehr detailliert und präzise	Prägnant, mit Fokus auf Effizienz
Geschwindigkeit	Moderat (~30 Sekunden für komplexe Aufgaben)	Langsamer (~60 Sekunden bei hoher Komplexität)7
Anwendungsbereiche	Forschung, multidisziplinäre Diagnosen	Echtzeit-Diagnosen, technische Analysen
Kosten-Effizienz	Höherer Preis ($15/$60 pro Million Tokens)	Günstiger ($1.10/$4.40 pro Million Tokens)7

Wie verlässlich sind die grossen Sprachmodelle?

Leistung im MMLU-Benchmark und medizinischen Kontext

Vergleich der Modelle für medizinische Anwendungen

Stärken der Modelle bei medizinischen Fragen

ChatGPT o1