Zurück zur Übersicht
Episode #202. September 202463 Min.

#20 OpenAI o1: Das erste Reasoning-Modell – Ein neues Paradigma

OpenAI veröffentlicht o1 – ein Modell, das 'denkt' bevor es antwortet. Chain-of-Thought Reasoning wird zum Kernfeature. Wir analysieren die Benchmarks, testen das Modell und erklären, warum o1 ein Paradigmenwechsel ist.

Zusammenfassung

OpenAI überrascht mit o1 – einem völlig neuen Modelltyp, der extended reasoning beherrscht. Statt sofort zu antworten, "denkt" o1 nach und zeigt seinen Denkprozess. Die Ergebnisse bei Mathe, Coding und Wissenschaft sind beeindruckend. Wir erklären, was das bedeutet.

Themen & Highlights

  • 00:00 Intro: Was ist o1 und warum ist es anders?
  • 10:00 Reasoning erklärt: Chain-of-Thought als Kernfeature.
  • 25:00 Benchmarks: PhD-Level Wissenschaft, IMO-Goldmedaille, Coding.
  • 40:00 Live-Test: Komplexe Probleme, die GPT-4 nicht lösen konnte.
  • 55:00 Limitationen: Wann o1 nutzen, wann GPT-4o?

Deep Dive: OpenAI o1, Reasoning & die Zukunft der AI

Mit o1 führt OpenAI eine neue Modellfamilie ein, die grundlegend anders funktioniert. Statt Pattern Matching macht o1 echtes Reasoning – und die Ergebnisse sind beeindruckend. Aber es gibt auch Einschränkungen.

Was ist o1?

o1 (Codename "Strawberry") ist OpenAIs erstes Reasoning-Modell:

  • Extended Thinking: Das Modell "denkt" bevor es antwortet
  • Chain-of-Thought: Schrittweises Durcharbeiten von Problemen
  • Mehr Compute: Nutzt Rechenzeit für bessere Antworten
  • Zwei Varianten: o1-preview (voll) und o1-mini (schneller, günstiger)

Die Benchmarks sind verrückt

Die Zahlen sprechen für sich:

  • GPQA (PhD Science): 78% – übertrifft menschliche PhD-Experten
  • IMO (Mathe-Olympiade): 83% – Goldmedaillen-Niveau
  • Codeforces: 89. Perzentil – besser als die meisten Menschen
  • MATH: 94.8% – fast perfekt

Zum Vergleich: GPT-4o erreicht bei GPQA nur 56%. Der Sprung ist enorm.

"o1 ist das erste Modell, das bei der Internationalen Mathe-Olympiade auf Goldmedaillen-Niveau performt. Das war vor einem Jahr noch Science Fiction. Die Fortschritte sind schneller als irgendjemand erwartet hat."

Wie funktioniert Reasoning?

Der Unterschied zu klassischen LLMs:

GPT-4o: Generiert Token für Token, basierend auf Wahrscheinlichkeiten. Schnell, aber macht Fehler bei komplexer Logik.

o1: Generiert zuerst interne "Gedanken" (Reasoning Tokens), die nicht angezeigt werden. Erst dann kommt die Antwort. Mehr Compute = bessere Antwort.

Das ist ein fundamentaler Shift: Statt nur mehr Training (Scaling Laws) wird Inference-Zeit-Compute zum neuen Hebel.

Unser Live-Test

Wir haben o1-preview mit Aufgaben getestet, an denen GPT-4o scheitert:

Logik-Rätsel: "Drei Götter heißen True, False, Random..."
GPT-4o: Falsch nach langem Versuch. o1: Korrekt, mit elegantem Beweis.

Code-Debugging: Komplexer Race-Condition Bug in async Code.
GPT-4o: Findet Problem nicht. o1: Identifiziert exakt die Ursache.

Mathematischer Beweis: Beweise, dass √2 irrational ist.
GPT-4o: Reproduziert Standard-Beweis. o1: Liefert drei verschiedene Beweismethoden.

Die Limitationen

o1 ist nicht für alles besser:

  • Langsam: 10-60 Sekunden für komplexe Probleme
  • Teuer: ~3x teurer als GPT-4o
  • Kein Streaming: Wartezeit bis zur Antwort
  • Kein System Prompt: Eingeschränkte Kontrolle
  • Kein Vision: Kann keine Bilder verarbeiten
  • Overkill: Für einfache Tasks verschwendet

Wann o1 vs GPT-4o?

Unsere Empfehlung:

o1 nutzen für:

  • • Komplexe Mathe/Logik-Probleme
  • • Schwieriges Debugging
  • • Wissenschaftliche Analysen
  • • Strategische Planung
  • • Aufgaben, bei denen GPT-4o scheitert

GPT-4o nutzen für:

  • • Schnelle Antworten
  • • Kreatives Schreiben
  • • Konversation
  • • Bild-Analyse
  • • Einfache Coding-Tasks

Was bedeutet das für die Zukunft?

o1 zeigt einen neuen Weg:

  • Inference Scaling: Mehr Compute bei Inference = bessere Antworten
  • Spezialisierung: Verschiedene Modelle für verschiedene Tasks
  • Reasoning als Feature: Wird Standard werden
  • Agentic AI: o1 ist ideal für autonome Agenten

Wir erwarten, dass Claude, Gemini und andere bald Reasoning-Modelle nachliefern.

Fazit

o1 ist kein inkrementelles Update – es ist ein Paradigmenwechsel. Zum ersten Mal haben wir ein Modell, das wirklich "nachdenkt". Die Implikationen für Wissenschaft, Coding und komplexe Problemlösung sind enorm. Wir stehen am Anfang einer neuen Phase der AI-Entwicklung.

Bereit für Dein
nächstes Projekt?

Ob neue App, Plattform-Optimierung oder KI-Integration – wir unterstützen Dich in jeder Phase. Kostenloses Erstgespräch für Gründer und Tech-Teams.

© 2026 Bananapie GmbH. All rights reserved.