← Zurück zu den Fallstudien
PersönlichKIFitnessPWA

Cal

KI als Ergebnis. KI als Erbauer. KI im Produkt selbst.

Der Code hat nicht lange gedauert. Was Zeit gekostet hat, war alles, was die KI nicht konnte: zu entscheiden, was zu bauen ist, zu bewerten, ob das Ergebnis vertrauenswürdig ist, und Interaktionsmuster zu fangen, die technisch korrekt, aber im Erleben falsch waren.

Wenn Umsetzung kostenlos ist, wird Urteilsvermögen teuer. Um diese Verschiebung geht es in diesem Projekt.

Wenn Umsetzung kostenlos ist, ist Urteilsvermögen teuer

Was das Bauen unter Zeitdruck offengelegt hat

Cal ist in 5 Tagen ausgeliefert worden. Claude Code hat funktionierende UI, verdrahtete Komponenten und funktionierende API-Integrationen schneller erzeugt als jede Entwickler-Übergabe, die ich erlebt habe. Aber die Zeitspanne ist keine Angeberei. Sie ist ein Datenpunkt darüber, wohin der Designaufwand geflossen ist.

Was Zeit gekostet hat, war die Bewertungsschleife. Jeden generierten Plan durch dieselben Kriterien laufen zu lassen, die ein menschlicher Trainer anwenden würde: Ergibt diese Progression Sinn für jemanden auf diesem Fitnessniveau? Sind die Pausenzeiten passend zur Intensität? Würde ein echter Athlet dem genug vertrauen, um es sechs Wochen lang zu befolgen?

Kein sichtbares KI-Gerüst. Das Erleben liest sich als poliertes, absichtsvolles Produkt, nicht als Prototyp. Das liegt nicht daran, dass die KI von selbst gut genug war. Das liegt daran, dass die Bewertungskriterien spezifisch genug waren, um zu erkennen, was "gut genug" tatsächlich bedeutet.

Die Rolle hört auf, vom Dinge-Machen zu handeln, und beginnt davon zu handeln, zu entscheiden, was es wert ist, gemacht zu werden, und ob das Gemachte gut genug ist.

Stöbere durch die Plan-Übersicht und tippe in einen Tag hinein. Die Aufwärmsätze, die progressive Steigerung und die Pausenzeiten sind alle KI-generiert aus einem einzigen Profil. Beachte, wie Verletzungs-Anpassungen (unterer Rücken) die Übungsauswahl in jeder Session prägen.

Der Prompt ist das Ergebnis

Warum das wichtigste Designartefakt nicht visuell ist

Der KI-Prompt für die Plan-Generierung ist ein 400 Wörter langes, strukturiertes Briefing, das sich eher wie ein Kreativ-Briefing liest als wie eine Softwarefunktion. Er definiert Cals Persona, den Kommunikationsstil, harte Einschränkungen (Trainingstage, Verletzungen, Ausrüstung), weiche Einschränkungen (wöchentliche Progressionsthemen, RPE-Modulation) und das exakte JSON-Schema, von dem die UI abhängt.

Ich habe diesen Prompt wie jedes andere Designartefakt behandelt: daran iteriert, seine Ausgabe heuristisch bewertet und auf Basis dessen verfeinert, was die KI tatsächlich produziert hat, nicht auf Basis dessen, was ich erwartet hatte. Der Prompt hat mehr Revisionen durchlaufen als irgendein einzelner Screen in der App.

Persona in zwei Sätzen, nicht in zwei Absätzen.

„Sei direkt, technisch und motivierend. Vermeide mechanische Metaphern." Dieser zweite Satz kam aus v1-Ausgaben, die sich wie eine Bedienungsanleitung lasen. Ein Ausschluss hat den gesamten Ton verändert.

„Keine Ausnahmen" ist das tragende Element.

„Maximal 3 Arbeitssätze pro Übung. Keine Ausnahmen." Diesen Satz einmal beim Testen entfernt. Das Modell hat einen 4. Satz „für fortgeschrittene Athleten" hinzugefügt. Die Spezifität von Einschränkungen ersetzt Urteile, die man nicht delegieren möchte.

Phasennamen vor Phasennummern.

Aus Woche 1–6 wurden Foundation, Accumulate, Intensify, Peak. Benannte Phasen geben dem Modell einen konzeptionellen Anker für jeden Block. Das hat kohärentere Progressionen erzeugt als rein numerische Ziele.

Jedes Team, das KI-Features ausliefert, braucht diese Unterscheidung: der Prompt ist ein Designartefakt, kein Engineering-Anliegen. Die Qualität der KI-Ausgabe ist ein Design-Ergebnis.

Beobachte, wie der Plan in der Demo erzeugt wird. Das Briefing, die Wochenthemen und die Übungsauswahlen kommen alle aus einem einzigen strukturierten Prompt. Tippe in irgendeine Woche hinein, um zu sehen, wie Einschränkungen wie „maximal 3 Arbeitssätze" und Verletzungs-Anpassungen durchgereicht werden.

Was mich die Stimme gelehrt hat

Warum die schwersten UX-Probleme physisch sind, nicht digital

Die Sprachsteuerung ist das Feature, über das ich am ehrlichsten bin. Sie funktioniert. Sie ist auch der rauste Teil der App, und die Gründe dafür sind lehrreich.

Die Architektur ist solide: zweistufiges Parsing, bei dem lokale Regex-Verarbeitung etwa 90 % der Befehle sofort verarbeitet (kein Netzwerk-Round-Trip), mit Claude Haiku als Fallback für Sonderfälle. ElevenLabs TTS für synthetisierte Coaching-Hinweise, mit IndexedDB-Caching, um wiederholte Phrasen nicht erneut abzurufen.

Die Fehlermodi sind physisch, nicht digital. Ein verpasster „Fertig"-Befehl mitten im Satz bedeutet, dass der Nutzer sein Handy zwischen den Wiederholungen anfassen muss, genau die Reibung, die das Feature eliminieren sollte. Befehle haben zweimal ausgelöst, wenn das Transkript inkrementell aktualisiert wurde. Haiku hat auf Hintergrundgeräusche reagiert, die das Regex korrekt ignoriert hat. Jeder Fix hat einen neuen Sonderfall offenbart.

Das ist kein lösbares Problem im traditionellen Sinn. Es ist ein Kalibrierungsproblem, das echte Tests mit echten Nutzern in Fitnessstudios erfordert. Heuristische Bewertung in einem ruhigen Büro fängt vielleicht 30 % der Fehlermodi ab. Die anderen 70 % tauchen nur unter physischen Nutzungsbedingungen auf.

Voice-UX erfordert eine andere Bewertungsmethodik als visuelle UX. Wenn dein Produkt Sprachfunktionen hat, ist die Testumgebung Teil der Designspezifikation, kein nachträglicher Gedanke.

Starte in der Demo ein Workout und tippe dann unten am Bildschirm auf das Mikrofon-Symbol, um die Sprachsteuerung zu aktivieren. Probiere, „fertig" zu sagen, um einen Satz abzuschließen, oder „Pause überspringen", um vorzuspringen. Das zweistufige Parsing verarbeitet die meisten Befehle lokal, ohne Netzwerk-Verzögerung.

Was Cal jetzt ist

Cal läuft als der Coach, den ich für mein eigenes Training nutze. Die Pläne halten über sechswöchige Zyklen stand. Die Sprachsteuerung hat ihre rauen Kanten, aber sie macht das eine, was sie tun sollte: Sie hält meine Hände zwischen den Sätzen vom Handy fern. Beide Plan-Typen, Kraft und Mobilität, werden aus einem einzigen Profil generiert, und die beiden Wochenhälften unterstützen sich gegenseitig, statt um Aufmerksamkeit zu konkurrieren.

Das ist der ehrliche Test für ein KI-gebautes Produkt. Nicht, ob es schnell ausgeliefert wurde, sondern ob es immer noch das Werkzeug ist, zu dem du greifst, wenn du andere Optionen hast.

Kontakt