Jeder Vibe Coder zahlt fürs Diktieren. Ich habe meins quelloffen gemacht.

·Philipp Baldauf·4 Min. Lesezeit

Schau dir an, wie Menschen heute tatsächlich KI-Coding-Tools benutzen, und dir fällt etwas auf: Kaum jemand tippt noch Prompts. Sie sprechen. Eine Taste gedrückt halten, einen Absatz in Cursor diktieren, loslassen und zusehen, wie die Worte erscheinen. Es ist schneller als Tippen, und wenn man es eine Woche gemacht hat, will man nicht mehr zurück.

Und fast alle zahlen dafür.

Es gibt inzwischen eine ganze Kategorie schicker Diktier-Apps — Wispr Flow ist die, bei der die meisten zu landen scheinen — und sie sind wirklich gut. Poliert, schnell, schön gestaltet. Sie kosten aber auch ein monatliches Abo, und sie schicken deine Stimme zum Transkribieren an einen Server.

Der Teil, der mich immer schmunzeln lässt: Das ist eine Szene, die an einem einzigen Nachmittag ein komplettes Nebenprojekt vibe-coden würde. Leute, die sich mal eben ein eigenes CLI, eine Raycast-Erweiterung oder ein kleines Menüleisten-Tool für irgendeine Nische bauen. Und ausgerechnet das eine Werkzeug, das sie den ganzen Tag, jeden Tag benutzen — das zwischen ihrem Mund und ihrem Editor sitzt — ist ein kostenpflichtiges Abo, auf dessen Eigenbau niemand gekommen ist.

Die Diktier-Ebene ist heute ein gelöstes Problem

Vor ein paar Jahren wäre „bau dir dein eigenes Diktiertool" ein echtes Projekt gewesen. Du hättest eine Cloud-Spracherkennungs-API gebraucht, pro Audiominute bezahlt und die Stimmen der Leute auf den Server von jemand anderem geschickt. Heute nicht mehr.

Whisper läuft inzwischen lokal. Auf Apple Silicon erledigt WhisperKit die Transkription direkt auf dem Gerät — wirklich schnell und wirklich präzise, ohne Netzwerk-Umweg, ohne API-Schlüssel, ohne Kosten pro Minute. Der schwierige Teil ist nicht mehr die Transkription. Der schwierige Teil ist der Klebstoff: ein globales Tastenkürzel, eine winzige Präsenz in der Menüleiste, das Audio aufnehmen, solange die Taste gehalten wird, und das Ergebnis in die App einfügen, die gerade den Fokus hat.

Genau diese Art von Klebstoff bauen wir zum Spaß. Also habe ich es gebaut.

ainstype

ainstype ist eine macOS-Menüleisten-App. Du hältst eine Taste gedrückt — standardmäßig die rechte Cmd-Taste —, sprichst, lässt los, und deine Worte werden transkribiert und direkt in das eingefügt, woran du gerade arbeitest. Cursor, ein Terminal, eine E-Mail, eine Slack-Nachricht. Es ist ihm egal.

Das Ganze läuft über WhisperKit direkt auf dem Gerät. Dein Audio verlässt deinen Mac nie. Kein Konto zum Anlegen, kein Abo, keine Cloud. Das Modell ist bereits vorinstalliert, beim ersten Start muss also nichts heruntergeladen werden. Es unterstützt ein eigenes Wörterbuch für die Fachbegriffe, die Whisper immer falsch versteht, und du kannst Tastenkürzel und Sprache in einer einfachen Konfigurationsdatei anpassen.

Das war's. Es macht eine Sache, und es macht sie, ohne nach deiner Kreditkarte oder deiner Stimme zu fragen.

Mein erstes Open-Source-Projekt

Das ist ein kleiner Meilenstein für mich. Ich baue seit über einem Jahrzehnt Apps — App-Store-Apps, Web-Apps, Produkte mit Preisseiten und Support-Postfach. Alle Closed Source. ainstype ist das erste, das ich unter einer offenen Lizenz (MIT) in die Welt gestellt habe, inklusive Quellcode.

Es fühlte sich seltsam verletzlich an. Keine Marketingseite, hinter der man sich verstecken kann, kein poliertes Onboarding — nur der Code, genau so, wie er ist, für jeden zum Lesen, Forken oder Korrigieren. Aber genau das ist der Punkt. Das ist kein Produkt, das ich groß machen will. Es ist ein Werkzeug, das ich für mich selbst wollte, und es gibt keinen Grund, warum es irgendjemanden etwas kosten sollte, es auch zu haben.

Ich mache die kostenpflichtigen Tools nicht schlecht

Um das klarzustellen: Wispr Flow und die anderen sind gute Software, und wenn du eine polierte, supportete, plattformübergreifende App willst, ist es eine völlig vernünftige Entscheidung, dafür zu zahlen. Nicht alles muss ein Wochenend-Projekt sein.

Aber wenn du dich ohnehin auf der Kommandozeile zu Hause fühlst — wenn du der Typ Mensch bist, der „das könntest du dir auch selbst bauen" als Einladung statt als Last liest —, dann ist der Eigenbau-Weg fürs Diktieren heute wirklich machbar. Das Ergebnis läuft komplett auf deiner Maschine, kostet nichts und gehört dir.

Der Code ist auf GitHub. Wenn du ihn ausprobierst, kaputt machst oder verbesserst, würde ich gern davon hören.