Mit KI vom Sprachmemo zum fertigen Text

Wie Audioaufnahmen mit Hilfe von KI zu fertigen Texten werden können – und dabei (halbwegs) authentisch formuliert sind.

David Lohner
· 4 Minuten Lesezeit
Per E-Mail versenden
Ein Computermonitor als Charakter mit freundlich dreinschauendem Gesicht steht auf einer Schreibtischoberfläche. Er hält ein Mikrofon in der Hand.
Ja, ein KI-generiertes Titelbild. Passt ja auch zum Thema.

In einem Zeitalter, in dem Gedanken oft in spontanen Flurgesprächen entstehen, habe ich einen Workflow entwickelt, der den Weg von einem reinen Sprachmemo bis hin zu einem ausgereiften Blogbeitrag mithilfe moderner KI-Tools abbildet. Die zentrale Frage dabei lautet:

Wie kann ich meine spontanen, unstrukturierten Gedanken in einen kohärenten Text überführen, ohne dabei den kreativen Prozess und meinen eigenen Ausdruck zu verlieren?

Im moment experimentiere ich mit diesem Workflow, der im Folgenden beschrieben ist. Dieser Beitrag ist der erste, der auf diese Weise entstanden ist.

Ideen im Moment festhalten

Alles beginnt mit dem Moment der Inspiration – sei es, wenn ich im Flur unerwartet mit Kolleg:innen ins Gespräch komme oder wenn mir einfach spontan interessante Gedanken durch den Kopf gehen. Anstatt diese Eindrücke nur flüchtig zu behalten oder sie in handschriftlichen Notizen zu verlieren, nehme ich sie als Sprachmemo auf. Dabei entfällt die Vorbereitung völlig: Es geht darum, den authentischen Fluss der Gedanken in dem Moment einzufangen – inklusive all jener Anekdoten, Nebenbemerkungen und ersten Überlegungen, die den Kern meiner Idee ausmachen.

KI für Transkript und Stichpunkte

Der nächste Schritt besteht darin, diese Audioaufnahmen in Schriftform zu überführen. Mithilfe leistungsfähiger Transkriptionssoftware wird meine mündliche Rede nahezu wortgetreu wiedergegeben:

Seit dem Betriebssystem-Update meiner Gerätschaften (iOS/iPadOS 18.4 und macOS 15.4) ist das Transkribieren bereits in die Sprachmemos-App direkt integriert.

Natürlich enthält der daraus resultierende Text noch viele Spuren der Spontaneität und wirkt unsortiert. Genau hierzu nutze ich ein Large Language Model (LLM): Ich gebe dem Rohtext einen ersten strukturellen Schliff, indem ich ihn in eine prägnante Stichpunktliste überführen lasse.
Diese Stichpunktliste hilft mir, die wesentlichen Gedankengänge zu extrahieren und in einen sinnvollen Textaufbau zu überführen. Sie dient also als Gerüst, das den späteren, ausführlichen Blogbeitrag leitet.

Stilanalyse mit KI

In einem weiteren Schritt unterstütze ich den Prozess, indem ich ausgewählte, bereits veröffentlichte Texte als Basis für eine automatische Stilanalyse verwende. Dabei übergebe ich der KI ausgewählte Textpassagen, die meine bisherige Schreibpraxis repräsentieren.
Die KI sucht in diesen Beispielen nach Mustern in Satzstruktur, Wortwahl, Einschüben und Anspracheformen – ganz ohne zu bewerten, ob dieser Stil „gut“ oder „schlecht“ ist. Sie liefert stattdessen ein technisches Feedback, das mir als Orientierung dient, wie ich den finalen Text so bearbeiten kann, dass er wieder meine übliche Ausdrucksweise widerspiegelt. Anhand dieser Analyse kann ich den von der KI generierten Text anpassen und verfeinern.

An dieser Stelle muss ich weiter darüber nachdenken, wie ich dieses Finetuning in einen voreingestellten KI-Assistenten überführen kann. Für diesen Beitrag habe ich einfach meine Texte in den Chat mit dem LLM gekippt, sodass mein Stil dort erfasst werden konnte. Das verbraucht auf Dauer aber zu viele Tokens und macht die Chats unnötig lang/teuer.

Zwischenstation

Bis zu diesem Punkt liegt schon einiges vor: Einerseits besitze ich ein rohes Transkript meiner mündlichen Aufzeichnung, das den spontanen Gesprächsfluss dokumentiert. Andererseits existiert eine von mir kritisch geprüfte Stichpunktliste, die als Gliederung für den Beitrag dient. Ergänzt wird dieser Schritt durch die automatisierte Stilanalyse, die mir hilft, den KI-generierten Text nicht nur strukturell, sondern auch stilistisch an meine persönliche Schreibweise anzupassen. Dieses Zwischenstadium bildet die Grundlage für die endgültige Zusammenführung der bisherigen Zwischenergebnisse.

„Will it blend?“

Nun kommt der spannende Moment, in dem alles zusammengeführt wird. In diesem Schritt fließen das rohe Transkript, die strukturierende Stichpunktliste und die Rückmeldungen aus der Stilanalyse zu einem gemeinsamen Entwurf zusammen. Die KI „mischt“ dabei alle Elemente zu einem ersten Skript, das zwar noch unsortiert und etwas generisch wirken mag, aber bereits die Grundstruktur und meinen Sprachfluss erkennbar macht.
Danach überarbeite ich diesen Entwurf manuell, lese ihn laut vor und teste ihn – mit einem „Lesetest“, der sicherstellt, dass der Text nicht nur inhaltlich stimmig ist, sondern auch flüssig und authentisch wirkt. Hier gilt es, unschöne Formulierungen zu glätten und sicherzustellen, dass alle Gedanken zusammenhängend und nachvollziehbar dargestellt sind.

Schreibe ich jetzt immer mit KI?

Die Antwort ist: Nein.

Obwohl der KI-gestützte Workflow mir (scheinbar/möglicherweise) erheblich Zeit spart und mich dabei unterstützt, aus spontanen Sprachaufnahmen einen strukturierten Text zu erzeugen, bin ich überzeugt, dass der Mensch zumindest als letzte Instanz unverzichtbar bleibt. Die KI liefert wertvolle Impulse und eine solide Grundlage, aber der finale Feinschliff – das Überprüfen, Anpassen und persönliche Gestalten – liegt ganz bei mir.
Dabei bin ich mir auch der Risiken bewusst: Zu starke Abhängigkeit von automatisierten Prozessen könnte dazu führen, dass Texte unpersönlich wirken oder wichtige Nuancen verloren gehen. Gleichzeitig eröffnen sich dadurch Chancen, den Schreibprozess effizienter zu gestalten und neue Ideen zu generieren.

Ausblick: Nächste Schritte in der Automatisierung

Ein spannender Aspekt, den ich als Nächstes ausprobieren möchte, ist die weitergehende Automatisierung dieses Workflows. Ziel ist es, den Prozess – angefangen bei der Audioaufnahme bis zur finalen Textvorschau – noch stärker zu integrieren, beispielsweise unter Einsatz von Siri-Shortcuts oder ähnlichen Tools, falls dies technisch möglich ist. Dadurch könnte der gesamte Übergang vom spontanen Sprachmemo zum ausgereiften Text noch nahtloser und effizienter gestaltet werden, ohne dass dabei die entscheidende menschliche Kontrolle verloren geht.

Mit diesem Workflow gelingt es mir, die flüchtigen Momente spontaner Flurgespräche in einen kohärenten, ausgereiften Text zu verwandeln – immer mit dem Anspruch, dass die finale Handschr... äh, Computerschrift und Kreativität ganz in meiner Verantwortung liegen. Die Verbindung von moderner KI-Unterstützung und persönlichem Feinschliff eröffnet völlig neue Möglichkeiten, und ich freue mich darauf, diesen Prozess weiter zu optimieren und zukünftig noch mehr zu automatisieren.