Gestern habe ich beschrieben wie man mit GPT Vision jede Slide einer Powerpoint/PDF analysieren kann.

Wie erstellt man aus einer umfangreichen Powerpoint automatisch ein BlogPost/Video / Audio mit einem Avatar? I
In dem Blogpost zeige ich, wie man mit No-Code Tools und GPT-Vison Powerpoints, PDF mit vielen Bildern automatisch analysiert und den Inhalt der Slides weiter verwerten kann. Im Text sind zwei Slides die GPT Vision analyisiert

Infografiken sind oft nicht selbsterklärend und geben einen Inhalt sehr detailliert wieder. Ohne Kontext zu haben und eine Infografik in 2-3 Minuten anschauen hat für die meisten Lerner keinen Wert, deshalb möchte ich aus Infografiken wieder Content generieren, im besten Fall daraus eine neue Präsentation/BlogPost/Audio/Video zu erstellen.

Bei umfangreichen Infografiken wie dieser, die ich 2018 erstellt habe, gelangt GPT Vision aus dem Konzept. Einfach gesprochen GPT Vision vergisst Textelemente aus der Infografik zu beschreiben.

Die Whirlpool Innovationsstory

Die Infografik beschreibt im Detail, angereichert mit Elementen von mir, die Innovationsgeschichte von Whirlpool. Eines der besten Innovationskonzepte die ich kenne. Das besondere an dem Konzept ist, das der CEO sagte jeder Mitarbeiter kann innovieren. Die Haltung führte dazu das in der Linie neue Produkte entwickelt wurden. Eine grandiose Geschichte.

Dieses Buch lohnt sich zu lesen, wenn man Innovationen im Unternehmen treiben möchte.

Von diesen Infografiken habe ich ganz viele in meinen Dateien. Hier ein kurzer Überblick aus dem lokalen Speicher, da ich nicht alles repliziert habe, Dopplungen abziehe, werde ich in dem Bereich 150-200 Infografiken liegen.

Grund genug zu schauen wie ich das optimieren kann.

Nach dem ich drei - vier Stunden an den Prompts gebastelt habe, bin ich zu folgenden Drehbuch gekommen.

Ich arbeite mit zwei Prompts:

  1. Ein Prompt zu GPTVision sucht die Abschnitte im Bild
  2. Der zweite Prompt fokussiert ich auf die Abschnitte und gibt nur diesen Abschnitt heraus.

Bei dieser Infografik hat das super funktioniert nach mehreren Anläufen die Prompts zu gestalten.

Wie gestalte ich die Prompts?

Prompt 1

Ergebnis 1

Das Ergebnis ist prima, die Abschnitte wurden richtig erkannt.

Prompt 2

Liste den ganzen Text mit einem Titel in dem Abschnitt auf: (((Organisationshelden und Innovationskultur: Es wird die Rolle von "Organisationshelden" beschrieben, die für Innovation über ihre erwarteten Rollen hinausgehen, und wie eine Kultur der Innovation gefördert werden kann.. )))

Gebe nur den Text in dem Abschnitt vollständig aus. Mache keine Bewertung oder Einleitung. Vergesse kein Wort und setze Absatzendemarken um den Text lesbarer zu machen.

Der Text in den ((( ))) ist die Variable die mit den Abschnitten gefüllt werden muss.

Ergebnis 2

Der Text ist vollständig analysiert wurden. Jetzt brauche ich nur noch eine Automatisierung zu bauen, die auf Knopfdruck die ganze Infografik ausliest.

Wie sieht die Automatisierung aus?

Das ist ein einfaches Make Szenarion mit den wichtigen fünf Schritten, zwischen 2 und 5 wird eine Schleife durchlaufen abhängig von der Anzahl der Abschnitte.

Schritt 1

Hier wird das Bild auf Abschnitte untersucht

Schritt 2

Die vielen Abschnitte werden in eine Schleife mit einem Iterator gebracht, damit jeder Abschnitt untersucht werden kann.

Schritt 3

Ich hole wir den Wert der Variable Vision Detail, die ich am Ende des Workflow brauche um so etwas wie Append Variable zu machen.

Schritt 4

Hier wird der Text des Abschnittes untersucht

Schritt 5

Der Abschluss, der Wert des jeweiligen Abschnitts wird in Airtable geschrieben.

Nachdem ich lange an den Prompts gefeilt hatte, war mein Maximum an GPT Vision aufrufen erschöpft

Ergebnis

Mit dem mehrstufigen Prompt Ansatz für GPTVison kann ich nun auch Infografiken wunderbar auslesen. Die Test waren sehr erfolgreich.

Jetzt geht es in den nächsten Schritten zur Verarbeitung des Contents für BlogPosts/Audio/Video Formate

Share this article
The link has been copied!