Presentamos Vidscribe AI: El Futuro de la Creación de Contenido Sin Esfuerzo

La creación de contenido es agotadora. Grabar videos, editar podcasts y luego escribir blogs? Es como correr tres maratones antes del desayuno. ¿Pero qué pasaría si hubiera una manera de reducir esa carga de trabajo en un 90%?

Todo esto comenzó con un problema personal. Pasas varias horas drásticamente, planeando, grabando y editando un video o podcast. Tu contenido está lleno de ideas y valor. Pero luego llega la tarea más honesta: convertir ese material multimedia en un blog escrito que pueda llegar a una audiencia más amplia.

Imagina una herramienta que comprenda el verdadero valor de tu contenido y te ayude a acelerar tu proceso de creación de contenido.

Vidscribe AI: Construido para el futuro

https://youtu.be/JuLLwGcacGk

Conoce a VidScribe AI: No es solo otra herramienta, sino una revolución en la creación de contenido que convierte horas de trabajo en minutos de magia. ✨

Vidscribe AI te permite convertir tus videos y audio en publicaciones de blog cautivadoras y optimizadas para SEO. Vidscribe AI está diseñado para creadores de contenido, podcasters, escritores, etc., que desean maximizar el alcance de su contenido. La IA comprende el contexto de tu contenido y crea un artículo legible y optimizado para SEO que captura la esencia de tu medio original.

Es posible que te estés preguntando cómo funciona todo esto. Veamos cómo hace su magia VidScribe AI.

¿Cómo funciona Vidscribe AI?

Bueno, es demasiado simple:

Carga tu contenido multimedia. Ya sea una apasionante discusión de podcast, un video informativo de YouTube o un tutorial detallado, VidScribe AI puede manejarlo.
A continuación, deja que VidScribe AI haga su magia. No solo transcribe, sino que entiende el contexto, el tono y los mensajes clave.
¡Listo! Felicidades por generar tu blog. Ahora tu contenido multimedia se ha transformado en una publicación de blog atractiva y optimizada para SEO. 🚀

Características

Ahora, exploremos algunas características increíbles que ofrece VidScribe AI.

Transcripción de video y audio 📝

Convierte las palabras habladas de videos o audios en texto escrito. Asegurando una alta precisión a través del reconocimiento de voz impulsado por IA.

Estructuración de blogs impulsada por IA ✍️

Formatea el contenido extraído en estructuras listas para blog con títulos, subtítulos y párrafos.

Opciones de personalización 🎨

Los usuarios pueden ajustar la longitud y la profundidad de los blogs generados, eligiendo entre resúmenes breves o artículos detallados. Esta característica también ofrece edición manual y la capacidad de agregar modificaciones personales al contenido generado por IA.

Blogs optimizados para SEO 🌐

Identifica palabras clave de tendencia y optimizadas para SEO basadas en el contenido del video/audi. E incorpora las palabras clave de manera natural en los blogs para mejorar la visibilidad en los motores de búsqueda. ¡No más complicaciones con la redacción de blogs optimizados para SEO! VidScribe AI ya lo ha hecho por ti!

Extracción Instantánea ⬇️

Extrae los blogs generados en un parpadeo. No necesitas convertirlos manualmente a ningún formato. VidScribe AI ya lo proporciona en formato markdown.

Desde el concepto hasta la creación

Cada idea revolucionaria comienza con un concepto, y lo mismo ocurre con VidScribe AI. Comenzamos con un concepto simple; veamos cómo convertimos esta idea en realidad.

Ideación

Comencé con una observación y problema simples pero poderosos. Las personas pasan más tiempo convirtiendo su contenido que creándolo. A veces, también necesitan escribir y crear. Ahí es donde decidimos desarrollar algo para resolver este problema.

Diseño

Como dijo Steve Jobs:

“El diseño no es solo lo que parece y cómo se siente. El diseño es cómo funciona.”
– Steve Jobs

Manteniendo esta filosofía en mente, comencé a diseñar la interfaz para VidScribe AI mediante la realización de investigaciones y pensando en cómo hacer que el diseño sea tanto creativo como simple. Muchas herramientas de IA existentes parecen demasiado complicadas para los nuevos usuarios. Ahí es donde decidí diseñar una interfaz que sea tanto simple como creativa, permitiendo que los nuevos usuarios la utilicen fácilmente sin complicaciones.

Desarrollo

Después del diseño, llegó el momento de ponerme manos a la obra. Comencé seleccionando la mejor tecnología para cumplir con las necesidades del proyecto, como la conversión de voz a texto de alta precisión y la escalabilidad.

En la fase inicial, pasé por múltiples iteraciones y superé diversas dificultades. Es cierto que las primeras etapas de desarrollo son como obstáculos. Cada iteración traía su propio conjunto de desafíos, pero los enfrenté uno por uno.

A medida que las iteraciones comenzaron a tomar forma, cada prueba se sentía como un hito y cada problema resuelto era una pequeña victoria. Esta fue mi primera vez integrando Modus en una aplicación de IA. Había diferentes tipos de problemas, pero referirme a la documentación de Modus facilitó mi proceso. Este proceso de desarrollo no se trataba solo de escribir código; era sobre la evolución continua de la solución y la aplicación del pensamiento crítico.

A continuación, viene la parte de IA donde debía refinar y entrenar el modelo de manera que realizara su trabajo a la perfección.

Decidí utilizar el modelo Whisper de ChatGPT para la conversión de voz a texto. Desarrollado por OpenAI, Whisper se destaca en el campo abarrotado de tecnologías de voz a texto por su notable precisión y soporte multilingüe. La arquitectura de aprendizaje profundo del modelo, entrenada en un conjunto de datos masivo y diverso, le permite manejar varios acentos, ruidos de fondo y matices lingüísticos con una precisión excepcional.

Aquí tienes un vistazo de la integración del modelo Whisper:

const transcriptions = await openai.audio.transcriptions.create({
  model: "whisper-1",
  file: file,
});

El proceso de integración involucró varios pasos:

Configurar cuidadosamente los parámetros del modelo para optimizar el rendimiento.
Implementación de un manejo robusto de errores y mecanismos de respaldo.
Ajuste fino del modelo a nuestro caso de uso específico y características de entrada de audio.
En segundo lugar, para la generación de blogs, opté por utilizar el modelo Llama 3.1-8B-Instruct de Meta. Este poderoso modelo de lenguaje grande aportó capacidades sofisticadas de comprensión y generación de lenguaje natural al proyecto. El modelo de 8B parámetros equilibra de manera óptima la eficiencia y la generación, permitiéndonos crear contenido contextualmente relevante.

La integración de este modelo incluyó:

Desarrollo de una estrategia de_prompting precisa para guiar la salida del modelo
Implementación de la gestión de contexto para asegurar una generación de contenido consistente y relevante
Creación de salvaguardias para mantener la calidad y originalidad del contenido

Así es como se ve la configuración del modelo:

{
  "$schema": "https://schema.hypermode.com/modus.json",
  "endpoints": {
    "default": {
      "type": "graphql",
      "path": "/graphql",
      "auth": "bearer-token"
    }
  },
  "models": {
    "text-generator": {
      "sourceModel": "meta-llama/Meta-Llama-3.1-8B-Instruct",
      "provider": "hugging-face",
      "connection": "hypermode"
    }
  }
}

A continuación, utilicé el SDK de Modus para invocar dinámicamente modelos. Luego, proporcioné instrucciones y prompts a los modelos para lograr los mejores resultados deseados. Modus facilita mucho la puesta en marcha rápida de cualquier modelo de IA.

import { models } from "@hypermode/modus-sdk-as";
import {
  OpenAIChatModel,
  ResponseFormat,
  SystemMessage,
  UserMessage,
} from "@hypermode/modus-sdk-as/models/openai/chat";

// this model name should match the one defined in the modus.json manifest file
const modelName: string = "text-generator";

export function generateBlogContent(transcriptions: string): string {
  const instruction =
    "You are a skilled content writer that converts audio transcriptions into well-structured, engaging blog posts in Markdown format. Create a comprehensive blog post with a catchy title, introduction, main body with multiple sections, and a conclusion. Analyze the user's writing style from their previous posts and emulate their tone and style in the new post. Keep the tone casual and professional.";
  const prompt = `Please convert the following transcription into a well-structured blog post using Markdown formatting. Follow this structure:

1. Start with a SEO friendly catchy title on the first line.
2. Add two newlines after the title.
3. Write an engaging introduction paragraph.
4. Create multiple sections for the main content, using appropriate headings (##, ###).
5. Include relevant subheadings within sections if needed.
6. Use bullet points or numbered lists where appropriate.
7. Add a conclusion paragraph at the end.
8. Ensure the content is informative, well-organized, and easy to read.
9. Emulate my writing style, tone, and any recurring patterns you notice from my previous posts.

Here's the transcription to convert: ${transcriptions}`;
  const model = models.getModel<OpenAIChatModel>(modelName);
  const input = model.createInput([
    new SystemMessage(instruction),
    new UserMessage(prompt),
  ]);

  // this is one of many optional parameters available for the OpenAI chat interface
  input.temperature = 0.7;

  const output = model.invoke(input);
  return output.choices[0].message.content.trim();
}

Para ser honesto, nada de esto habría sido posible sin la ayuda de Modus. Su API de invocación de modelos resultó ser una solución transformadora y, por lo tanto, la más fácil para el proceso de integración de IA. Al usar Modus, he obtenido flexibilidad y facilidad para trabajar con estos complejos modelos de IA.

La colaboración entre Modus, Whisper y Llama 3.1 creó un poderoso ecosistema que transformó este concepto inicial en una herramienta de generación de contenido inteligente y completamente funcional.

Despliegue 🎉

Por último, pero no menos importante, presioné ese botón “Desplegar” en Vercel con una herramienta exitosa que optimiza el proceso de creación de contenido.

Tech Stack

Frontend: NextJS, TailwindCSS, Shadcn UI
Backend: Hypermode (https://hypermode.com)

Enlaces Útiles

En vivo en: https://vidscribe-ai.vercel.app
Repositorio de Vidscibe AI: https://github.com/Darshancodes/Vidscribe-ai
Instancia del modelo Hypermode (Vidscribe Backend): https://github.com/Darshancodes/vidscribe-modus-backend

Conclusión

El rápido crecimiento de la IA está revolucionando la forma en que creamos contenido. ¡No más escritura manual, creación y conversión, la IA lo tiene cubierto!

Este proyecto no se detendrá aquí. Está planeado con múltiples características emocionantes que llevarán a Vidscribe al siguiente nivel. ¡Mantente atento!

Agradecimientos especiales a Hypermode y Hashnode por organizar este increíble hackatón. ¡Por la innovación y la creatividad, aprendí mucho! 🚀