Apresentando Vidscribe AI: O Futuro da Criação de Conteúdo sem Esforço

A criação de conteúdo é exaustiva. Gravar vídeos, editar podcasts e depois escrever blogs? É como correr três maratonas antes do café da manhã. Mas e se houvesse uma maneira de reduzir essa carga de trabalho em 90%?

Tudo começou com um problema pessoal. Você passa várias horas drasticamente planejando, gravando e editando um vídeo ou podcast. Seu conteúdo está repleto de insights e valor. Mas então vem a tarefa mais honesta – transformar esse material multimídia em um blog escrito que pode alcançar um público mais amplo.

Imagine uma ferramenta que entenda o verdadeiro valor do seu conteúdo e ajude a acelerar seu processo de criação de conteúdo.

Vidscribe AI: Construído para o futuro

https://youtu.be/JuLLwGcacGk

Conheça o VidScribe AI: Não apenas outra ferramenta, mas uma revolução na criação de conteúdo que transforma horas de trabalho em minutos de magia. ✨

O Vidscribe AI permite que você transforme seus vídeos e áudios em posts de blog cativantes e otimizados para SEO. O Vidscribe AI é projetado para criadores de conteúdo, podcasters, escritores, etc., que desejam maximizar o alcance do seu conteúdo. A IA entende o contexto do seu conteúdo e cria um artigo legível e otimizado para SEO que captura a essência da sua mídia original.

Você pode estar se perguntando como tudo isso funciona? Vamos ver como o VidScribe AI faz sua mágica.

Como o Vidscribe AI funciona?

Bem, é muito simples:

Carregue seu conteúdo multimídia. Seja uma discussão apaixonada em um podcast, um vídeo informativo no YouTube ou um tutorial em vídeo detalhado, o VidScribe AI pode lidar com isso.
Em seguida, deixe o Vidscribe AI fazer sua mágica. Não se trata apenas de transcrever—ele entende o contexto, o tom e as mensagens-chave.
Concluído! Parabéns por gerar seu blog. Agora, seu conteúdo multimídia foi transformado em um post de blog envolvente e otimizado para SEO. 🚀

Recursos

Agora, vamos explorar alguns recursos incríveis que o VidScribe AI oferece.

Transcrição de vídeo e áudio 📝

Converte palavras faladas de vídeos ou áudios em texto escrito. Garantindo alta precisão através do reconhecimento de fala powered by AI.

Estruturação de blog com IA ✍️

Formata o conteúdo extraído em estruturas prontas para blog, com títulos, subtítulos e parágrafos.

Opções de personalização 🎨

Os usuários podem ajustar o comprimento e a profundidade dos blogs gerados, escolhendo entre resumos breves ou artigos detalhados. Este recurso também oferece edição manual e a capacidade de adicionar modificações pessoais ao conteúdo gerado pela IA.

Blogs otimizados para SEO 🌐

Identifica palavras-chave em alta e otimizadas para SEO com base no conteúdo do vídeo/áudio. E incorpora essas palavras-chave naturalmente nos blogs para aumentar a descoberta nos motores de busca. Não mais complicações com a criação de blogs otimizados para SEO. O VidScribe AI já fez isso por você!

Extração Imediata ⬇️

Extraia blogs gerados em um piscar de olhos. Você não precisa convertê-los manualmente para nenhum formato. O VidScribe AI já os fornece em formato markdown.

Do conceito à criação

Toda ideia revolucionária começa com um conceito, e o mesmo vale para o VidScribe AI. Começamos com um conceito simples; vamos ver como transformamos essa ideia em realidade.

Ideação

Comecei com uma observação simples, mas poderosa, e um problema. As pessoas passam mais tempo convertendo seu conteúdo do que criando-o. Às vezes, elas precisam escrever e criar. Foi aí que decidimos desenvolver algo para resolver esse problema.

Design

Como disse Steve Jobs:

“Design não é apenas o que ele parece e como se sente. Design é como ele funciona.”
– Steve Jobs

Mantendo essa filosofia em mente, comecei a projetar a interface do VidScribe AI, conduzindo pesquisas e pensando em como tornar o design tanto criativo quanto simples. Muitas ferramentas de IA existentes parecem zbyt complicadas para novos usuários. Foi aí que decidi projetar uma interface que fosse simples e criativa, permitindo que novos usuários a utilizassem facilmente, sem complicações.

Desenvolvimento

Após o design, chegou a hora de me preparar para tudo. Comecei selecionando a melhor tecnologia para atender às necessidades do projeto, como conversão de fala para texto de alta precisão e escalabilidade.

Na fase inicial, passei por várias iterações e superei diversos problemas. É verdade que os estágios iniciais de desenvolvimento são como obstáculos. Cada iteração trouxe seu próprio conjunto de desafios, mas os enfrentei um por um.

À medida que as iterações começaram a tomar forma, cada teste parecia um marco e cada problema resolvido era uma pequena vitória. Esta foi a minha primeira vez integrando Modus em um aplicativo de IA. Houve diferentes tipos de problemas, mas consultar a documentação do Modus facilitou meu processo. Este processo de desenvolvimento não foi apenas sobre escrever código; foi sobre evoluir continuamente a solução e aplicar pensamento crítico.

Em seguida, vem a parte da IA, onde eu deveria refinar e treinar o modelo de tal forma que ele fizesse seu trabalho perfeitamente.

Decidi usar o modelo Whisper do ChatGPT para conversão de fala para texto. Desenvolvido pela OpenAI, Whisper se destaca no campo congestionado de tecnologias de fala para texto por sua notável precisão e suporte multilíngue. A arquitetura de aprendizado profundo do modelo, treinada em um conjunto de dados massivo e diversificado, permite que ele lide com vários sotaques, ruídos de fundo e nuances linguísticas com uma precisão excepcional.

Aqui está um preview da integração do modelo Whisper:

const transcriptions = await openai.audio.transcriptions.create({
  model: "whisper-1",
  file: file,
});

O processo de integração envolveu vários passos:

Configurando cuidadosamente os parâmetros do modelo para otimizar o desempenho.
Implementando mecanismos robustos de tratamento de erros e fallback.
Ajustando o modelo para nosso caso de uso específico e características de entrada de áudio.
Em segundo lugar, para a geração de blogs, optei por usar o modelo Llama 3.1-8B-Instruct da Meta. Este poderoso modelo de linguagem grande trouxe capacidades sofisticadas de compreensão e geração de linguagem natural para o projeto. O modelo de 8B parâmetros encontra um equilíbrio otimal entre eficiência e geração, permitindo-nos criar conteúdo contextualmente relevante.

A integração deste modelo incluiu:

Desenvolvendo uma estratégia precisa de prompt para guiar a saída do modelo
Implementando gerenciamento de contexto para garantir a geração de conteúdo consistente e relevante
Criando salvaguardas para manter a qualidade e originalidade do conteúdo

Aqui está como a configuração do modelo выглядит:

{
  "$schema": "https://schema.hypermode.com/modus.json",
  "endpoints": {
    "default": {
      "type": "graphql",
      "path": "/graphql",
      "auth": "bearer-token"
    }
  },
  "models": {
    "text-generator": {
      "sourceModel": "meta-llama/Meta-Llama-3.1-8B-Instruct",
      "provider": "hugging-face",
      "connection": "hypermode"
    }
  }
}

Em seguida, usei o SDK do Modus para invocar dinamicamente modelos. Depois, forneeci instruções e prompts aos modelos para alcançar os melhores resultados desejados. O Modus facilita muito a obtenção e execução de qualquer modelo de IA.

import { models } from "@hypermode/modus-sdk-as";
import {
  OpenAIChatModel,
  ResponseFormat,
  SystemMessage,
  UserMessage,
} from "@hypermode/modus-sdk-as/models/openai/chat";

// this model name should match the one defined in the modus.json manifest file
const modelName: string = "text-generator";

export function generateBlogContent(transcriptions: string): string {
  const instruction =
    "You are a skilled content writer that converts audio transcriptions into well-structured, engaging blog posts in Markdown format. Create a comprehensive blog post with a catchy title, introduction, main body with multiple sections, and a conclusion. Analyze the user's writing style from their previous posts and emulate their tone and style in the new post. Keep the tone casual and professional.";
  const prompt = `Please convert the following transcription into a well-structured blog post using Markdown formatting. Follow this structure:

1. Start with a SEO friendly catchy title on the first line.
2. Add two newlines after the title.
3. Write an engaging introduction paragraph.
4. Create multiple sections for the main content, using appropriate headings (##, ###).
5. Include relevant subheadings within sections if needed.
6. Use bullet points or numbered lists where appropriate.
7. Add a conclusion paragraph at the end.
8. Ensure the content is informative, well-organized, and easy to read.
9. Emulate my writing style, tone, and any recurring patterns you notice from my previous posts.

Here's the transcription to convert: ${transcriptions}`;
  const model = models.getModel<OpenAIChatModel>(modelName);
  const input = model.createInput([
    new SystemMessage(instruction),
    new UserMessage(prompt),
  ]);

  // this is one of many optional parameters available for the OpenAI chat interface
  input.temperature = 0.7;

  const output = model.invoke(input);
  return output.choices[0].message.content.trim();
}

Para ser honesto, nada disso teria sido possível sem a ajuda do Modus. Sua API de invocação de modelos provou ser uma solução transformadora e, portanto, a mais fácil para o processo de integração de IA. Ao usar o Modus, obtive flexibilidade e facilidade para trabalhar com esses complexos modelos de IA.

A colaboração entre Modus, Whisper e Llama 3.1 criou um ecossistema poderoso que transformou essa concepção inicial em uma ferramenta de geração de conteúdo inteligente e totalmente funcional.

Implantação 🎉

Por fim, cliquei no botão “Implantar” no Vercel com uma ferramenta bem-sucedida que simplifica o processo de criação de conteúdo.

Tech Stack

Frontend: NextJS, TailwindCSS, Shadcn UI
Backend: Hypermode (https://hypermode.com)

Links Úteis

Disponível em: https://vidscribe-ai.vercel.app
Repositório do Vidscibe AI: https://github.com/Darshancodes/Vidscribe-ai
Instância do modelo Hypermode (Backend do Vidscribe): https://github.com/Darshancodes/vidscribe-modus-backend

Conclusão

O crescimento rápido da IA está revolucionando a maneira como criamos conteúdo. Não mais escrita, criação e conversão manuais – a IA já cuida disso!

Este projeto não vai parar por aqui. Ele está planejado com várias funcionalidades emocionantes que serão lançadas em breve, levando o Vidscribe ao próximo nível. Fiquem ligados!

Agradecimentos especiais ao Hypermode e ao Hashnode por organizar essa incrível hackathon. Que venham mais inovação e criatividade, aprendi muito! 🚀