內容創作令人精疲力竭。錄製視頻、編輯播客,然後寫博客?就像在早餐前完成三場馬拉松。但如果有一種方法可以將工作量減少90%,會怎樣呢?
這一切始於一個個人問題。你花了多個小時進行大幅度地計劃、錄製和編輯視頻或播客。你的內容充滿見解和價值。但接著來的是最誠實的任務 – 將那些多媒體轉換為可以觸及更廣泛受眾的書面博客。
想象一種工具,它能理解你的內容的真正價值,並幫助你加速內容創作過程。
Vidscribe AI:為未來打造
遇見VidScribe AI:不僅僅是另一個工具,而是一場將幾小時的工作轉化為幾分鐘魔法的內容創作革命。✨
Vidscribe AI讓您將視頻和音頻轉換為引人入勝、優化了SEO的博客文章。Vidscribe AI專為內容創作者、播客製作者、作家等設計,他們希望最大程度地擴展內容的觸及範圍。AI能理解您內容的上下文,並創建出一篇可讀性強、優化了SEO的文章,捕捉原始媒體的精髓。
也許你會想知道這一切是如何運作的?讓我們看看Vidscibe AI是如何施展其魔法的。
Vidscribe AI如何運作?
嗯,這太簡單了:
-
上傳您的多媒體內容,無論是充滿激情的播客討論、信息豐富的YouTube視頻,還是詳細的視頻教程,VidScribe AI都能處理。
-
接下來,讓VidScribe AI展現其魔力。它不僅僅是轉錄-它還能理解上下文、語氣和關鍵信息。
-
完成!祝賀您成功生成您的博客。現在您的多媒體內容已轉換為引人入勝、SEO優化的博客文章。🚀
功能
現在,讓我們來探索一些VidScribe AI提供的驚人功能。
視頻和音頻轉錄 📝
將視頻或音頻中的口語轉換為書面文本。通過AI驅動的語音識別確保高準確度。
AI強化的博客結構 ✍️
將提取的內容格式化為適合博客的結構,包括標題、副標題和段落。
自定義選項 🎨
用戶可以調整生成的博客的長度和深度,選擇簡要摘要或詳細文章。此功能還提供手動編輯以及向AI生成的內容添加個人修改的能力。
SEO優化的博客 🌐
根據影片/音訊內容識別流行且優化了SEO的關鍵字。並自然地將關鍵字融入部落格中,以增加在搜索引擎上的可發現性。不再為起草優化了SEO的部落格而煩惱。VidScribe AI已經為您完成了!
即時提取 ⬇️
在眨眼之間提取生成的部落格。您無需手動將其轉換為任何格式。VidScribe AI已經以markdown格式提供。
從概念到創作
每一個開創性的想法都始於一個概念,對於VidScribe AI也是如此。我們從一個簡單的概念開始;讓我們看看我們如何將這個想法變為現實。
構思
我從一個簡單但強大的觀察和問題開始。人們花費更多時間轉換他們的內容而不是創造它。有時,他們需要寫作和創作。這就是我們決定開發一些來解決這個問題的地方。
設計
如史蒂夫·喬布斯所說:
“設計不僅僅是外觀和感覺。設計是它如何運作。”
– 史蒂夫·喬布斯
謹記這一理念,我開始設計VidScribe AI的界面,通過進行研究並考慮如何使設計既有創意又簡單。許多現有的AI工具對於新用戶來說似乎過於複雜。這就是我決定設計一個既簡單又有創意的界面的地方,讓新用戶能夠輕鬆使用而不會感到困擾。
開發
設計完成後,是時候進入實作階段了。我首先選擇最適合項目需求的技術,如高精確度的語音轉文字轉換和可擴展性。
在初始階段,我經歷了多次迭代並克服了各種問題。確實,早期開發階段就像是一道道障礙。每次迭代都帶來一系列挑戰,但我一一克服。
隨著迭代逐漸成形,每次測試都像是一個里程碑,每個解決的問題都是一次小勝利。這是我第一次將 Modus 集成到 AI 應用中。雖然遇到了不同類型的問題,但參考 Modus 文檔使我的過程變得更輕鬆。這個開發過程不僅僅是寫代碼,而是不斷演進解決方案並運用批判性思維。
接下來,是 AI 部分,我應該要對模型進行精煉和訓練,使其完美地完成工作。
- 我決定使用 ChatGPT 的 Whisper 模型進行語音轉文字轉換。由 OpenAI 開發,Whisper 在眾多語音轉文字技術中脫穎而出,以其卓越的準確性和多語言支持而聞名。該模型的深度學習架構,通過大量多樣的數據集進行訓練,使其能夠以出色的精度處理各種口音、背景噪音和語言細微差異。
- 以下是 Whisper 模型集成的一瞥:
const transcriptions = await openai.audio.transcriptions.create({
model: "whisper-1",
file: file,
});
集成過程包括以下幾個步驟:
-
仔細配置模型參數以優化性能。
-
實施健全的錯誤處理和備援機制。
-
對模型進行微調以適應我們的特定用例和音頻輸入特徵。
-
其次,在部落格生成方面,我選擇了Meta的Llama 3.1-8B-Instruct模型。這個強大的大型語言模型為該項目帶來了複雜的自然語言理解和生成能力。8B參數模型在效率和生成之間達成了最佳平衡,使我們能夠創建具有語境相關性的內容。
這個模型的整合包括:
-
開發精確的提示策略以引導模型的輸出
-
實施上下文管理以確保內容生成的一致性和相關性
-
創建保障措施以維持內容的質量和原創性
這是模型配置的樣子:
{
"$schema": "https://schema.hypermode.com/modus.json",
"endpoints": {
"default": {
"type": "graphql",
"path": "/graphql",
"auth": "bearer-token"
}
},
"models": {
"text-generator": {
"sourceModel": "meta-llama/Meta-Llama-3.1-8B-Instruct",
"provider": "hugging-face",
"connection": "hypermode"
}
}
}
接下來,我使用了Modus SDK來動態調用模型。然後,我提供了指示和提示給模型,以達到最佳期望結果。Modus讓快速啟動任何AI模型變得更加容易。
import { models } from "@hypermode/modus-sdk-as";
import {
OpenAIChatModel,
ResponseFormat,
SystemMessage,
UserMessage,
} from "@hypermode/modus-sdk-as/models/openai/chat";
// this model name should match the one defined in the modus.json manifest file
const modelName: string = "text-generator";
export function generateBlogContent(transcriptions: string): string {
const instruction =
"You are a skilled content writer that converts audio transcriptions into well-structured, engaging blog posts in Markdown format. Create a comprehensive blog post with a catchy title, introduction, main body with multiple sections, and a conclusion. Analyze the user's writing style from their previous posts and emulate their tone and style in the new post. Keep the tone casual and professional.";
const prompt = `Please convert the following transcription into a well-structured blog post using Markdown formatting. Follow this structure:
1. Start with a SEO friendly catchy title on the first line.
2. Add two newlines after the title.
3. Write an engaging introduction paragraph.
4. Create multiple sections for the main content, using appropriate headings (##, ###).
5. Include relevant subheadings within sections if needed.
6. Use bullet points or numbered lists where appropriate.
7. Add a conclusion paragraph at the end.
8. Ensure the content is informative, well-organized, and easy to read.
9. Emulate my writing style, tone, and any recurring patterns you notice from my previous posts.
Here's the transcription to convert: ${transcriptions}`;
const model = models.getModel<OpenAIChatModel>(modelName);
const input = model.createInput([
new SystemMessage(instruction),
new UserMessage(prompt),
]);
// this is one of many optional parameters available for the OpenAI chat interface
input.temperature = 0.7;
const output = model.invoke(input);
return output.choices[0].message.content.trim();
}
坦率地說,如果沒有Modus的幫助,這一切都是不可能的。他們提供的模型調用API被證明是AI整合過程中一個轉變性且最簡單的解決方案。通過使用Modus,我在處理這些複雜的AI模型時獲得了靈活性和便利。
Modus、Whisper和Llama 3.1之間的合作創造了一個強大的生態系統,將這一最初的概念轉變為一個完全功能的智能內容生成工具。
部署 🎉
最後但並非最不重要的,我在vercel上點擊了“部署”按鈕,成功地使用了一個工具來簡化內容創建過程。
技術堆疊
-
前端:NextJS,TailwindCSS,Shadcn UI
-
後端:Hypermode (https://hypermode.com)
有用鏈接
-
Vidscibe AI 存儲庫:https://github.com/Darshancodes/Vidscribe-ai
-
Hypermode 模型實例(Vidscribe 後端):https://github.com/Darshancodes/vidscribe-modus-backend
結論
人工智慧的快速增長正在革新我們創建內容的方式。不再需要手動撰寫、創建和轉換 – 人工智慧已經全面覆蓋!
這個項目不會止步於此。計劃中包含多個令人振奮的即將推出的功能,將使 Vidscribe 達到新的水平。敬請期待!
特別感謝 Hypermode 和 Hashnode 組織這次令人驚嘆的黑客馬拉松。讚美創新和創造力,學到了很多!🚀
Source:
https://darshancodes.hashnode.dev/introducing-vidscribeai