技能概述
Audio Jingle 技能支援三種音頻生成模式:
| 模式 | 模型 | 焦點 |
|---|---|---|
| music | Suno V5(預設)、Udio、Lyria 2 | 曲風 + BPM + 樂器編排 |
| speech | MiniMax TTS(預設)、FishAudio、ElevenLabs V3 | 腳本 + 聲音 + 節奏 |
| sfx | ElevenLabs SFX(預設)、AudioCraft | 紋理 + 衝擊感 + 持續時間 |
輸出為 MP3/WAV 文件保存到項目文件夾,音頻播放器自動顯示 transport controls。
觸發關鍵字
- music、jingle、bed、voiceover、tts、sound effect、音樂、配音、音效
什麼時候用
- 品牌 jingle / 廣告配樂
- 播客片頭 / 片尾音樂
- 語音合成(TTS)
- 產品演示音效
- 遊戲 / 應用 SFX
- 背景音樂(bed)
使用方法
自然語言觸發
帮我做一个30秒的jingle
生成一個 voiceover
整一個 sound effect
指定技能
用 audio-jingle 技能生成一個 coffee shop launch 嘅 30 秒 jingle
標準工作流程
Music 模式
- 讀項目元數據:
audioKind=music、audioModel、audioDuration - 規劃:曲風 + 參考藝人(1-2 個)、BPM + 調性、樂器(最多 5 件)、人聲(yes/no/hummed/choir)、情緒弧線
- 組裝 prompt — 綁定
audioDuration到 API 參數 - Dispatch 生成
Speech 模式
- 讀元數據:
audioKind=speech、audioModel、voice - 準備最終腳本(TTS 逐字執行 — 逗號都影響節奏)
- 注意:MiniMax TTS 嘅
--voice必須係真實voice_id(如male-qn-qingse),唔係描述性文字 - Dispatch 生成
SFX 模式
- 讀元數據:
audioKind=sfx、audioModel、audioDuration - 描述:紋理(impact / whoosh / ambience / foley)、持續時間、envelope(sharp attack vs gentle swell)
- Dispatch 生成
輸出格式
MP3/WAV 音頻文件,保存至項目文件夾。唔用 <artifact> 標籤。交付時包含:plan summary + 文件名 + 變體建議。
硬規則
- TTS 逐字執行腳本 — Dispatch 前務必校對
- MiniMax TTS 嘅
--voice用真實 voice_id,唔好用描述性文字 - Music:30s 以下 = 單一樂段;30-90s = intro + body;90s+ = full arc
- SFX:偏好一個精準描述嘅層,多過一段 "make it cool"
- 每次都要保存文件
實際例子
例子 1:咖啡廳 Jingle
用戶:「整一個 30 秒嘅 coffee shop launch jingle」
生成:
- Genre:indie-pop、92 BPM
- 樂器:electric piano、brushed drums、gentle bass
- 人聲:無("ahhh" choir on chorus)
- 輸出:
coffee-launch-30s.mp3
例子 2:播客 Voiceover
用戶:「用 audio-jingle 生成一段歡迎詞配音」
生成:
- Script:「歡迎收聽科技前線,我哋每週帶你了解最新科技趨勢」
- Voice:neutral Mandarin voice_id
- 輸出:
welcome-intro-15s.mp3