AI News HubLIVE
站内改写

AI MOD音樂重製:32位96kHz高清體驗

Quinlight Audio是一款支持MOD/S3M/XM/IT格式的追蹤音樂播放器和重製工具,利用AI引擎(AudioSR、LavaSR、FLowHigh、AP-BWE)對樣本進行實時重製,並提供A/B對比功能。它採用64位浮點混合器、多引擎共識算法(轉子流形上的Karcher均值)和各向異性插值,輸出32位浮點96kHz音頻。支持從壓縮包直接打開模塊,導出FLAC或AAC,並提供CLI批量處理。

文章情報

工程師進階

要點

  • 播放並重制追蹤音樂格式,支持AI引擎提升樣本質量至48kHz
  • 多引擎共識算法抑制幻覺,通過轉子流形上的Karcher均值合併頻譜
  • 64位雙精度混合器,各向異性插值,零量化失真
  • 支持實時A/B對比、批量渲染,以及從壓縮包直接加載模塊

為甚麼重要

這條新聞值得關注,因為播放並重制追蹤音樂格式,支持AI引擎提升樣本質量至48kHz。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Quinlight Audio 是一款專為追蹤音樂(MOD/S3M/XM/IT及相關格式)設計的播放器與重製工具。它不僅能夠播放模塊,還能利用可選的AI後端對樣本進行實時重製,並在播放過程中進行A/B對比。該項目由Kind Computers, LLC開發,採用Linux優先的發佈策略,主要面向x86_64平台。

該工具通過內嵌的libopenmpt庫以雙精度混音器播放模塊,支持直接從ZIP、7z、RAR等壓縮包中打開模塊。在重製方面,Quinlight Audio支持多種AI引擎,包括AudioSR、LavaSR、FLowHigh和AP-BWE,能夠將原始樣本(通常為8–22kHz)上採樣至48kHz。用户可以在播放過程中實時切換原始、48kHz參考(通過FFmpeg sinc重採樣)以及AI重製版本,而無需重新啓動歌曲。

為了處理多個AI引擎的輸出,Quinlight Audio採用了一種創新的多引擎共識算法。該算法在轉子流形(ℝ⁺ × S¹)上對每個頻率倉進行Karcher均值計算:幅度取幾何均值,相位取圓均值,並通過相位一致性(0–1)縮放共識幅度。引擎之間相位分歧較大的頻率倉(典型的“幻覺”特徵)會被自動衰減。在源信號的奈奎斯特頻率以下,共識結果會與原始頻譜進行轉子混合,以保持低頻段的真實性;而在奈奎斯特頻率以上,則直接採用共識結果。這種方法的優勢在於,相比於笛卡爾座標系下的線性混合,它能夠顯式地處理相位不一致導致的幅度衰減,從而避免預回聲和瞬態模糊。該算法目前正在申請美國專利。

在音頻質量方面,Quinlight Audio採用端到端的64位浮點處理鏈。所有混音總線操作(音量、聲像、插值、濾波器反饋)均以雙精度進行,音量漸變使用Hermite平滑曲線(t²(3−2t))替代線性漸變,以消除音符過渡時的“拉鍊”噪聲。通道濾波器採用級聯4極點設計(IT式2極點諧振雙二階濾波加巴特沃斯後置濾波器),提供24 dB/倍頻程的滾降,且係數路徑無整數截斷。

插值濾波器採用64抽頭多相sinc,具有65536個相位(16位相位精度)和八度間距的mipmap鏈。每個mipmap級別獨立調整Kaiser窗的β值(從單位增益時的14.0到128倍降採樣時的8.0),並引入各向異性速度剪切係數(k_β = 0.65, k_β² = 0.15),從而在快速音高掃掠時保持阻帶的清潔。SIMD內核支持SSE2、AVX、AVX2和AVX-512,並在運行時選擇最寬的可用路徑。

默認播放/導出目標為96kHz、32位浮點(64位端到端混音)。用户可以將實時結果導出為FLAC或AAC(256 kbps),並支持對目錄中的模塊進行批量CLI渲染。此外,該工具還提供了Linux桌面應用安裝功能(--install-icon)。

即使沒有安裝AI引擎,Quinlight Audio的核心播放器、壓縮包支持、參考清理路徑和導出功能仍然可用。該項目在GitHub上開源,採用MIT許可證,並提供預編譯的96kHz音頻示例包供試聽。