Show HN:用於本地LLM推理和GPU/CPU上XGBoost訓練的AI/ML基準測試
一個開源的基準測試套件,透過一條命令即可全面測試本地GPU/CPU在AI/ML工作負載上的效能,包括Ollama LLM推理和XGBoost訓練,並自動生成互動式HTML報告。
文章情報
要點
- 支援Ollama LLM(3B-14B引數)和XGBoost訓練/推理基準測試
- 單命令執行,自動生成HTML報告和Streamlit儀表板
- 可選擇上傳加密結果以幫助建立參考資料庫
- 支援CPU和NVIDIA GPU,AMD GPU部分支援
為什麼重要
這條新聞值得關注,因為支援Ollama LLM(3B-14B引數)和XGBoost訓練/推理基準測試。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
AI/ML GPU Bench 是一個開源基準測試套件,旨在幫助使用者評估本地GPU和CPU在典型人工智慧和機器學習工作負載上的效能。該專案由 GitHub 使用者 albedan 建立,目前獲得了13顆星和0個分支。
該套件的核心功能是透過一條命令執行完整的基準測試,並生成互動式HTML報告。它涵蓋了兩種主要工作負載:Ollama LLM推理(支援3B到14B引數的多種模型)和XGBoost訓練與推理(使用HIGGS資料集,從10萬行到1000萬行以上)。所有測試都透過一個YAML配置檔案(ai_bench_suite.yaml)和執行指令碼(run_suite.py)編排。
使用非常簡單:克隆倉庫後,執行uv run run_suite.py即可。首次執行可能需要更長的時間,因為uv會自動建立環境並安裝依賴。如果需要進行Ollama基準測試,需要確保Ollama已安裝並執行在http://localhost:11434。還可以使用--autopull標誌自動拉取缺失的Ollama模型。
測試結果會以CSV檔案記錄,並自動執行Jupyter筆記本生成HTML報告,在瀏覽器中開啟。報告包含與參考系統的對比。此外,專案還提供了一個定期更新的Streamlit儀表板(https://ai-ml-gpu-bench.streamlit.app),方便檢視不斷增長的結果集。
為了幫助建立參考資料庫,使用者可以選擇上傳加密的測試結果(使用RSA 4096位加密)。上傳僅包含技術基準資料,不包含提示、模型輸出或系統檔案。使用者可以使用--no-upload-results標誌完全跳過上傳。
專案支援多種執行模式:可以單獨執行Ollama或XGBoost基準測試,也可以使用--fast選項只測試較快的模型。對於沒有GPU的使用者,套件會自動跳過GPU測試。對於AMD GPU,Ollama可以利用GPU加速,而XGBoost可能僅在CPU上執行。
該套件還注重隱私保護:結果分享預設啟用,但使用者可以透過命令列選項選擇退出。所有基準測試引數都可以在YAML檔案中自定義,例如註釋掉不需要測試的LLM模型。
總之,AI/ML GPU Bench 是一個全面、易用的本地AI/ML效能測試工具,適合從個人開發者到研究人員的各類使用者。