Mistral AI尋求30億歐元融資,推動歐洲人工智能發展
法國人工智能初創公司Mistral AI正在談判新一輪約30億歐元的融資,估值約為200億歐元,旨在加強其在歐洲AI領域的地位。
- Mistral AI正在談判30億歐元融資輪
- 公司估值約200億歐元
長尾標籤
追蹤開源權重模型、開放授權、社群評測、模型蒸餾和本地部署。
法國人工智能初創公司Mistral AI正在談判新一輪約30億歐元的融資,估值約為200億歐元,旨在加強其在歐洲AI領域的地位。
激活引導可以改變大語言模型的行為,但標準評估通常不測試減少奉承行為的引導方向是否也會抑制對事實正確陳述的同意。本文引入雙立場評估,對Llama-3-8B-Instruct應用質心差分引導,發現模型將奉承性同意和事實性同意表示在幾何上不同的子空間中,但引導方向在兩個子空間上的投影相等,無法區分目標。因此,引導同時減少了奉承性陳述和事實正確陳述(如“地球是圓的”)的同意。所有其他靜態屬性均匹配,表明行為分離源於生成動態或殘差流分析無法解析的更精細結構。這一模式揭示了一個普遍差距:從激活中可讀的表徵不一定可通過激活寫入。
谷歌DeepMind的DiffusionGemma是一款實驗性的開源模型,採用擴散方式並行生成文本塊,相比傳統的自迴歸模型,在本地推理時速度更快。它基於Gemma 4 26B A4B MoE架構,犧牲部分質量換取速度,特別適用於交互式編輯等任務。本文解釋了其架構、文本擴散的工作原理、基準測試結果,並提供了使用llama.cpp在本地運行的分步指南。
Cohere 發佈了其首個面向開發者的編碼模型 North Mini Code。這是一款 30B 總參數、3B 活躍參數的混合專家模型,可在單張 H100 GPU 上運行,支持 256K 上下文長度。模型專注於代碼生成、智能體軟件工程和終端任務,權重採用 Apache 2.0 許可發佈。
Ollama的MLX引擎更新後,在Apple Silicon上實現了最高性能。通過更充分利用蘋果統一內存和Metal支持的MLX框架,模型輸出質量更高,響應更快,內存佔用更低。新支持NVFP4格式,輸出速度提升高達20%,並引入快照系統優化代理工作流。
谷歌發佈了名為DiffusionGemma的新開源模型,基於Apache 2許可證,可在NVIDIA的NIM雲API上免費使用。該模型在生成速度上表現卓越,達到每秒500個token以上。
谷歌發佈26億參數的DiffusionGemma模型,採用擴散方式生成文本,速度是傳統自迴歸模型的四倍,但質量較低,目前作為實驗工具。
DiffusionGemma是Google DeepMind推出的實驗性開放文本生成模型,採用文本擴散而非標準自迴歸解碼,在專用GPU上可實現最高4倍生成加速。模型參數量26B(MoE架構,推理時僅激活3.8B),基於Gemma 4骨幹,支持多模態輸入(文本、圖像、視頻),上下文窗口256K,覆蓋140+語言,採用Apache 2.0許可。
谷歌DeepMind發佈了DiffusionGemma實驗性開源模型,通過並行生成文本而非逐詞預測,大幅提升速度。NVIDIA對其進行了優化,使其在GeForce RTX、RTX PRO和DGX Spark等平台上運行更快,本地即可實現高達1000 tokens/sec的推理速度。
NeuroBait是一個針對ADHD大腦微調的AI模型,旨在通過提供温暖、可操作的小步驟來克服任務啓動癱瘓,而不是傳統的待辦事項列表。該項目源於作者的妻子患有ADHD,通過觀察和實踐,利用LoRA在Gemma 3 12B模型上訓練,並部署在Hugging Face Space上。它不僅是ADHD工具,也能幫助任何感到不知所措的人。
一項新研究評估了開源大語言模型LLaMA 3.1從荷蘭語腦MRI報告中自動提取結構化信息的能力。模型在視覺評分等分類變量上表現優異,但在數值變量上表現較差,而少樣本提示能顯著提升數值變量的提取準確率。
本文詳細介紹瞭如何在單張 32GB VRAM 的 RTX 5090 顯卡上,通過 llama.cpp 的 TurboQuant 分支和 YaRN 縮放技術,運行 Qwen 3.6 35B MoE 模型並實現 450K token 的上下文窗口。內容涵蓋模型選擇、量化權衡、內存預算校準、KV 緩存量化、RoPE 縮放、多模態設置、實際複製指南、VRAM 生命週期管理以及性能評估。
NVIDIA發佈了Nemotron 3.5 ASR,這是一個600M參數的流式自動語音識別模型,採用緩存感知的FastConformer-RNNT架構,支持40種語言區域的實時轉錄,且內置標點和大小寫功能。模型以開放權重形式發佈在Hugging Face上,許可協議為OpenMDW-1.1。
一個名為tinderbox的個人項目,允許用户導出Claude.ai對話、本地索引並通過MCP服務器在任意Claude會話中搜索。支持混合檢索、Supabase存儲、Ollama嵌入。
Google DeepMind為Gemma 4系列發佈了量化感知訓練(QAT)檢查點,旨在支持邊緣設備和消費級GPU的本地部署。本文基於官方數據比較了BF16、Q4_0 QAT和新型移動QAT三種格式,分析其內存佔用、質量保持和設備適配性。
谷歌發佈採用量化感知訓練(QAT)的Gemma 4新檢查點,顯著降低內存需求,支持在邊緣設備和消費級GPU上本地運行。自定義移動量化格式將E2B模型內存佔用降至1GB以下,同時保持模型質量。
2026年6月3日,Google推出Gemma 4 12B Unified,一款開源多模態模型,支持文本、圖像、音頻和視頻,擁有256K上下文窗口,專為筆記本電腦上的智能體工作流和本地部署設計。本文解析其架構、特性、基準測試對比及開發者上手指南。
即使準確率相同,不同的開源大語言模型(LLM)在錯誤嚴重性分佈上也存在顯著差異——這種差異是標量錯誤率所無法捕捉的。我們引入了Errorquake-10k基準測試,包含10,000個查詢,在8個領域和5個難度等級上對每個回答進行0-4連續嚴重性評分,併為21個開源模型擬合了嚴重性分佈。
Ollama 0.30 現已發佈,通過 llama.cpp 帶來更優性能和 GGUF 模型兼容性,增強了 Apple Silicon 上的 MLX 引擎,支持更多硬件和模型。
NVIDIA發佈了Nemotron 3 Ultra,這是一個550B總參數(55B活躍)的開放混合專家(MoE)模型,採用混合Mamba-Attention架構,專為長時間運行的智能體設計。它支持100萬token的上下文,推理吞吐量比同類開放LLM高出約6倍,同時保持相同精度,並附帶開放權重、訓練數據和配方,採用OpenMDW-1.1許可。
NVIDIA 發佈 Nemotron 3.5 Content Safety,這是一個統一的、支持多模態輸入、多語言覆蓋、自定義企業策略執行和可審計推理的內容安全模型。該模型基於 Google Gemma 3 4B IT 構建,通過 LoRA 適配器進行微調,支持 12 種語言的顯式訓練和約 140 種語言的零樣本泛化。它引入了自定義策略執行(通過自然語言策略規範)和推理跟蹤(THINK 模式)功能,可提供可審計的逐步推理。該模型在多項多語言和多模態安全基準測試中平均準確率約為 85%,同時保持了緊湊的 4B 參數大小和低延遲特性。NVIDIA 還發布了配套的安全數據集,包含多模態、多語言的安全推理跟蹤數據。
該模型採用Apache 2.0許可發佈,是雲提供商讓企業能夠在本地設備上運行模型以支持代理工作流的又一例證。
本文介紹如何通過Ollama和Scikit-LLM Python庫,免費使用本地託管的開源大語言模型(如Llama 3、Mistral和Gemma)進行文本分類任務。
POLARIS是一種針對小型開源模型的訓練方法,通過GRPO策略結合LLM裁判和人類參考注入,顯著提升了長文本創作能力。訓練後的9B模型在長度遵循度和質量上可與27B模型媲美,並展現出強大的長度泛化能力。
NVIDIA Nemotron 3 Ultra 是一款5500億總參數(550億活躍參數)的開放模型,專為長時間運行的代理驅動工作流設計,支持百萬token上下文,並採用NVFP4優化,在代理任務上具有領先的準確性和成本效益。
谷歌發佈了Gemma 4 12B模型,這是一個120億參數的AI模型,可在配備16GB內存的消費級筆記本上運行,填補了Gemma 4系列中移動端與高性能型號之間的空白。
谷歌DeepMind發佈開源模型Gemma 4 12B,原生處理文本、圖像和音頻,可在僅16GB RAM的筆記本電腦上運行。其性能幾乎與兩倍大小的26B模型相當,並採用Apache 2.0許可證,可用於商業用途。
Google DeepMind 發佈 Gemma 4 12B,這是一款 120 億參數的密集多模態模型,採用無編碼器設計,直接將視覺和音頻輸入 LLM 主幹。該模型可在 16GB RAM 的消費級筆記本電腦上本地運行,並採用 Apache 2.0 許可證。它原生支持文本、圖像、音頻和視頻,是首個具備原生音頻功能的中型 Gemma 模型。
Ideogram 發佈4.0版本文本生成圖像模型,作為開源權重模型,提供原生2K分辨率、邊界框控制和改進的文本渲染。在DesignArena排行榜中,該模型在所有開源模型中排名第一;只有OpenAI和Google的閉源系統得分更高。商業使用需要付費許可。
MIT和MIT-IBM計算研究實驗室的研究人員開發了ChartNet數據集,包含超過一百萬張多樣化圖表,用於訓練視覺語言模型。該數據集使小型開源模型在圖表理解任務上超越大型商業模型,有望幫助預算有限的小型企業更有效地利用AI。
研究人員提出了MIND(數據流形感知圖像擴散模型),通過將離散補丁標記化集成到連續擴散模型的得分函數中,顯式建模流形幾何。該方法在ImageNet 256×256上實現了FID 2.06(MIND-B,1.3億參數),優於LlamaGen-3B(31億參數)的FID。
提出SENSE方法,通過基於目標模型隱藏狀態的語義檢索和軟門控評估,提升檢索式推測解碼的魯棒性和效率,在LLaMA和Qwen上實現高達4.09的平均接受長度和3.26倍加速。
本文提出了一種延遲逐步獎勵歸因方法,結合資格門控、異步rollout生成等,使8B參數開源模型在NeurIPS 2025 MindGames Arena基準測試中擊敗GPT-5等大型系統,贏得雙賽道第一。
中國AI公司MiniMax發佈了其新模型M3,號稱是首個結合頂尖編碼性能、百萬token上下文窗口和原生多模態能力的開源模型。
NVIDIA在Computex主題演講中發佈了Nemotron 3 Ultra,擁有550B參數(55B活躍),是美國開放權重模型中智能最高的,AI Index得分48,推理速度超過300 tokens/s。
MiniMax 發佈了 M3 模型,這是首個將編碼與智能體能力、稀疏注意力實現百萬 Token 上下文、以及原生多模態融合的開源權重模型。模型在 SWE-Bench Pro 等基準測試中表現優異,API 已上線並提供首週五折優惠,權重和技術報告將在約 10 天內發佈。
MAVEN(模塊化智能體驗證與執行網絡)是一種輕量級符號推理框架,旨在通過結構化分解、自適應工具編排和中間驗證來增強智能體在工具調用環境中的泛化能力。在MAVEN-Bench壓力測試中,MAVEN將GPT-OSS-120b基礎模型的準確率從48%提升至71%,且無需額外訓練。該框架在使用開源模型的情況下,成本僅為專有模型的1/10,展現了輕量級驗證中心框架在組合推理方面的潛力。
Mistral Vibe是一款AI代理,專為長期運行的多步驟工作和編程任務設計。本文介紹其功能及在Product Hunt上的討論。
在即將於法國埃維昂舉行的第52屆G7峯會前夕,G7數字與科技部長會議就開源AI的共同語言及其重要性達成共識,明確了開源AI、開放權重AI等定義。
開放權重AI模型缺乏安全護欄,變得日益普及,引發安全擔憂。一種名為“abliteration”的新方法可輕易移除模型限制,使任何人都能利用它們從事有害活動,如生成恐怖主義內容或製造武器。儘管有合法用途,但監管和防護措施仍面臨挑戰。
根據Epoch的內部能力指標(ECI),開放權重模型通常需要平均4個月才能達到閉源模型的先進性能。ECI是一種綜合衡量標準,涵蓋了多個基準測試的表現。
SnapName 是一款 macOS 應用,利用本地捆綁的 Gemma 4 AI 模型自動為截圖命名,確保圖像不會離開你的 Mac,從而保護隱私。
在Mistral AI峯會上,CEO Arthur Mensch表示歐洲必須在兩年內建立足夠的AI基礎設施,否則可能淪為美國AI的“附庸國”。峯會吸引了眾多歐洲企業和政府代表,強調數據主權和開源模型,但歐洲在投資和規模上仍遠落後於美國對手。
一個研究項目展示了在2017年MacBook Air上,通過結合人類實驗者、Codex、llama.cpp、本地數據庫和IBM量子處理器採樣,將Qwen3-30B模型的推理速度從0.09 tokens/sec提升至14.03 tokens/sec,同時保持輸出連貫性。該方法並非在量子處理器上運行模型,而是用量子採樣優化推理配置。
英偉達的X-Token解決了GOLD在跨分詞器知識蒸餾中的兩個結構性缺陷,在GSM8k等數學推理基準上取得了顯著改進。它利用投影矩陣和P-KL與H-KL損失之間的選擇機制來處理分詞器不匹配問題。
本文分享了作者在巴黎Mistral AI Now峯會上的個人見解。Mistral不再只是一家模型公司,而是構建了包含計算、模型、平台和諮詢服務的完整AI堆棧。峯會重點強調了與ASML、BNP Paribas、亞馬遜等企業的合作,而非新模型發佈。Mistral專注於高效、開放和可定製的模型,並支持本地部署,這成為其區別於Anthropic或OpenAI的獨特賣點。小型專用模型是關鍵戰略,例如用於OCR的Document AI、多語言語音的Voxtral和工業機器人的Robostral。主權和本地部署是歐洲企業的差異化優勢,如BNP Paribas和Abanca的案例。此外,奧地利科學院利用Mistral的編程模型Codestral解讀古代紙莎草文獻,展示了AI在人文領域的潛力。總而言之,Mistral的目標並非贏得AGI競賽,而是成為歐洲的全棧AI合作伙伴,提供即時的實際投資回報。
本文探討了開源AI策略的侷限性,特別是開放權重模型和開放協議(如MCP)如何被私有參與者捕獲價值。通過分析Anthropic收購Stainless(一家生成SDK和MCP服務器的初創公司)的案例,説明了開發者體驗層正在被平台巨頭整合,形成新的護城河。文章強調,開源的影響高度依賴於其依賴關係,需要從生態系統整體視角分析瓶頸。
一項針對14個開源安全護欄模型的全面評估顯示,Qwen Guard(4B參數)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表現保守,漏掉多達75%的不安全內容。研究還發現,模型大小與安全檢測性能無關,通用型護欄模型優於專用模型。
本文介紹了一個518M參數的阿拉伯語專用大型語言模型RightNow-Arabic-0.5B-Turbo,基於Qwen2.5-0.5B構建。通過詞彙注入和邊緣優先部署,該模型在阿拉伯語基準測試中達到35.9%的平均準確率,超越了同類開源模型,並在COPA-ar上與1.5B參數量的Falcon-H1-1.5B持平,而體積僅為後者的三分之一。量化後模型僅398 MB,在單塊H100上可實現635 tokens/s的推理速度。所有代碼和權重均已開源。
法國初創公司Mistral AI在Digital Realty的巴黎南園區獲得了10兆瓦的計算能力,以擴展其AI基礎設施。
追蹤 AI 編程助理、程式碼生成、IDE 插件、開發者工作流程和軟件工程自動化。
追蹤 Model Context Protocol、工具調用、連接器、Agent 上下文和企業整合。
追蹤推理價格、延遲、吞吐、快取、量化、服務商成本和部署效率。
追蹤 Agent 框架、編排、記憶、評測、工作流程自動化和生產部署。
追蹤中國 AI 公司、模型、政策、芯片生態、開源社群和商業化進展。
追蹤 GPU、數據中心、集群網絡、AI 雲、訓練基礎設施和供應鏈。
追蹤模型 API 價格、方案、上下文窗口、免費額度、單位 token 成本和商業模式。
追蹤 DeepSeek 模型、API、開源權重、推理效率、生態合作和全球影響。
追蹤 Qwen/通義千問模型、開源權重、多模態、Agent 能力、API 和企業落地。