AI News HubLIVE
站内改写2 分で読了

華為チップがDeepSeekモデルを微調整、中国のAI自立に大きな飛躍

華為技術を含む研究チームは、同社のAscend 910Cチップを使用してDeepSeek-V4-Proモデルのポストトレーニングを完了しました。これは、中国の半導体産業が複雑なAIモデル訓練において重要な進歩を遂げたことを示します。プロジェクトでは少なくとも1000個のチップを使用し、1.6兆パラメータのモデルを全パラメータ調整し、国内チップの推論から訓練への能力移行を実証しました。米国の制裁下で中国のAI自給自足を強化する一歩です。

ソースHacker News AI著者: mooreds

深セン市政府が金曜日に発表したところによると、華為技術を含む研究チームは、同社のAscend 910Cチップを使用してDeepSeek-V4-Proモデルのポストトレーニングを完了しました。これは、複雑なAIモデル訓練において中国の半導体産業が重要な進歩を遂げたことを示しており、米国の制裁強化の中で実現しました。

ポストトレーニングは、人間の指示、安全ルール、特定タスクに従ってモデルを最適化するプロセスであり、単純な推論よりもはるかに複雑です。従来、国内の計算リソースは主に推論に使用されてきましたが、今回のプロジェクトではモデルの「自己反省と調整」が可能になり、計算と通信の需要が数倍に増加しました。

研究チームは少なくとも1000個の華為チップで構成されるクラスターを使用し、DeepSeek最大のモデル(1.6兆パラメータ)に対して「全パラメータ」ポストトレーニングを実施しました。これはモデル全体のアーキテクチャを更新・最適化するものです。参加機関には華為、深セン湾区研究院、ハルビン工業大学(深セン)、深セン大数据研究院が含まれます。

米国によるエヌビディアやAMDなどの先端チップへのアクセス制限は中国のAI開発を遅らせる一方、国内企業に代替策の模索を促しています。先月、百度の執行副総裁である沈抖氏は、文心5.1モデルの主要バージョンが同社のKunlunxinチップを使用したクラスターで訓練に成功したと述べました。4月には、美団が国産チップのみで訓練されたとされる新しい兆パラメータAIモデルのテストを開始しました。

華為はAIのエージェント機能も推進しており、金曜日に華為雲は新しい「Agentic Infra」パラダイムを発表しました。これには推論と訓練のための計算リソースを割り当てるプラットフォームが含まれ、リソース利用率を30%以上向上させます。

今回の華為チップを用いた試験では、複雑な訓練タスクにおける国産ハードウェアの安定性と有効性が確認されました。深セン湾区研究院によると、5月の発表でモデルは1500回以上の訓練反復を中断やエラーなく完了し、数学的能力も向上しました。これらの進展は、中国のAI産業チェーンの自立性を高めることに貢献します。