1つのコマンドでHF Jobs上にvLLMサーバーを実行 2026-06-26 09:00 UTC+9 Hugging Faceのインフラ上で、サーバーのプロビジョニングやKubernetesを必要とせず、1つのコマンドでプライベートなOpenAI互換のLLMエンドポイントを起動できます。秒単位の課金です。起動、クエリ、クリーンアップ、大規模モデルへの拡張、チャットUIの作成、SSHデバッグ、コーディングエージェントのバックエンドとしての利用まで、完全なフローをカバーし、Inference Endpointsとの比較も行います。
hf jobs run コマンドとvLLM Dockerイメージ、--expose 8000 オプションを使用して、HF Jobs上でvLLMサーバーを実行します。 エンドポイントはHugging Faceトークンで認証され、ジョブの名前空間への読み取り権限が必要です。curlやOpenAI Pythonクライアントでクエリ可能です。 ハイブリッドモデルはどのトークンをより正確に予測するか? 2026-06-26 01:11 UTC+9 Ai2チームは、7BパラメータのTransformerモデルOlmo 3とハイブリッドモデルOlmo Hybridを比較。ハイブリッドモデルは内容語(名詞、動詞、形容詞)や文脈推論が必要なトークンで優れるが、繰り返しトークンや閉じ括弧では優位性が消失する。トークンレベルの損失フィルタリングにより、アーキテクチャ間の微妙な差異が明らかになった。
ハイブリッドモデルは意味のあるトークン(内容語)で予測が正確だが、繰り返しトークンでは優位性がない。 ハイブリッドモデルは一部のアテンション層を再帰層に置き換え、固定サイズのメモリで系列の状態追跡に適する。 NVIDIA NeMo AutoModelによるTransformerファインチューニングの高速化 2026-06-25 01:00 UTC+9 NVIDIA NeMo AutoModelはHuggingFace Transformers v5をベースに、エキスパート並列化、DeepEP融合オールツーオールディスパッチ、TransformerEngineカーネルを追加し、MoEモデルのファインチューニングでトレーニングスループットを3.4~3.7倍、GPUメモリを29~32%削減、API変更は不要。
NeMo AutoModelはAutoModelForCausalLMを継承し、インポート行を変更するだけで性能向上を実現。 550Bモデルではエキスパート並列化により16ノードのH100クラスタでフルファインチューニングが可能に(Transformers v5はメモリ不足で実行不可)。 CUGAを使用した本格的なエージェントアプリの構築:軽量ハーネス上の24の実働例 2026-06-23 21:51 UTC+9 CUGAはIBMが開発したオープンソースのエージェントハーネスで、エージェント構築における配管作業を処理し、開発者はツールリストとプロンプトのみを記述すればよい。本記事では、IBM Cloudアドバイザーアプリの例を通して、CUGAの計画、リフレクション、ポリシーシステムがどのように堅牢で本番運用可能なエージェントを実現するかを解説する。
CUGAはオーケストレーション、状態管理、ツール呼び出しを抽象化し、開発者はツールとプロンプトに集中できる。 cuga-appsリポジトリには24の単一ファイルアプリが含まれており、それぞれが読み取り可能でコピー可能な実働例である。 Transformers.jsにおける提案中のCross-Origin Storage APIの実験 2026-06-23 09:00 UTC+9 この記事では、Cross-Origin Storage(COS)APIの提案を紹介します。このAPIは、暗号化ハッシュを使用してファイルを識別することで、WebアプリがAIモデルやWasmランタイムなどの大規模ファイルをオリジン間で共有できるようにします。Transformers.jsを例に、現在のキャッシュ分離が引き起こす重複ダウンロードの問題と、COSがハッシュベースの識別、柔軟なアクセス制御、整合性検証によってどのように解決するかを説明します。
現在のブラウザキャッシュはオリジンごとに分離されており、異なるアプリ間で同じAIリソースが重複ダウンロードされる。 Cross-Origin Storage(COS)APIは、ファイルを暗号化ハッシュで識別し、オリジン間共有を可能にする。 AI、オープンツール、人間の監視でhuggingface_hubを毎週リリース 2026-06-23 09:00 UTC+9 Hugging Faceチームは、AIとオープンソースツールを活用してhuggingface_hubのリリースサイクルを4~6週間から毎週に短縮し、人間による最終レビューを残しました。新しいパイプラインは1リリースあたり約0.25ドルのコストで、リリースノートの品質と統合問題の発見が向上しました。
リリース間隔が4~6週から毎週に短縮 AIがリリースノートを草稿するが、決定論的検証で正確性を保証 Hugging Face 上の PP-OCRv6: 1.5M から 34.5M パラメータの 50 言語対応 OCR 2026-06-22 22:18 UTC+9 PP-OCRv6 は PaddleOCR の最新の汎用 OCR モデルファミリーで、1.5M から 34.5M パラメータの 3 つのティアにわたり、50 言語をサポートします。PP-OCRv5_server と比較して、テキスト検出の Hmean が +4.6 ポイント、認識精度が +5.1 ポイント向上しました。新アーキテクチャには PPLCNetV4 バックボーン、RepLKFPN 検出モジュール、EncoderWithLightSVTR 認識モジュールが含まれます。Paddle Inference、Transformers、ONNX Runtime の複数の推論バックエンドをサポートします。
3 つのモデルティア: tiny (1.5M)、small (7.7M)、medium (34.5M) を提供し、様々な展開環境に対応。 中国語、英語、日本語、46 のラテン文字言語を含む 50 言語をサポート。 ローカルモデルでOpenClawリポジトリのトリアージを無料で実現!* 2026-06-22 09:00 UTC+9 OpenClawのメンテナーがローカルのオープンウェイトモデル(Gemma、Qwen)をエージェントハーネスで使用し、イシューやプルリクエストをリアルタイムでトリアージするシステムを構築。クローズドモデルに匹敵する性能をローカルハードウェアで実現。
ローカルモデル(Gemma、Qwen)はGitHubのイシューやPRを効果的に分類し、トリアージに利用できる。 読み取り専用シェル(reposhell)を備えたエージェントハーネスで安全にコードを調査。 MosaicLeaks: あなたの研究エージェントは秘密を守れますか? 2026-06-19 03:13 UTC+9 ディープリサーチエージェントがプライベート文書とWeb検索を組み合わせると、クエリログを通じて機密情報が意図せず漏洩する可能性があります。MosaicLeaksベンチマークはこのプライバシーリスクを定量化し、Privacy-Aware Deep Research (PA-DR) と呼ばれる訓練手法を提案します。これにより、タスクパフォーマンスを維持しながら情報漏洩を3倍以上削減します。
MosaicLeaksは、プライベートローカル文書とパブリックWebクエリを織り交ぜたマルチホップ研究チェーンのベンチマークを導入し、意図、回答、完全情報の3つの漏洩レベルを測定します。 タスクパフォーマンスのみを訓練すると成功率と漏洩率の両方が上昇しますが、PA-DRを使用すると回答/完全情報漏洩が34.0%から9.9%に減少し、厳密なチェーン成功率は58.7%を維持します。 LoRAを超えて:最も人気のあるファインチューニング技術を打ち負かせるか? 2026-06-18 09:00 UTC+9 LoRAは最も人気のあるパラメータ効率的ファインチューニング(PEFT)技術だが、特定のタスクでは他の手法が優れることを研究が示している。本記事では、Hugging FaceのPEFTライブラリとそのベンチマークを紹介し、ニーズに応じた適切なPEFT技術の選択方法を解説し、LoRAが常に最良とは限らないと指摘する。
LoRAはPEFT技術で支配的だが、最適とは限らない。 Hugging FaceのPEFTライブラリは統一APIとベンチマークを提供し、ユーザーの選択を支援する。 それはエージェント的に十分か?独自のツールでオープンモデルをベンチマークする 2026-06-18 09:00 UTC+9 新しいベンチマークフレームワークは、AIエージェントがソフトウェアライブラリを使用する際のプロセス全体の労力を評価します。Hugging Face Transformersをケーススタディとして、トークン使用量、時間、エラー率を異なるモデルとツール階層で測定し、使いやすさとリソース消費のトレードオフを明らかにします。
標準ベンチマークは最終回答のみをチェックするが、このフレームワークはトークンコストやエラーを含むプロセス全体を測定する 3つの階層(ベアインストール、クローン、スキル)をテストし、それぞれ異なるオーバーヘッドがある MolmoMotion:言語指導による3D動作予測 2026-06-18 00:26 UTC+9 MolmoMotionは、ビデオフレーム、オブジェクト上の3D点、および言語指示から、数秒後の3D点軌跡を予測する新しい3D動作予測モデルです。ロボット計画や制御可能なビデオ生成で既存手法を凌駕します。最大のデータセットMolmoMotion-1MとベンチマークPointMotionBenchも公開しています。
MolmoMotionは言語指示で3D動作予測を誘導し、既存手法を大幅に上回る性能を達成。 自己回帰型とフローマッチング型の2種類のバリアントを提供。 Hugging Face Hubからロボットハードウェアへ:Strands AgentsとLeRobotの統合 2026-06-17 19:18 UTC+9 AWSのオープンソースSDK「Strands Robots」がLeRobotを統合し、開発者は単一のAgentワークフローでHubデータセットから学習し、シミュレーションまたは実ロボットにポリシーをデプロイできます。本記事では5つのステップを解説し、ラップトップで実行可能なサンプルを提供します。
Strands Robots SDKはLeRobotをAgentToolsとして公開し、データセットからロボットハードウェアまでのエンドツーエンド制御を実現。 シミュレーションと実機は同一のDatasetRecorderとLeRobotDataset形式を共有し、互換性を確保。 GLM-5.2:長期間タスク向けに構築 2026-06-17 18:01 UTC+9 Z.AI が最新フラッグシップモデル GLM-5.2 を発表。長期間タスクに特化し、安定した 1M トークンコンテキストを提供。コーディングベンチマークで優れた性能を発揮し、IndexShare アーキテクチャで計算コストを削減。努力レベル制御により柔軟性を実現。MIT ライセンスで公開。
GLM-5.2 は 1M トークンの安定したコンテキストを提供し、長期間のエンジニアリングタスクをサポート。 FrontierSWE、PostTrainBench などの長期間コーディングベンチマークでオープンソースモデル中最上位。 エージェントリソースディスカバリー:エージェントに検索を任せる 2026-06-17 09:00 UTC+9 Agentic Resource Discovery(ARD)仕様は、AIエージェントがツール、スキル、他のエージェントを動的に発見できるようにする発見レイヤーを提供します。Hugging Face はHub上でリファレンスツールを実装し、自然言語検索を可能にしています。
ARDは、連合レジストリ全体でエージェント機能をカタログ化および検索するための標準を定義します。 Hugging FaceのDiscoverツールはARDを実装し、スキル、MCPサーバー、AIアプリケーションの自然言語検索をサポートします。 olmo-eval:モデル開発ループのための評価ワークベンチ 2026-06-13 00:56 UTC+9 olmo-evalは、LLM開発中の反復的な評価サイクルをサポートする新しい評価ワークベンチです。OLMES標準を基盤とし、柔軟なタスク定義、交換可能な実行時ポリシー、詳細な質問ごとの比較機能を提供し、開発者が介入が有意かどうかを判断するのに役立ちます。
モデル開発における反復的な評価ループ向けに設計され、ベンチマークの迅速な追加、チェックポイント間の実行、詳細な結果分析をサポートします。 Harborなどのツールとは異なり、軽量モードとサンドボックスモードの両方を提供し、ベンチマークのニーズに基づいて自動的に選択します。 PyTorch プロファイリング (第2部): nn.Linear から融合 MLP へ 2026-06-11 09:00 UTC+9 本記事は PyTorch プロファイリングシリーズの第2部であり、nn.Linear レイヤーの内部機構(転置操作、バイアス融合エピローグ技術、torch.compile の影響)を掘り下げます。その後、GeGLU 活性化関数を含む多層パーセプトロン (MLP) のパフォーマンス特性を解析し、GPU カーネルのスケジューリングと実行を示します。
nn.Linear はエピローグを介してバイアス加算を行列乗算カーネルに融合し、余分なメモリアクセスを回避します。 torch.compile は単一の nn.Linear 層には有意な高速化をもたらさないが、CPU ディスパッチのオーバーヘッドを排除します。 North Mini Code の紹介:Cohere初の開発者向けモデル 2026-06-10 00:56 UTC+9 Cohere は、エージェント型ソフトウェアエンジニアリングタスク向けに設計された、300億パラメータのMixture-of-Expertsモデル(アクティブパラメータ30億)「North Mini Code」をリリースしました。Apache 2.0ライセンスでHugging Face上で公開され、コーディングベンチマークで競争力のある性能を達成しています。
300億パラメータMoEモデル、アクティブパラメータ30億、エージェント型コーディングに最適化。 Artificial Analysis コーディングインデックスで同等のオープンソースモデルを上回る。 マルチメディアビルディングブロック:Hugging Face Spacesで3Dパリギャラリーを構築 2026-06-09 19:46 UTC+9 コーディングエージェントが2つのHugging Face Space(画像生成と3Dガウシアンスプラット再構成)をagents.md経由で呼び出し、パリのモニュメントを展示する3Dウェブサイトを自動構築。画像生成ツールや3D再構築ツールを直接使うことなく、エージェントが各SpaceのAPIを連鎖させて結果を統合。本記事は、マルチメディアAIにおける「ビルディングブロック経済」の到来を示し、モデルを呼び出し可能な部品としてエージェントが自在に組み合わせることで、統合障壁を劇的に低減する可能性を強調している。
コーディングエージェントが2つのHugging Face Spacesを呼び出し、画像生成と3Dガウシアンスプラット再構成を自動連鎖させ、パリのモニュメントの3Dギャラリーを構築した。 各Gradio Spaceのagents.mdファイルには完全なAPI仕様が記載されており、エージェントは手動統合なしでSpaceを利用できる。 NeuroBait: ADHDの脳にドーパミンを引き起こすためにモデルを微調整した話 2026-06-09 18:04 UTC+9 NeuroBaitは、ADHDの脳がタスクを開始できない「実行機能障害」を克服するために、ドーパミンを刺激するように微調整されたAIモデルです。著者の妻の観察から生まれ、従来のToDoリストではなく、温かみのある流れるような散文で小さな実行可能な一歩を提供します。LoRAを用いてGemma 3 12Bを微調整し、Hugging Face Spaceにデプロイされています。ADHDに限らず、圧倒されていると感じる誰でも役立ちます。
NeuroBaitは温かく流れるような散文で、小さな実行可能なアクションを提供し、ADHDの脳がタスクを始めるのを助ける。 著者の妻のADHDの実体験に基づき、LoRAでGemma 3 12Bを微調整。データセットは小さく厳選された合成データ。 GitHub CI を Hugging Face Jobs に移行する 2026-06-09 09:00 UTC+9 この記事では、GitHub Actions の CI を Hugging Face Jobs に移行する方法を詳しく説明します。GitHub ホストのランナーは速度が遅く、GPU を利用できないといった制限がありますが、ディスパッチャー Space、GitHub App、runs-on ラベルの変更により、CI ジョブを Hugging Face のインフラ上で CPU または GPU ハードウェアを使って実行し、ログをリアルタイムにストリーミングできます。Trackio の実践では、CPU ジョブの時間が約 30% 短縮されました。
GitHub Actions のデフォルトランナーは汎用マシンで低速、GPU 非対応。 Hugging Face Jobs はサーバーレスで CPU や T4、H200 などのハードウェアを柔軟に選択可能。 消えた暴落:5モデル経済における制御と創発 2026-06-08 22:10 UTC+9 単一モデルで確実に発生したバンクランの暴落が、5つの異なるラボの小規模モデルからなる評議会に置き換えた途端に消失した。外部ショックによる暴落誘発の試みは全て失敗し、最終的には決済の継ぎ目で決定論的な上書きを施すことで信頼できる結果を得た。
単一モデルではバンクランによる暴落が発生したが、異種混合の評議会ではエージェントが売らずに買い占めた。 外部ショック(噂、在庫過剰)ではマルチモデルシステムでの売却は強制できなかった。 パキスタン通知ヘルパーの構築:ローカルな安全問題のための小さなAIツール 2026-06-08 20:46 UTC+9 著者はHugging FaceのBuild Smallハッカソン向けに、パキスタンのローカルな安全性問題に焦点を当てたAIツール「パキスタン通知ヘルパー」を開発しました。このツールは小規模モデル(Qwen3.5 4B)を使用して不審なメッセージを分析し、リスクラベル、説明、安全な次のステップを提供します。英語とウルドゥー語に対応し、ウルドゥー語モードでは右から左へのレイアウトとウルドゥー語による評価を生成します。記事ではモデル選定、プロンプト、ウルドゥー語UI、Codexを使った迅速な開発に関する教訓を共有しています。
パキスタン通知ヘルパーは、パキスタンにおける不審なメッセージを対象としたローカルAI安全ツールで、テキストとスクリーンショットに対応。 最終モデルはllama.cppによるQwen3.5 4B Q8で、高リスク詐欺ケースとスクリーンショットケースのすべてを合格。 オープンソースコミュニティがOpenEnvをエージェントRLで支援 2026-06-08 09:00 UTC+9 OpenEnvは、ターミナル、ブラウザ、またはエージェントが操作できる環境を作成するためのツールです。本日、OpenEnvがさらにオープンになり、エージェントのトレーニングの未来をオープンソースにすることを発表します。本日より、OpenEnvはMeta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI、Hugging Faceを含む委員会によって調整されます。このプロジェクトは、報酬フレームワークやトレーナーではなく、RL環境のための相互運用性レイヤーに焦点を当てています。
OpenEnvはエージェント実行環境を作成するためのオープンソースツール 現在はMeta-PyTorch、Reflection、Unslothなどの主要AI組織からなる委員会が運営 Mythograph Atelier #1 - あなたにとって意味のある抽象芸術 2026-06-08 04:10 UTC+9 この記事では、Mythograph Atelierの着想について著者が説明します。これは、パーソナライズされた抽象画を生成するAIアートスタジオです。博物館訪問の影響、動的なAIネイティブアプリのビジョン、そしてアート生成前にユーザーを理解するために質問する好奇心旺盛なAIの概念を組み合わせています。
Mythograph Atelierは、個人的な意味を持つ抽象画を生成するAIアートスタジオです。 AIはアート生成前にユーザーの好みや感情を理解するために質問します。 スポンサー、特にOpenAI Codexバウチャーの使用に関する問題 - OpenAIチャレンジ 2026-06-07 20:38 UTC+9 Hugging Faceの「Build Small」ハッカソンで、参加者がOpenAI CodexとModalのバウチャーをアクティベートする際に問題が発生。特にCodexバウチャーのアクティベート方法が不明。OpenAI Codex Trackの賞金詳細と参加要件を紹介。コミュニティのサポート要請もカバー。
Codexバウチャーのアクティベートでキー入力箇所が見つからず。 Modalバウチャーは2回目の試行で承認された。 Her · हेर — Claude Code セッションの探偵 2026-06-07 19:13 UTC+9 Her は Claude Code のセッショントレースを解析し、プレーンな英語で出来事を再構築し、リスクのある操作(デプロイ、設定変更、シークレットなど)をフラグ付けし、トークン使用状況を表示するツールです。すべてローカル GPU 上で実行され、サードパーティの AI API は一切呼び出されず、トレースから質問に答える「Ask Her」アシスタントも備えています。
Her は Claude Code の .jsonl セッションファイルを読み取り、イベントを要約しリスクを強調表示。 すべての処理はローカル GPU 上で行われ、サードパーティ API は使用せずプライバシーを保護。 5つのラボ、5つの思考:小型モデルで構築するマルチモデル金融ドラマ 2026-06-07 04:02 UTC+9 本記事は、第2回Build Small Hackathonのフィールドレポートであり、「Thousand Token Wood」v2版について説明しています。このバージョンでは、森に住む5匹の生き物のエージェントがそれぞれ異なる小型言語モデル(OpenAI、OpenBMB、NVIDIA、および微調整済みQwen)によって駆動され、プレイヤーは影のフィナンシエとして融資、内部情報の提供(真偽あり)、空売り、賄賂、同盟の仲介を行います。記事では、サービング層の異種性(vLLM、CUDAツールキット)、モデルごとの癖、寛容なJSONパーサー、内部情報の秘密フラグがエージェントのプロンプトに漏れるのを防ぐファイアウォールなど、エンジニアリング上の課題について詳述されています。永続的なメモリはプロンプトの肥大化を避けるため、生の履歴ではなくバウンデッドサマリーで管理されます。結果は漏洩ゼロ、微調整済み0.5Bモデルの高い信頼性、異種エージェントからの創発的な行動を示しています。主な教訓:小型モデルは信頼できるフォーマット生成器だが推論は信頼できない;異種性は管理可能なコストで価値を追加する;秘密情報はデータフローレベルのファイアウォールを必要とする;バウンデッドメモリは推論を損なわずにエージェントを生き生きとさせる。
各エージェントが異なるラボの小型モデルを使用し、市場行動がよりリアルで創発的になる 情報非対称性はファイアウォール設計で保護され、内部情報のフラグがエージェントのプロンプトに漏れないことがテストで証明されている ジョブサーチャー:AIによる就職活動支援ツール 2026-06-07 00:36 UTC+9 ジョブサーチャーは、新卒者のためのAI搭載求人検索アシスタントです。履歴書を分析し、LinkedIn検索クエリを自動生成し、スキル、経験、学歴、業界、年次ごとの適合度を5次元で評価します。教師モデルにDeepSeek V4 Pro、生徒モデルにQwen3-8Bを使用し、2,500件の履歴書と約10,000件の求人データで学習。オープンソースでHuggingFace Spaces上で利用可能です。
履歴書を基にしたLinkedIn検索クエリの自動生成と多次元スコアリング DeepSeek V4 Pro(教師)とQwen3-8B(生徒)のモデル構成 ペルソナアトラス:有名な思考の地図を作る 2026-06-06 20:42 UTC+9 Persona Atlasは、AIエージェントが公開情報を収集し、著名人の行動プロファイルを構築するツールです。10のオープンな質問への回答を埋め込みベクトルに変換し、ユーザーが異なる人物の思考スタイル(ユーモア、懐疑、抽象など)を直感的に比較できるようにします。小規模モデルを使用し、能力ではなくスタイルを重視する「ビルドスモール」ハッカソンの成果です。
名前を入力するとAIエージェントが自動調査し、人物のプロファイルを作成。 10のオープンな質問への回答から埋め込みを生成し、人物間の定量比較を実現。