AI News HubLIVE

今日の必読ニュース

Agent

Android向けAIエージェント:RikkaHub Agent

RikkaHub Agent は、ローカルLLMチャットクライアントを強力なオンデバイスAIエージェントに変えるオープンソースのAndroidアプリです。80以上のデバイスツール、ワークフロー自動化、Telegramボット、SSH、音声文字変換などを備え、すべてローカルで動作し、プライバシーを重視しています。

  • RikkaHub のフォークで、Android LLMチャットクライアントを80以上のツールを持つオンデバイスエージェントに拡張。
  • ワークフロー、定期タスク、Telegramボット、内蔵ブラウザ、SSH、音声文字変換をサポート。
サイト内本文

PostgreSQLでAIオペレーターを試す

samtSQL を使用すると、既存の PostgreSQL データベース上で AI オペレーターを活用した SQL クエリを実行でき、テキスト、画像、音声などのマルチモーダルデータをサポートします。

  • PostgreSQL データベース上で AI オペレーターを使用した SQL の実行
  • テキスト、画像、音声のマルチモーダルデータをサポート
サイト内本文

AIは私たちをより自分らしくさせる

AIは悪いエンジニアを良いエンジニアにするのではなく、単に彼らを速くする。それは私たちの本質を変えず、私たちをより自分らしくする。怠惰またはずさんなプログラマーにとって、AIは低品質のコードの出力を加速し、AI自体が既存のパターンを疑問なくコピーする傾向があるため、技術的負債が固定化され大規模に拡散する。

  • AIは既存の特性を増幅し、能力を向上させない。
  • 悪いエンジニアは同じ判断力と盲点でより多くのコードを出荷する。
サイト内本文

AI安全性についての考察

AIの楽観主義に対する慎重でニュアンスのある論証:安全性、解釈可能性、バイアス、アラインメントが生の能力と同じくらい重要である理由。著者は、AIを善悪で単純化することは有害であり、内部メカニズムの理解、誤用とミスアラインメントへの対処、システムリスクの考慮が必要だと論じる。これは能力と理解のレースであり、安全性はその比率を逆転できるかにかかっている。

  • AIの可能性は大きいが、リスクも伴い、慎重なバランスが必要。
  • 解釈可能性はモデル内部を理解する鍵だが、現在は十分に達成されていない。
サイト内本文

金属合金の挙動をより高精度にモデル化する新手法

MITの研究チームは、機械学習モデルの訓練データセットを最適化することで、化学的に不規則な金属合金の原子環境の多様性を捉え、材料特性の予測精度を向上させる手法を開発した。この手法は、新材料の設計を加速することが期待される。

  • 情報理論を活用し、不規則合金内の多様な局所化学環境を捉える訓練データセットを構築。
  • 従来の力まかせ計算やGoogle・Microsoftの大規模モデルよりも高精度な予測を実現。
サイト内本文
チップ

AMD RX 580(2017年GPU)でVulkanを使用してローカルAIを実行 – CUDAもROCmも不要

この記事では、2017年のAMD RX 580 GPUで、llama.cppとstable-diffusion.cppのVulkanバックエンドを使用してローカルAI推論を実行する方法を紹介します。CUDAやROCmは不要で、ハードウェア設定、コンパイル手順、パフォーマンス結果をカバーします。

  • AMD RX 580はVulkan経由でローカルAIを実行可能、CUDAやROCmは不要
  • llama.cppとstable-diffusion.cppのVulkanバックエンドがGPUアクセラレーションを実現
サイト内本文
ツール

4000億パラメータモデル:コンソーシアム「エウロパ」がAIコンペティションに勝利

EU委員会は金曜日に「フロンティアAI大挑戦」の勝者を発表した。イタリアの企業Domynが率いるコンソーシアム「エウロパ」が競争に勝利した。この賞により、同盟は最先端のオープンソースAIモデルを開発するために必要なリソースを受け取ることになる。この名声あるプロジェクトは、EUの24の公用語すべてをカバーし、大陸の技術的野心を示すことを目的としている。

  • EU委員会が金曜日に「フロンティアAI大挑戦」の勝者を発表
  • イタリアのDomynが率いるコンソーシアム「エウロパ」が勝利
サイト内本文

Show HN:Claude Code、Codex、OpenCode のマルチプレイヤー利用追跡ツール Summer

Summer は Autumn が開発したローカル実行可能なオープンソースツールで、AI コーディングアシスタントの使用状況とコストを追跡します。Claude Code、Codex、OpenCode に対応し、ホスティング不要で、チーム全体の使用量をエンジニアごとに集計するローカルダッシュボードを提供します。

  • Summer はサーバーレスで動作するローカルオープンソースツール。
  • Claude Code、Codex、OpenCode の3つのAIツールに対応。
サイト内本文
研究

中国の5つのAIラボがトークン価格を最大99%引き下げ

ByteDance、Tencent、MiniMax、Alibaba、Xiaomiが競合するタイミングでAIトークン価格を50%から99%引き下げました。バンク・オブ・アメリカ証券のアナリストは、中国の主要AIモデル間の能力差が縮小していることが価格競争の原因だと分析しています。AlibabaのQwen3.7-Maxの50%割引は618セールに合わせたもので、AI競争と消費者プロモーションを融合させています。

  • 中国の5つのAIラボが短期間にトークン価格を50~99%引き下げ
  • バンク・オブ・アメリカ証券は主要プロバイダー間の能力差縮小を原因と指摘
サイト内本文
モデル

IEEE、大規模言語モデルの仮想トレーニングコースを提供開始

大規模言語モデル(LLM)は研究ラボを離れ、エンジニアの日常業務に浸透しています。IEEEは、技術専門家がLLMの構築と展開を習得するための5つのコースからなるオンラインプログラムを提供します。

  • LLM市場は2030年まで年率33%で成長し、習得が技術者の中核要件になりつつある。
  • エンジニアはトランスフォーマーアーキテクチャを理解し、単なる会話ロボットとして扱うのを超える必要がある。
サイト内本文
その他の更新(7件)
Agent

華為チップがDeepSeekモデルを微調整、中国のAI自立に大きな飛躍

華為技術を含む研究チームは、同社のAscend 910Cチップを使用してDeepSeek-V4-Proモデルのポストトレーニングを完了しました。これは、中国の半導体産業が複雑なAIモデル訓練において重要な進歩を遂げたことを示します。プロジェクトでは少なくとも1000個のチップを使用し、1.6兆パラメータのモデルを全パラメータ調整し、国内チップの推論から訓練への能力移行を実証しました。米国の制裁下で中国のAI自給自足を強化する一歩です。

  • 華為と研究機関がAscend 910CチップでDeepSeek-V4-Proのポストトレーニングに成功。
  • 1000個以上のチップクラスターで1.6兆パラメータモデルを全パラメータ調整。
サイト内本文

PhD_fleet – Slack経由でAI博士課程学生の仮想研究室を管理

PhD_fleetは、単一の研究者(アドバイザー)がSlackを通じてClaude Codeエージェント群を生成し対話するためのPythonツールキットです。各エージェントは独自のワークスペースを持ち、Slackメッセージでターンを駆動し、ファイルシステムを長期記憶として使用します。また、コーチエージェントがアドバイザーの指導を監視し、エビデンスに基づくフィードバックを提供します。

  • アドバイザーはSlackコマンドで複数のAI学生エージェントを生成でき、各エージェントは独立したワークスペースと長期記憶を持つ。
  • コーチエージェントが指導の相互作用を分析し、教育学的フレームワークに基づいた改善提案を行う。
サイト内本文

オープンソースのAIスキルでClaude/ChatGPTが本物の成果を出せるように、評価スコア付き

pm-claude-skills は、174のプロフェッショナルスキル(SKILL.mdファイル)を備えたオープンソースライブラリです。プロダクトマネジメント、エンジニアリング、カスタマーサクセスなど18の職業をカバーし、各スキルは評価検証済みで、AIにプロフェッショナルな出力を生成させます。ワークフローレシピ、スキルメモリー、マルチツール互換性も提供。

  • 18の職業分野をカバーする174のスキル
  • 構造・完全性・有用性・根拠の4軸で評価された品質
サイト内本文

内部データ分析エージェントの構築方法

GitHub の社内 Copilot 搭載分析エージェント Qubot は、従業員が自然言語でデータについて質問できるようにします。本記事では、その構築方法と学びを紹介します。

  • Qubot は Slack、VS Code、Copilot CLI 経由で利用可能で、探索的なデータ分析を可能にします。
  • コンテキストレイヤーが精度と応答速度の鍵であり、構造化されたコンテキストにより Qubot は3倍高速化しました。
サイト内本文
モデル

MiniMax M3 vs. GLM 5.2:自律コーディングタスクにおけるコード生成比較

Thinkbenchベンチマークにおいて、GLM 5.2は正解率でリード(92%フルパス)し、MiniMax M3はコストが低く高速。既存コードの修正タスクでは同等だが、新規構築ではGLMが堅実。曖昧な指示に対してMiniMaxはより完全なシステムを構築する傾向。

  • GLM 5.2は92%フルパス、MiniMax M3は84%
  • MiniMaxコスト$6.67、GLM$18.47;平均レイテンシ45秒 vs 80秒
サイト内本文

Checkmarxの新しいSASTエンジンはLLMが重要ではない。その後の処理が重要だ。

Checkmarxは、決定論的ルールベースのスキャナー、セキュリティデータで訓練されたLLM、そして結果が開発チームに届く前に真陽性か偽陽性かを分類する第3のエンジンを組み合わせた新しいSASTエンジンを発表した。同社はF1スコアが0.499で、業界平均の0.20を大きく上回り、テストでは最先端モデルが見逃した327件の真陽性を発見したと主張している。アーキテクチャの中核はオーケストレーション層であり、3つのエンジンを自動的に統合し、顧客が独自にマルチエンジンワークフローを構築する必要をなくす。

  • Checkmarxの新しいSASTエンジンは、決定論的ルールスキャナー、LLM、および結果が開発者に届く前に偽陽性をフィルタリングする「発見分析エンジン(FAE)」の3つのエンジンで構成される。
  • 同社はF1スコアが0.499で、業界平均(0.20)の2倍以上であり、テストでは最先端モデルが見逃した327件の真陽性を発見したと主張。
サイト内本文
ツール

AIユースケースに最適なスタックを見つける

Inferlayは、開発者がAIプロジェクトに適したテクノロジースタックを選択するのを支援するプラットフォームです。さまざまなツールやフレームワークを比較します。

  • InferlayはAIスタックの選択を簡素化します。
  • ツールの比較と推奨を提供します。