GenAI 的倫理抉擇:生成式AI的道德使用
本文全面探討生成式AI(GenAI)的倫理問題,分析其在軟件開發等領域的優勢與弊端,包括巨大的能源消耗、電子垃圾、虛假信息傳播、對教育科學的威脅、對民主的危害以及數字殖民主義等問題。作者基於自身經驗提出,倫理行為需要權衡利弊,並主張在充分了解負面影響的前提下審慎使用GenAI。
- GenAI(如ChatGPT)存在能耗巨大、電子垃圾、虛假信息、知識產權爭議等嚴重負面影響。
- LLM不具備真正的推理能力,容易產生‘幻覺’且無法區分真假。
主題流
論文、基準、實驗系統與學術機構動態。
本文全面探討生成式AI(GenAI)的倫理問題,分析其在軟件開發等領域的優勢與弊端,包括巨大的能源消耗、電子垃圾、虛假信息傳播、對教育科學的威脅、對民主的危害以及數字殖民主義等問題。作者基於自身經驗提出,倫理行為需要權衡利弊,並主張在充分了解負面影響的前提下審慎使用GenAI。
維基媒體基金會在坐擁2.96億美元儲備金並通過向AI公司出售數據獲利的情況下,解僱了長期員工和整個社區技術團隊。這一行為激怒了志願者編輯,他們威脅發起罷工。文章探討了CEO的AI妄想症如何扭曲組織優先事項,以及AI行業對人力判斷的替代可能導致的惡性循環。
Anthropic 的最先進 Opus 模型 Claude Opus 4.8 在 Amazon Bedrock 和 AWS 上的 Claude Platform 正式可用。該模型在編碼、代理任務和專業工作方面帶來顯著改進,具有更強的自主性和一致性,適合長期生產工作負載。
本文探討了AI如何影響軟件工程面試,分析了不同類型的面試(家庭作業、現場練習、演講、實際工作)在信號質量和公司成本兩個維度上的表現。作者認為AI使家庭作業過於簡單,降低了現場編碼的相關性,建議限制AI在面試中的使用以保持信號質量,並借鑑傳統教育模式的經驗。
兩位讀者回應Wendy Liu關於AI的文章,認為AI確實改變了思考方式,但並未削弱人類的好奇心,反而激發了更多探索。
Google將“偏好來源”功能擴展至AI概覽和AI模式,允許用户添加喜愛的網站,使其在AI搜索結果中更突出。新功能還包括來源輪播和“被高度引用”標籤,幫助用户找到高質量報道。
麻省理工學院與馬薩諸塞州宣佈計劃建立量子系統實驗室(QSL),獲得州政府2500萬美元投資,為全州研究人員提供共享量子工具箱,加速量子研究、創新和增長。
Data Formulator 0.7 是一款開源AI系統,旨在解決企業數據分析中數據連接碎片化、分析工作流迭代困難等問題。它提供數據連接器、上下文感知代理和交互式工作區,幫助用户無需編程即可探索、分析和可視化數據。
Vox的一篇文章探討了日益壯大的AI繼承主義運動,該運動認為人工智能應該取代人類,成為宇宙進化的下一步,並分析了這引發的倫理和精神問題。
Google I/O 2026 主題演講發佈了多項重大更新,包括 Gemini Omni、Gemini 3.5 Flash、信息代理、通用購物車、Neural Expressive 設計語言以及智能眼鏡等。本文總結了 12 個最值得關注的時刻。
谷歌在I/O大會上推出Coral Board,這是一款專為設備端AI設計的緊湊型單板計算機,搭載RISC-V架構NPU和Synaptics芯片,可本地運行Gemma 3 270M模型,無需雲端支持。
一項新的分析顯示,頂級AI預測者正根據當前領先的AI實驗室調整對AGI(通用人工智能)時間線的預測。從ChatGPT到xAI、Meta、Gemini,再到Anthropic時代,預測方向多次反轉。
DeepSWE是一個新的基準測試,用於評估AI編碼智能體在全新、複雜的軟件工程任務上的表現。它避免了數據污染,覆蓋了多樣化的代碼庫,需要大量代碼修改,並使用手工編寫的驗證器。領先模型表現差異顯著,GPT-5.5以70%的準確率位居榜首。
CNN對AI搜索初創公司Perplexity提起訴訟,聲稱其AI工具生成CNN文章的“逐字”副本,並繞過付費牆向用户提供訂閲內容。訴訟指出,Perplexity無視CNN阻止數據抓取的努力,且此前曾嘗試與CNN達成授權協議但未能成功。CNN要求賠償並永久禁止Perplexity的侵權行為。
IBM與紅帽宣佈啓動Project Lightwell計劃,投入50億美元,結合先進AI能力和20000多名工程師,建立可信的企業級開源軟件安全清算所模式,旨在保障軟件供應鏈安全。
文章認為,AI輔助軟件開發的關鍵並非更好的規格説明或工具,而是古老的小批量與快速反饋循環實踐。數據顯示,更快的代碼生成導致設計、測試和審查環節出現瓶頸,反而使交付變慢、發佈更不穩定。真正的槓桿在於縮小批量、縮短反饋週期。
本文介紹了七個實用的AI項目,涵蓋求職、研究、投資分析、市場趨勢、發票處理、圖表數字化和個性化鍛鍊,每個項目都附有完整指南和代碼,幫助讀者自動化工作流程。
本文對比早期互聯網帶來的連接感與當代人工智能的孤立體驗,指出AI作為一種工具雖有用,卻無法替代真實的人類互動,並質疑AI是否存在真正促進社交的應用場景。
一項由宗教大學聯盟進行的研究發現,主要AI模型在回答倫理問題時傾向於世俗理性主義,忽視宗教視角。所有模型對耶和華見證人表現出負面偏見,而對天主教有正面偏見。
本文是AI驅動開發系列文章的第七篇,重點討論AI會話中的上下文管理。作者通過個人經歷(Gemini移動應用忘記之前記錄的筆記)引出上下文壓縮問題,並分享了四種實用技巧:將探索與文檔編寫分離、使用交接文檔而非延續提示、給AI設定驗收標準而非詳細步驟、以及使用規範文檔作為不同AI工具之間的橋樑。這些技巧適用於從編程到寫作的各種AI使用場景。
Hermes Desktop 是一個跨平台的桌面應用,它將 Python 運行時、hermes-agent(自改進 AI 代理)和 hermes-web-ui(Vue 3 + Koa 聊天儀表盤)打包到一個 Electron 應用中,用户無需單獨安裝 Python 或 Node。應用集成了 DingTalk 並通過 DeepSeek 驅動。
Perplexity AI 開源了用Rust重寫的Unigram分詞器,實現了比Hugging Face tokenizers crate低5倍的p50延遲,並將生產環境CPU利用率降低了5-6倍。優化包括雙數組trie、位圖打包和大頁面支持。
AIluminode 是一款輕量級 AI 預檢索認知定向工具,幫助 AI 在行動前檢查上下文姿態,通過路線極性(開放、保護、審計、延遲、阻斷)減少錯誤探索和上下文泄漏。
Axiom Math公司由00後華人洪樂潼創立,其AI系統AxiomProver生成的8篇數學論文中已有5篇被學術期刊接收。該公司於今年3月完成2億美元融資,估值達16億美元。
本文探討了AI如何引發數字產品設計的範式轉變,從傳統的命令驅動交互轉向意圖驅動交互,並分析了這種轉變在產品管理、用户體驗、決策邏輯、發佈週期、風險和價值創造等方面帶來的新挑戰。
本月AIhub月刊涵蓋科學中的AI會議、彩票假説訪談、世界模型討論、透明可信AI研究、基礎模型影響報告、AIES會議反思、機器人咖啡館、ACL論文拒稿政策、arXiv反AI垃圾政策等。
一羣前谷歌DeepMind、蘋果、OpenAI和Meta的研究員成立了新創公司Trajectory,旨在幫助企業通過真實用户交互持續改進AI產品。Trajectory旨在構建一個平台,讓AI能夠在部署後持續學習,而不是在訓練完成後停滯不前。該公司已獲得1500萬美元種子輪融資,估值1.15億美元,由Conviction領投。其CEO Ronak Malde表示,AI編程產品如Cursor已在實踐早期版本的持續學習,Trajectory希望將類似技術擴展到更多領域。
Robinhood 推出 Agentic Trading,用户可連接 AI 代理來自動化交易和信用卡購買,並配備安全控制和實時活動監控。
斯隆獎得主、UC Berkeley物理系助理教授戴亮加盟復旦大學,出任物理學系、天文與天體物理研究中心教授。復旦近年引進多名頂尖人才,包括蘇昊、袁峯、季索清等。
上個月,在北京半程馬拉松中,名為“閃電”的機器人以比人類世界紀錄快近七分鐘的成績完賽。這引發人們對機器人是否將像聊天機器人一樣進入日常生活的討論。中國領跑這場變革,政府承諾未來20年投資超1000億英鎊於機器人技術。
研究人員提出了一種基於事件的實時異步單目里程計,用於行星漫遊車。該方法利用誤差狀態卡爾曼濾波器處理事件相機數據,在高動態範圍光照和計算約束下實現穩健的自我運動估計。
本文提出了一種基於Transformer的架構Trinity,能夠在一個統一網絡中同時進行類特定語義分割和類無關地形分割。該方法無需預定義標籤或機器人相關的可通行性分數,僅基於視覺外觀分割地形區域,從而學習機器人無關的視覺地形先驗,可結合機器人特定經驗用於下游任務。為了支持大規模訓練,研究團隊擴展了OAISYS模擬器並推出RUGDSynth合成數據集,同時提供了EXTerra真實世界數據集。實驗驗證了該方法在複雜户外環境中的有效性。
研究人員提出了Speak-to-Objective模塊化智能管線,利用條件大型語言模型將口頭或書面命令轉換為可微分的優化目標函數,用於在約束感知逆解算器和實驗光流控平台上組裝微粒。該方法採用“感知-組合-提議-執行-報告與學習”的循環,將目標作為意圖與驅動之間的接口,實現自然語言可編程的微觀組裝,推動自主光製造平台的發展。
許多兒童面臨情緒調節和社交互動的挑戰,社交輔助機器人需要保持兒童的持續參與。本研究評估了一種觸覺機器人的兩種參與策略:合成情感反饋和積分獎勵。對16名6-8歲小學生的偏好評估顯示孩子更喜歡情感參與;而對14名20-27歲大學生的行為研究發現積分獎勵系統能帶來更高任務準確性(p<0.05)並維持表現。結果表明,不同年齡羣體的偏好和行為結果可能不一致,驗證設計假設需要通過實際交互觀察。
視頻生成模型越來越多地被用作世界模擬器,但現有基準僅評估單視頻質量,無法檢測模型是否真正理解因果關係。新提出的“如果世界”基準包含319對基於真實場景的提示對,通過改變一個物理變量來測試模型輸出的因果一致性。對9個最先進模型的評測顯示,最佳配對得分僅52%,開源模型約28%,且表現與視覺顯著性相關而非物理可解性。
一項針對Melanoscope AI移動皮膚鏡臨牀決策支持系統的前瞻性單中心臨牀驗證顯示,該系統在176名患者中與專家評估的一致率為88.6%,未出現假陰性,特異性為88.3%。研究開發了級聯深度學習模型的定量可解釋性評估方法和三區患者分診算法,為資源有限地區的皮膚癌篩查提供了可重複、可解釋的決策支持。
該研究提出表示條件擴散模型,利用DINOv2、DINOv3和CLIP的表示作為條件生成合成圖像數據,在ImageNet100上以+10.76 p.p.的top-1準確率顯著優於類條件生成。通過擴大合成數據集,甚至能超越真實數據訓練的模型(+2.0 p.p.)。此外,該方法在數據增強和樣本過濾方面也表現出色,為大規模視覺學習任務提供了一種有前景的替代或補充真實數據集的方案。
本研究提出了一種基於頭戴式慣性測量單元(IMU)的行為級活動識別方法,超越了傳統運動基元識別。研究團隊定義了五種與AR應用需求相匹配的行為類別,構建了包含16萬個樣本的Ego4D數據集,並提出了HiT-HAR層次模型(70.3萬參數),在五類動作和八類場景識別任務上優於現有模型。通過可分離性分析,揭示了頭戴式IMU的觀測極限:移動類行為可靠可觀測,物體轉移和任務操作類需要時間上下文,場景依賴信號重疊仍是挑戰。結果表明,利用時間上下文和場景結構的架構選擇優於簡單擴大模型規模。代碼和數據集已公開。
研究人員提出D²Turb框架,通過引入深度感知的湍流合成協議和自適應結構先驗注入機制,將大氣湍流緩解分解為紋理去模糊和幾何校正兩個交互階段,在合成和真實數據集上均達到最優性能。
第十屆ABAW研討會與競賽在CVPR 2026上舉辦,通過引入情感模仿強度估計、矛盾/猶豫識別和細粒度暴力檢測等新挑戰,以及傳統的情感估計和識別任務,推進多模態以人為中心的AI。競賽利用大規模野外數據集,論文軌道涵蓋從姿態估計到公平性和魯棒性的廣泛主題。
大型語言模型(LLM)作為計算社會分析的代理日益普及,但能否忠實再現人類社區的“厚描述”仍是關鍵挑戰。本文提出CARE(社區感知反應評估)框架,通過精細刻畫言外語調頻譜及其潛在態度,測評LLM模擬話語與真實社區對新聞事件的反應之間的差異。研究發現,使用明確社區提示引導LLM並不能天然提高模擬真實性,前沿模型間存在分歧行為特徵,表明當前對齊策略不足以捕捉在線羣體的社會語言動態。
新框架FLUID將自迴歸語言模型適配到擴散模型,實現高效並行文本生成。通過嚴格因果對齊重用GPT檢查點,並通過彈性視野機制根據信息密度動態調整去噪步長。該方法以數量級降低的訓練成本達到最先進性能。
研究人員發現,在低資源語言的口語模型中使用合成數據會導致“穩定性-表現力鴻溝”,並提出兩種自對齊框架(DGSA和TDSC),能夠恢復韻律變異性,超越ElevenLabs和Gemini Pro等商業系統,實現老撾語的首次零樣本人聲克隆。
BioELX是一種新穎的跨語言生物醫學實體鏈接框架,無需標註訓練數據。它通過維基百科多語言別名增強SapBERT,並利用預訓練LLM進行上下文感知消歧。在五個基準測試中,BioELX實現了最先進的性能,尤其在土耳其語、韓語和泰語等低資源語言上表現突出。
RAG-Coding是一種自動化ICD-10-CM編碼方法,通過協調四個大語言模型代理並基於外部知識源(如官方編碼列表和指南)進行決策,提高了編碼準確性和臨牀合規性。在MDACE數據集上,其性能優於最佳LLM基線8-13%的微觀F1和2-8%的宏觀F1。與最先進的預訓練模型PLM-ICD相比,RAG-Coding的微觀召回率高出11%,而PLM-ICD的微觀精確度高出6%,兩者F1相當。消融實驗驗證了外部知識的逐步增益。同時發佈了MDACE-2025,根據2025年最新指南重新標註,支持更細粒度的評估。
提出SignGAD框架,通過自設計檢測工作流替代固定流水線,引入保護性最終重擬策略,在少樣本場景下顯著提升圖異常檢測性能。
本文提出了一種輕量級的架構驅動偏移(ADS)度量,用於在持續學習中高效選擇預訓練模型。ADS通過解耦對數幾率偏移為架構依賴和數據依賴,僅需少量數據樣本即可捕捉偏移趨勢。實驗表明,ADS與對數幾率偏移之間存在強單調相關性(斯皮爾曼相關係數最低0.731),並可作為預期校準誤差的有效代理,在六個場景、三個數據集上驗證了其可靠性。
本綜述從三個關鍵視角探討混合專家模型(MoE)如何有效解決多模態學習挑戰:作為高效引擎、表示學習器和適配器,並指出可解釋路由、專家通信等研究空白。
本文提出$E^3$-Agent,一種面向邊緣AIGC資源管理的可執行與演化式智能體。該智能體將毫秒級的路由決策與事件驅動的LLM元控制器分離,通過在線學習適應未知且時變的服務時間映射。在模擬實驗中,$E^3$-Agent將平均延遲降低65%-73%,並有效抑制了語義退化下的卡頓率。
研究表明,結構化狀態空間模型中的對角變體S4D在時間序列分類任務上比複雜的Mamba架構更準確且高效。作者提出的輕量級改進MS4和MS4N進一步提升了性能,在59個數據集上優於Mamba模型,並匹敵參數量大2倍和10倍的深度學習模型。