DysLexLens:用於分析線上論壇中閱讀障礙學習者見解的低資源LLM框架
DysLexLens是一個端到端、可追溯證據的低資源大語言模型框架,透過分析Reddit論壇上的討論,研究閱讀障礙學習者使用AI工具的真實體驗。它採用詞典驅動過濾、知識圖譜推理、定量評估和定性驗證等方法,有效從嘈雜的社交媒體中提取相關資訊。
閱讀障礙學習者越來越多地使用人工智慧(AI)工具來輔助閱讀、寫作、組織和學習相關任務,但他們在使用這些工具時的真實體驗卻鮮少被深入研究。為此,研究人員提出了DysLexLens——一個低資源的大語言模型(LLM)框架,旨在透過分析線上論壇討論來洞察閱讀障礙學習者與AI工具互動的體驗。該研究由Dana Rezazadegan等九位作者共同完成,相關論文於2026年6月提交至arXiv。
DysLexLens被設計為一個端到端、可追溯證據的架構。它能夠將嘈雜的社交媒體帖子轉換為由詞典驅動的語料庫,提供基於知識圖譜(KG)的查詢推理,生成可驗證的查詢響應,並透過定量和人工評估來評價響應質量。該框架包含四個關鍵特性:首先,它採用詞典驅動的過濾方法構建更聚焦於閱讀障礙和AI的Reddit語料庫,濾除不相關或弱相關的帖子,從而提高從低資源論壇環境中收集資料的相關性。其次,它整合了LLM輔助的語義分析與基於知識圖譜的查詢推理,以揭示有意義的模式。第三,它使用定量評估指標(RAGAS和查詢魯棒性)來衡量LLM生成的響應效能。RAGAS用於評估生成響應的忠實度和相關性,而查詢魯棒性則測試模型在不同問題表述下的穩定性。第四,它提供了結構化的定性驗證指南,專門針對幻覺和證據對齊來評估響應質量,確保模型的輸出基於實際論壇證據。
研究團隊使用Reddit上與閱讀障礙相關的論壇資料和30個精心設計的問題展示了DysLexLens的有效性。結果表明,該框架具備推廣到其他低資源論壇資料環境的潛力,例如針對其他學習障礙或特定領域的論壇。為了提高研究的可重複性,DysLexLens的程式碼、示例資料、問題和評估結果均已釋出在GitHub上。這一研究不僅為分析特殊群體使用AI的體驗提供了新工具,也為在資料稀缺的領域中進行自然語言處理分析樹立了典範。此外,該框架的模組化設計意味著它可以適應不同的語言和人群,未來有望應用於更多低資源場景。