最新の記事
Ctx2Skill
From Context to Skills: Can Language Models Learn from Context Skillfully?

Multi-Agent Transactive Memory
この論文は、LLM エージェントが実行中に生んだ行動軌跡を、個別 agent の一時ログではなく、異種 agent population が検索・再利用できる共有メモリとして扱う。

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness
この論文は、AI scientist の研究過程をモデル内部の暗黙推論に閉じ込めず、証拠、アイデア、実験、修復、主張監査を永続アーティファクトとして外部化する research harness として読むと面白い。

A Framework for Evaluating Agentic Skills at Scale
Agent skills / SKILL.md のような再利用可能な手順書が、実際に agent の振る舞いと成果を変えているかを測るための評価フレームワーク。skill 由来の実行可能タスク、隠し rubric、with-skill / without-skill 比較で、skill の価値と弱点を診断する。

AgenticRAG: Agentic Retrieval for Enterprise Knowledge Bases
AgenticRAG は、既存の企業検索基盤の上に、LLM が search / find / open / summarize を自律的に使う軽量ハーネスを重ねる論文。固定された検索候補だけで答えるRAGから、検索・文書内探索・全文窓読み・文脈管理を反復するRAGへ移す。

TokenPilot: Cache-Efficient Context Management for LLM Agents
TokenPilot は、長期 LLM agent の文脈管理を「削る」だけでなく、prompt cache が効く形で入力レイアウトを安定させる問題として扱う論文。入口で文脈を整え、残存価値が切れたものだけを保守的に捨てる二層設計を提案する。

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry
HarnessX は、AI agent の性能を model 単体ではなく、prompt、tools、memory、control flow からなる runtime harness の設計・適応・進化問題として扱う論文。実行 trace を使って harness を組み替え、検証し、改善する foundry を提案する。

Agents-K1: Towards Agent-native Knowledge Orchestration
Agents-K1 は、研究エージェントに渡す知識を、論文リストや要約ではなく、主張・証拠・手法系譜をたどれる agent-native knowledge graph として構築する論文。KG、抽出モデル、CLI をつなぎ、研究エージェントが実行可能な知識基盤として使える形にする。

Recursive Agent Harnesses
Recursive Agent Harnesses は、長大コーパスを扱う agent の再帰単位を、裸の model call ではなく、ファイル操作・コード実行・計画・サブエージェント生成を持つ full harness にする論文。サブエージェント活用を設計論として捉えるための語彙がある。

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
変化し続ける端末、ソフトウェア、社会的好みに対して、LLM エージェントの記憶が現在状態へ追従できるかを測る論文。静的な benchmark ではなく、環境更新の履歴を含む評価として agent memory を捉え直す。

TAHOE: Text-to-SQL with Automated Hint Optimization from Experience
TAHOE は、Text-to-SQL の失敗経験を構造化された Hint Bank に変換し、実行時に関連ヒントを検索して SQL 生成を改善するシステム。プロンプト最適化を、場当たり的な文面調整ではなく、動的なデータ管理問題として扱うところが面白い。

What makes a harness a harness: necessary and sufficient conditions for an agent harness
agent harness という曖昧に使われる言葉を、coding agent を実行可能なシステムにする境界層として定義し、framework、SDK、IDE plugin、eval harness、orchestrator と切り分ける概念分析の論文。
