Если ваш RAG думает, что таблицы — это салат, и перемешивает всё вилкой, значит пора менять поварёшку: предобработка. Юмор в сторону — проблема не в больших языковых моделях, а в том, как мы нарезаем и видим документы.
Стандартный подход «фиксированных кусочков» (разбить каждые N символов) работает для художественных рассказов, но он убийца для мануалов. Заголовок таблицы может оказаться в одном векторе, а значение — в другом; при запросе «Каково напряжение?» система выдаст догадку, а не факт. Это не ложнотелкинг модели — это архитектурный дефект.
Решение — семантический чанкинг. Вместо слепой нарезки используем интеллект структуры документа: главы, разделы, целые таблицы и подписи остаются неделимыми. Сохранение логической целостности заметно повышает точность извлечения данных и спасает технические спецификации от фрагментации.
Но ещё хуже — слепота на визуальную информацию. Чертежи, схемы, блок-схемы и аннотации — это «тёмные данные», если их просто пропустить. Мультимодальная текстуализация превращает картинки в слова: OCR вынимает текстовые метки, а зрительная модель генерирует подробные описания («блок A ведёт в блок B при температуре выше 50°C»). Эти описания встраиваются как метаданные и векторы, делая изображения доступными для поиска.
Надёжность достигается через слой доверия: UI с визуальными ссылками. Вместо сухой строки «см. файл.pdf» показывайте пользователю ту самую таблицу или схему, на которую опирается ответ. Так пользователи быстрее проверяют утверждения и доверие к системе растёт.
Будущее за нативными мультимодальными эмбеддингами и длинными контекстами, когда можно будет вбросить весь мануал в окно модели. Пока же экономически и практично — семантическая предобработка, OCR+генеративные подписи и визуальные цитаты. Перестаньте кромсать документацию — дайте RAG шансы действительно понять ваш бизнес.
