Databricks учит ИИ читать PDF: один вызов вместо десятка сервисов

PDF — не формат, а фитнес для нейросетей: кто выжил после трёхслойной таблицы с подписью в колонтитуле — тот и построил RAG. Databricks решает эту боль не пластырем, а скальпелем: новая функция ai_parse_document обещает превратить гору корпоративных PDF в аккуратные, запросопригодные данные одним вызовом.

Почему это вообще проблема? Потому что «PDF — это картинка с секретом»: цифровые страницы соседствуют со сканами, таблицы живут с объединёнными ячейками, схемы — с подписями, а пространственные отношения важнее, чем кажется. Традиционно компании собирали конструктор из распознавалок: отдельный сервис для лэйаута, другой — для OCR, третий — для таблиц, плюс API для фигур. Пайплайны хрупкие, дорогие и вечно ломаются, когда формат меняется.

ai_parse_document идёт другим путём: энд-ту-энд модель извлекает структурированный контекст сразу. Что получает пользователь:

таблицы «как на странице», включая вложения и merge’ы;
фигуры и диаграммы с автоматически сгенерированными подписями;
координаты и bounding boxes для точной привязки;
опциональные изображения для мультимодального поиска.

Результаты складываются в Unity Catalog как Delta-таблицы — никакого бегства данных из платформы. По заявлениям Databricks, при оптимизированном обучении и инференсе стоимость ниже в 3–5 раз при сопоставимом или лучшем качестве относительно Textract, Google Document AI и Azure Document Intelligence.

Сила — в интеграции. Spark Declarative Pipelines автоматически дообрабатывают новые документы из SharePoint/S3/ADLS. Vector Search индексирует текст, таблицы и фигуры. А дальше — цепочки: ai_parse_document → ai_extract (сущности) → ai_classify (категории) → ai_summarize (выжимка) внутри одного SQL-запроса. Над всем этим — Multi-Agent Supervisor, координирующий агентов.

Практика уже есть. Rockwell Automation сокращает настройку для дата-сайентистов, TE Connectivity упаковал тяжёлые кодовые ETL в один SQL-вызов, Emerson ускорил построение RAG — параллельный парсинг прямо в Delta облегчает жизнь и прототипам, и продам.

Ложка рациональности: компонент проприетарный и «женат» на платформе Databricks. Если вы не в экосистеме, придётся считать TCO и риски лока. Но тренд очевиден: документная «интеллектника» переезжает из внешних сервисов в ядро дата-платформы — туда, где данные живут и работают.