PDF — не формат, а фитнес для нейросетей: кто выжил после трёхслойной таблицы с подписью в колонтитуле — тот и построил RAG. Databricks решает эту боль не пластырем, а скальпелем: новая функция ai_parse_document обещает превратить гору корпоративных PDF в аккуратные, запросопригодные данные одним вызовом.
Почему это вообще проблема? Потому что «PDF — это картинка с секретом»: цифровые страницы соседствуют со сканами, таблицы живут с объединёнными ячейками, схемы — с подписями, а пространственные отношения важнее, чем кажется. Традиционно компании собирали конструктор из распознавалок: отдельный сервис для лэйаута, другой — для OCR, третий — для таблиц, плюс API для фигур. Пайплайны хрупкие, дорогие и вечно ломаются, когда формат меняется.
ai_parse_document идёт другим путём: энд-ту-энд модель извлекает структурированный контекст сразу. Что получает пользователь:
- таблицы «как на странице», включая вложения и merge’ы;
- фигуры и диаграммы с автоматически сгенерированными подписями;
- координаты и bounding boxes для точной привязки;
- опциональные изображения для мультимодального поиска.
Результаты складываются в Unity Catalog как Delta-таблицы — никакого бегства данных из платформы. По заявлениям Databricks, при оптимизированном обучении и инференсе стоимость ниже в 3–5 раз при сопоставимом или лучшем качестве относительно Textract, Google Document AI и Azure Document Intelligence.
Сила — в интеграции. Spark Declarative Pipelines автоматически дообрабатывают новые документы из SharePoint/S3/ADLS. Vector Search индексирует текст, таблицы и фигуры. А дальше — цепочки: ai_parse_document → ai_extract (сущности) → ai_classify (категории) → ai_summarize (выжимка) внутри одного SQL-запроса. Над всем этим — Multi-Agent Supervisor, координирующий агентов.
Практика уже есть. Rockwell Automation сокращает настройку для дата-сайентистов, TE Connectivity упаковал тяжёлые кодовые ETL в один SQL-вызов, Emerson ускорил построение RAG — параллельный парсинг прямо в Delta облегчает жизнь и прототипам, и продам.
Ложка рациональности: компонент проприетарный и «женат» на платформе Databricks. Если вы не в экосистеме, придётся считать TCO и риски лока. Но тренд очевиден: документная «интеллектника» переезжает из внешних сервисов в ядро дата-платформы — туда, где данные живут и работают.
