Распознавание и анализ документов и картинок через ИИ в личном кабинете

Введение

Нейросеть GLM (z.ai) позволяет довольно удобно и недорого (по сравнению с западными аналогами) по API распознавать документы, картинки и обрабатывать информацию с них. 

Как это можно использовать для бизнеса: 

Как работает обработка файлов в ИИ GLM 

Есть отдельная статья как работать с ИИ GLM. 

Здесь разберем метод отправки запроса к ИИ GLM с файлами. 

Модели с поддержкой зрения: glm-4v, glm-4.5v, glm-4.6v, glm-4.7
Эндпоинт: https://api.z.ai/api/paas/v4/chat/completions

Получение API ключа: https://open.bigmodel.cn/

Body: 

{
  "model": "glm-4.6v",
  "messages": [{
    "role": "user",
    "content": [
      {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}},
      {"type": "text", "text": "Опиши изображение"}
    ]
  }]
}

Возможные типы контента, передаваемые в ИИ: 

Тип
Описание
Пример использования
text
Обычный текстовый запрос
{"type": "text", "text": "Опиши изображение"}
image_url
Изображение по ссылке (URL) или Base64
{"type": "image_url", "image_url": {"url": "https://..."}}
video_url
Видеофайл по ссылке или Base64
{"type": "video_url", "video_url": {"url": "https://.../video.mp4"}}
file_url
Документы для анализа
{"type": "file_url", "file_url": {"url": "https://.../doc.pdf"}}

Возможные форматы файлов: 

Категория
Форматы
Ограничения
Документы
.pdf, .docx, .txt, .xlsx, .pptx, .jsonl
До 50 МБ, до 50 страниц для PDF
Изображения
.jpg, .jpeg, .png, .webp, .bmp
До 5 МБ, макс. 6000×6000 px
Видео
.mp4, .mkv, .mov, .avi
До 200 МБ, до 2 часов длительности

Что умеет GLM с этими файлами:

Файл
Возможности анализа
📊 PDF/DOCX
Извлечение текста, распознавание таблиц, формул, структуры документа, суммаризация
docs.z.ai
GitHub
🖼️ Изображения
Детекция объектов, OCR, описание сцены, визуальный поиск, координаты элементов (bounding box)
docs.bigmodel.cn
🎬 Видео
Распознавание событий по времени, суммаризация, ответы на вопросы о конкретных моментах, детекция действий
docs.bigmodel.cn
📈 Таблицы (XLSX)
Анализ данных, выявление трендов, генерация выводов
modelscope.cn

 Технические ограничения и рекомендации:

  1. Размер файла:
  2. Контекст: Модели поддерживают до 128K токенов, что позволяет обрабатывать длинные документы и видео до 2 часов
     
  3. Base64 вместо URL: Если файл не доступен по публичной ссылке, его можно закодировать в Base64 и передать в том же поле url:
    json
    {"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,/9j/4AAQSkZJRg..."}}
  4. Мульти-модальные запросы: Можно комбинировать несколько типов в одном запросе — например, текст + изображение + документ

Пример запроса с разными типами контента:

{
  "model": "glm-4.6v",
  "messages": [{
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "Проанализируй этот отчёт и изображение"
      },
      {
        "type": "file_url",
        "file_url": {
          "url": "https://cdn.example.com/report.pdf"
        }
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "https://cdn.example.com/chart.png"
        }
      }
    ]
  }]
}

Где получить API-ключ и документацию:

 

Страница-источник на сайте falconspace.ru