Распознавание и анализ документов и картинок через ИИ в личном кабинете

Введение

Нейросеть GLM (z.ai) позволяет довольно удобно и недорого (по сравнению с западными аналогами) по API распознавать документы, картинки и обрабатывать информацию с них.

Как это можно использовать для бизнеса:

модерация файлов на предмет запрещенки - голые на фото, мат, скрытый обмен контактами.
считывание текстовой информации из документа.
категоризация файла - соотнесение файла к определенной категориии на основе его содержания.
создание саммари по файлу, генерация описания к товару по картинке.
анализ скриншота сайта для целей повышения юзабилити и т.д.

Как работает обработка файлов в ИИ GLM

Есть отдельная статья как работать с ИИ GLM.

Здесь разберем метод отправки запроса к ИИ GLM с файлами.

Модели с поддержкой зрения: glm-4v, glm-4.5v, glm-4.6v, glm-4.7
Эндпоинт: https://api.z.ai/api/paas/v4/chat/completions

Получение API ключа: https://open.bigmodel.cn/

Body:

{
  "model": "glm-4.6v",
  "messages": [{
    "role": "user",
    "content": [
      {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}},
      {"type": "text", "text": "Опиши изображение"}
    ]
  }]
}

Возможные типы контента, передаваемые в ИИ:

Тип	Описание	Пример использования
`text`	Обычный текстовый запрос	`{"type": "text", "text": "Опиши изображение"}`
`image_url`	Изображение по ссылке (URL) или Base64	`{"type": "image_url", "image_url": {"url": "https://..."}}`
`video_url`	Видеофайл по ссылке или Base64	`{"type": "video_url", "video_url": {"url": "https://.../video.mp4"}}`
`file_url`	Документы для анализа	`{"type": "file_url", "file_url": {"url": "https://.../doc.pdf"}}`

Возможные форматы файлов:

Категория	Форматы	Ограничения
Документы	`.pdf`, `.docx`, `.txt`, `.xlsx`, `.pptx`, `.jsonl`	До 50 МБ, до 50 страниц для PDF
Изображения	`.jpg`, `.jpeg`, `.png`, `.webp`, `.bmp`	До 5 МБ, макс. 6000×6000 px
Видео	`.mp4`, `.mkv`, `.mov`, `.avi`	До 200 МБ, до 2 часов длительности

Что умеет GLM с этими файлами:

Файл	Возможности анализа
📊 PDF/DOCX	Извлечение текста, распознавание таблиц, формул, структуры документа, суммаризация docs.z.ai GitHub
🖼️ Изображения	Детекция объектов, OCR, описание сцены, визуальный поиск, координаты элементов (bounding box) docs.bigmodel.cn
🎬 Видео	Распознавание событий по времени, суммаризация, ответы на вопросы о конкретных моментах, детекция действий docs.bigmodel.cn
📈 Таблицы (XLSX)	Анализ данных, выявление трендов, генерация выводов modelscope.cn

Технические ограничения и рекомендации:

Размер файла:
- Изображения: ≤ 5 МБ
- Видео: ≤ 200 МБ
- Документы: ≤ 50 МБ
Контекст: Модели поддерживают до 128K токенов, что позволяет обрабатывать длинные документы и видео до 2 часов
Base64 вместо URL: Если файл не доступен по публичной ссылке, его можно закодировать в Base64 и передать в том же поле url:
json
```
{"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,/9j/4AAQSkZJRg..."}}
```
Мульти-модальные запросы: Можно комбинировать несколько типов в одном запросе — например, текст + изображение + документ

Пример запроса с разными типами контента:

{
  "model": "glm-4.6v",
  "messages": [{
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "Проанализируй этот отчёт и изображение"
      },
      {
        "type": "file_url",
        "file_url": {
          "url": "https://cdn.example.com/report.pdf"
        }
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "https://cdn.example.com/chart.png"
        }
      }
    ]
  }]
}

Где получить API-ключ и документацию:

Официальный портал: https://open.bigmodel.cn/
Документация по Vision-моделям: https://docs.z.ai/guides/vlm/glm-4.6v
API Reference: https://docs.z.ai/api-reference/llm/chat-completions

Страница-источник на сайте falconspace.ru