Нейросеть GLM (z.ai) позволяет довольно удобно и недорого (по сравнению с западными аналогами) по API распознавать документы, картинки и обрабатывать информацию с них.
Как это можно использовать для бизнеса:
Есть отдельная статья как работать с ИИ GLM.
Здесь разберем метод отправки запроса к ИИ GLM с файлами.
Модели с поддержкой зрения: glm-4v, glm-4.5v, glm-4.6v, glm-4.7
Эндпоинт: https://api.z.ai/api/paas/v4/chat/completions
Получение API ключа: https://open.bigmodel.cn/
Body:
{
"model": "glm-4.6v",
"messages": [{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}},
{"type": "text", "text": "Опиши изображение"}
]
}]
}
Возможные типы контента, передаваемые в ИИ:
|
Тип
|
Описание
|
Пример использования
|
|---|---|---|
text |
Обычный текстовый запрос
|
{"type": "text", "text": "Опиши изображение"} |
image_url |
Изображение по ссылке (URL) или Base64
|
{"type": "image_url", "image_url": {"url": "https://..."}} |
video_url |
Видеофайл по ссылке или Base64
|
{"type": "video_url", "video_url": {"url": "https://.../video.mp4"}} |
file_url |
Документы для анализа
|
{"type": "file_url", "file_url": {"url": "https://.../doc.pdf"}} |
Возможные форматы файлов:
|
Категория
|
Форматы
|
Ограничения
|
|---|---|---|
|
Документы
|
.pdf, .docx, .txt, .xlsx, .pptx, .jsonl |
До 50 МБ, до 50 страниц для PDF
|
|
Изображения
|
.jpg, .jpeg, .png, .webp, .bmp |
До 5 МБ, макс. 6000×6000 px
|
|
Видео
|
.mp4, .mkv, .mov, .avi |
До 200 МБ, до 2 часов длительности
|
|
Файл
|
Возможности анализа
|
|---|---|
|
📊 PDF/DOCX
|
Извлечение текста, распознавание таблиц, формул, структуры документа, суммаризация
docs.z.ai
GitHub
|
|
🖼️ Изображения
|
Детекция объектов, OCR, описание сцены, визуальный поиск, координаты элементов (bounding box)
docs.bigmodel.cn
|
|
🎬 Видео
|
Распознавание событий по времени, суммаризация, ответы на вопросы о конкретных моментах, детекция действий
docs.bigmodel.cn
|
|
📈 Таблицы (XLSX)
|
Анализ данных, выявление трендов, генерация выводов
modelscope.cn
|
url:
{"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,/9j/4AAQSkZJRg..."}}
Пример запроса с разными типами контента:
{
"model": "glm-4.6v",
"messages": [{
"role": "user",
"content": [
{
"type": "text",
"text": "Проанализируй этот отчёт и изображение"
},
{
"type": "file_url",
"file_url": {
"url": "https://cdn.example.com/report.pdf"
}
},
{
"type": "image_url",
"image_url": {
"url": "https://cdn.example.com/chart.png"
}
}
]
}]
}