Обработка большого массива данных от ИИ при массовой генерации контента
Все же генерация контента напрямую через чат Deepseek более удобна чем по API:
1. Можно сразу подгрузить множество материалов по платформе (чтобы контент создавался с учетом этих данных). И не нужно передавать много раз большие объемы данных по API - один раз в диалоге все файлы закинул и дальше они будут учитываться в чате в этом диалоге.
2. Чат Deepseek совсем бесплатный (хотя и АПИ недорогое, но так совсем токены не тратятся).
3. Контекстное окно диалога в Deepseek сильно было расширено для 4 версии и можно генерировать гораздо больше (т.е. он не забывает вводные данные в первых сообщениях чата).
Но главная проблема - надо как то удобно обработать большой массив информации от DeepSeek и в идеале 1 махом загрузить в систему.
Ранее я использовал просто текстовый формат с разделителем статей в ----, но это много ручной работы по вставке контента в сами статьи.
Чтобы уменьшить количество ручных операций при генерации контента можно задействовать XML формат. CSV, JSON в этом плане более хрупкие форматы (статья генерируется сразу в формате HTML5).
Промпт для настройки нужного формата выдачи генерации статей:
"
Будем генерировать статьи в спец формате, чтобы потом можно было быстро подгрузить.
Формат генерации статей XML - корневой элемент root, в нем несколько item (это текстовые материалы, где тело - это статья в HTML5 тегах, и атрибуты code (код статьи), title(название статьи)).
В теле статьи не нужны сист теги - только теги разметки статьи h2,h3,h4, p, strong, a, img, b, i, blockquote.
Не нужно в тело статьи добавлять h1 c названием статьи.
И содержимое item засуть в CDATA, чтобы общий XML не ломался при парсинге
В начале файла не добавляй <?xml version="1.0" encoding="UTF-8"?>
"
Проверяем как он теперь выдает данные:
Напиши 2 очень краткие статьи про B2b и B2с
Получаем отклик и обрабатываем в SQL
declare @s1 XML = '
<root>
<item code="b2b-overview" title="B2B: бизнес для бизнеса">
<![CDATA[
<h2>Что такое B2B?</h2>
<p><strong>B2B (Business-to-Business)</strong> — модель взаимодействия, где товары и услуги продаются одной компанией другой.</p>
<h3>Ключевые особенности</h3>
<p>Длительные циклы сделок, крупные оптовые заказы, персональные условия и <a href="#">договорная работа</a>. Примеры: поставка сырья, корпоративное ПО, логистика.</p>
<blockquote>«В B2B важны доверие и долгосрочное партнёрство».</blockquote>
<h4>Каналы продвижения</h4>
<p>Профильные выставки, LinkedIn, холодные звонки, <b>тендеры</b> и <i>CRM-системы</i>.</p>
]]>
</item>
<item code="b2c-overview" title="B2C: бизнес для потребителя">
<![CDATA[
<h2>Что такое B2C?</h2>
<p><strong>B2C (Business-to-Consumer)</strong> — продажа напрямую конечным покупателям.</p>
<h3>Ключевые черты</h3>
<p>Короткие сделки, <a href="#">массовый спрос</a>, низкая цена единицы товара и акцент на эмоциях. Примеры: интернет-магазины, кафе, мобильные приложения.</p>
<img src="b2c-example.jpg" alt="Пример B2C" />
<h4>Маркетинг в B2C</h4>
<p>Контекстная реклама, соцсети, <i>скидки</i>, <b>сезонные акции</b> и удобство оплаты — ключ к успеху.</p>
]]>
</item>
</root>
'
SELECT
p.value('@code', 'nvarchar(256)') AS code,
p.value('@title', 'nvarchar(256)') AS title,
p.value('.', 'nvarchar(max)') AS text
FROM @s1.nodes('/root/item') AS t(p);
т.е. в итоге мы получаем таблицу, которую через курсор мы можем обработать и сохранить весь сгенерированный контент в системе.