Создание базы знаний на основе онлайн документации
После добавления Embeding модели можно начать создавать базы знаний, доступно три варианта:
General Knowledge - база знаний основанная на загружаемых документах: TXT,XLSX, Markdown, Word, PDF и тд
Web Knowledge - база знаний основанная на данных с веб-сайта, например сайта с онлайн документацией
Workflow Knowledge - сложный настраиваемый процесс обработки практически любых входных данных с последующим помещением их в базу знаний.
Суть создания базы знаний в том, чтобы добавить\указать нужные документы-инструкции, данные должны быть структурированы, чтобы система могла поделить их на сегменты. Добавленные документы обрабатываются с помощью Embeding модели, которая превращает текстовые данные в векторную базу данных.
Чем лучше структурированы входящие данные, тем лучше будет результат. В идеале документы должны быть такие, чтобы их можно было поделить на логические сегменты так, чтобы каждый сегмент отвечал на тот или иной вопрос.
Добавление Web Knowledge на основе онлайн документации
За основу взял документацию на китайском языке по MaxKB: https://maxkb.cn/docs/v2/
Если открыть сайт в браузере и посмотреть HMTL код , то видно что каждая статья оформляется элементом article:
То есть можем выбрать элемент "article" как разделитель на сегменты.
Во вкладе Knowledge нажмите кнопку Create, выберите пункт Web Knowledge и заполните параметры см скриншот:
Если все верно указано, система начнет поиск и индексацию данных:
В идеале вы должны увидеть количество документов примерно равное количеству статей на вашем веб-ресурсе, вы можете кликнуть на любой из обнаруженных документов и посмотреть его содержимое, это полезно для оценки насколько верно выбран селектор.
Скорее всего у вас там окажется и часть мусорных данных, их вы можете отключить из участия в базе знаний или удалить. Чем чище база знаний - тем лучше будут результаты.
Проверка базы знаний
В настройках базы знаний есть пункт Retrieval Testing, в нем вы можете проверить верно ли ищутся сегменты в ответ на ваши вопросы. Обратите внимание, что данные у меня были на китайском языке, а вопрос я задаю на русском, тем не менее я получаю корректные сегменты в выдаче, которые содержат нужную мне информацию:
В этом состоит "магия" обработки данных с помощью мульти-язычной Embeding модели.
Добавление связи вопросов и сегментов вручную
В разделе Questions вы можете сами создать вопросы и вручную указать связанные с ними ответами, что увеличит точность ответов. В идеале собрать топ10\50\100 самый частых вопросов и связать их с сегментами вручную, но я пока у себя этого не делал.
Дополнительные примеры:
Добавление еще несколько ресурсов по JumpServer в виде отдельных баз знаний в качестве примера:








