Добавляем Embedding модель для обучения (векторизации)

Первое что я пытался сделать - создать базу знаний с использованием встроенной модели shibing624/text2vec-base-chinese

Создал базу знаний, закачал нужные файлы, что-то оно распознало, что-то на сегменты поделило не корректно, довольно долго пытался настраивать, пока не понял что эта модель - для китайского языка, она просто не понимает ни русский ни английский.

Важно:

Embeding модель должна поддерживать языки, которые используются в ваших данных для обучения.

Embeding модель используется только для обучения (векторизации) ваших данных, это не LLM модель, она не требует большого количества системных ресурсов и не требует GPU.

Установка Embeding модели

Спросил у ChatGPT какие оптимальные Embeding модели есть, скачал первую что он посоветовал: multilingual-e5-large-instruct ( ссылка на модель )
Скачал модель и сохранил ее в папку ( при установке не через 1Panel папка будет другая)

/opt/1panel/apps/maxkb/maxkb/data/local/

В свойствах композ файла в 1Panel можно видеть что папка ./data/ подключается как /opt/maxkb:

То есть, если модель я сохранил в папку /opt/1panel/apps/maxkb/maxkb/data/local/ то контейнер MaxKB ее увидит в папке /opt/maxkb/local/multilingual-e5-large-instruct

После того как модель скачана и находится в нужной папке, добавляем ее в интерфейсе MaxKB, заполняя название модели и путь к ней:

Аналогично можно добавить Rerank модель, она может использоваться для уточнения про поиске в базе знаний и добавляется аналогично Embeding.