Добавляем Embedding модель для обучения (векторизации)
Первое что я пытался сделать - создать базу знаний с использованием встроенной модели shibing624/text2vec-base-chinese
Создал базу знаний, закачал нужные файлы, что-то оно распознало, что-то на сегменты поделило не корректно, довольно долго пытался настраивать, пока не понял что эта модель - для китайского языка, она просто не понимает ни русский ни английский.
Важно:
Embeding модель должна поддерживать языки, которые используются в ваших данных для обучения.
Embeding модель используется только для обучения (векторизации) ваших данных, это не LLM модель, она не требует большого количества системных ресурсов и не требует GPU.
Установка Embeding модели
Спросил у ChatGPT какие оптимальные Embeding модели есть, скачал первую что он посоветовал: multilingual-e5-large-instruct ( ссылка на модель )
Скачал модель и сохранил ее в папку ( при установке не через 1Panel папка будет другая)
/opt/1panel/apps/maxkb/maxkb/data/local/
В свойствах композ файла в 1Panel можно видеть что папка ./data/ подключается как /opt/maxkb:
То есть, если модель я сохранил в папку /opt/1panel/apps/maxkb/maxkb/data/local/ то контейнер MaxKB ее увидит в папке /opt/maxkb/local/multilingual-e5-large-instruct



