Avvio rapido
I3K RAG Enterprise è una piattaforma RAG self-hosted che gira al 100% sulla tua infrastruttura. Nessuna dipendenza da cloud US, nessun dato che esce dal tuo perimetro, licenza AGPL-3.0. L'installer one-command porta su tutto lo stack — Qdrant, Ollama, backend FastAPI, frontend React e pipeline OCR — in circa un'ora, o circa 15 minuti con una connessione veloce.
Questa guida ti porta da un host Ubuntu pulito alla tua prima query RAG.
Requisiti
- OS: Ubuntu 20.04+ (consigliato 22.04)
- RAM: 16 GB minimo, 32 GB raccomandati
- Storage: 50 GB o più
- GPU: NVIDIA CUDA (8–16 GB VRAM consigliati), AMD ROCm, oppure CPU-only
- Rete: 80+ Mbit/s consigliati per il download iniziale dei modelli
GPU vs CPU
La GPU è fortemente raccomandata per avere latenze utilizzabili con Qwen3:14b-q4_K_M. La modalità CPU-only è adatta a sviluppo e a corpus piccoli; aspettati tempi di risposta più alti.
Installazione (1 comando)
Clona il repository ed esegui l'installer:
git clone https://github.com/I3K-IT/RAG-Enterprise.git
cd RAG-Enterprise
./install.shL'installer è interattivo. Ti chiede due cose:
- Tipo di GPU — NVIDIA, AMD o CPU. Configura Ollama e il runtime di embedding di conseguenza.
- Modello LLM —
Qwen3:14b-q4_K_M(default, qualità migliore su 16 GB di VRAM) oppureMistral 7B Q4(più leggero, sta in 8 GB).
Da qui in poi lo script gira senza supervisione. Il tempo totale è di circa un'ora su una connessione tipica, ~15 minuti su una linea veloce.
Cosa fa lo script
- Scarica e configura Qdrant come vector store (port 6333)
- Installa Ollama (port 11434) e scarica il modello LLM scelto
- Configura il backend FastAPI (port 8000) con la pipeline RAG basata sul nostro orchestrator interno
- Costruisce e serve il frontend React + Vite (port 3000)
- Inizializza il database utenti SQLite con auth JWT e i tre ruoli (User, Super User, Admin)
- Installa Apache Tika e Tesseract per parsing documenti e OCR
- Scarica il modello di embedding BAAI/bge-m3 (29 lingue)
Al termine, l'installer stampa le credenziali admin generate. Salvale.
Primo accesso
Apri il frontend:
http://localhost:3000
Accedi con l'account admin stampato dall'installer. Dalla sidebar a sinistra vai su Documenti e carica il primo file. Formati supportati: PDF (con OCR per le pagine scansionate), DOCX/DOC, PPTX/PPT, XLSX/XLS, TXT, MD, ODT, RTF, HTML, XML.
Primo upload e query
Al caricamento, la pipeline del backend esegue:
- Estrazione — Apache Tika fa il parsing del file; Tesseract gestisce i PDF scansionati via OCR.
- Chunking — il testo viene suddiviso in chunk semantici.
- Embedding — ogni chunk viene codificato con
BAAI/bge-m3(multilingua, 29 lingue). - Indicizzazione — i vettori vengono scritti su Qdrant insieme ai metadati.
Quando l'indicizzazione è completa, fai una domanda dalla UI di chat. Il backend recupera i chunk rilevanti da Qdrant, li passa a Ollama con il modello LLM scelto e restituisce una risposta basata sui documenti, con citazioni alle fonti.
Lo stesso percorso di query è esposto anche come API REST dal backend FastAPI sulla port 8000, così puoi integrare I3K RAG Enterprise nelle tue applicazioni. Gli endpoint sono protetti da JWT e rispettano i confini dei ruoli User / Super User / Admin.
Prossimi passi
Ora hai un deployment single-node funzionante. Leggi la panoramica dell'architettura per capire come si incastrano i componenti, oppure vai a topologie di deployment per multi-nodo, backup con rclone e hardening di produzione.