Configuración de IA Generativa
Configuración
Se puede configurar un proveedor de IA Generativa en la configuración global, lo que pondrá a disposición las funciones de IA Generativa. Actualmente hay 3 proveedores nativos disponibles para integrarse con SecureVu. También se pueden usar otros proveedores que sean compatibles con la API estándar de OpenAI. Consulte la sección de OpenAI a continuación.
Para usar IA Generativa, debe definir un único proveedor a nivel global en su configuración de SecureVu. Si el proveedor que elija requiere una clave API, puede pegarla directamente en su configuración o almacenarla en una variable de entorno con el prefijo SECUREVU_.
Ollama
No se recomienda usar Ollama en CPU, ya que los altos tiempos de inferencia hacen que el uso de IA Generativa sea poco práctico.
Ollama le permite alojar modelos de lenguaje de gran tamaño de forma local y mantener todo funcionando en su propio hardware. Es muy recomendable alojar este servidor en una máquina con una tarjeta gráfica Nvidia, o en un Mac con chip Apple Silicon para un mejor rendimiento.
La mayoría de los modelos de visión de 7b parámetros con cuantización de 4 bits caben en 8 GB de VRAM. También está disponible un contenedor Docker.
Las solicitudes paralelas también tienen algunas advertencias. Deberá configurar OLLAMA_NUM_PARALLEL=1 y elegir valores de OLLAMA_MAX_QUEUE y OLLAMA_MAX_LOADED_MODELS apropiados para su hardware y preferencias. Consulte la documentación de Ollama.
Tipos de Modelos: Instruct vs Thinking
La mayoría de los modelos de visión-lenguaje están disponibles como modelos instruct, que están ajustados para seguir instrucciones y responder de manera concisa a los prompts. Sin embargo, algunos modelos (como ciertos variantes de Qwen-VL o minigpt) ofrecen versiones instruct y thinking.
- Los modelos instruct siempre se recomiendan para usar con SecureVu. Estos modelos generan descripciones directas, relevantes y accionables que se adaptan mejor al caso de uso de SecureVu para objetos y resúmenes de eventos.
- Los modelos thinking están ajustados para salidas más libres, abiertas y especulativas, que típicamente no son concisas y pueden no proporcionar los resúmenes prácticos que espera SecureVu. Por esta razón, SecureVu no recomienda ni admite el uso de modelos thinking.
Algunos modelos están etiquetados como hybrid (capaces de tareas tanto de thinking como instruct). En estos casos, SecureVu siempre usará prompts de estilo instruct y deshabilitará específicamente los comportamientos del modo thinking para garantizar respuestas concisas y útiles.
Recomendación:
Seleccione siempre la variante -instruct o la variante instruct documentada/etiquetada de cualquier modelo que use en su configuración de SecureVu. En caso de duda, consulte la documentación de su proveedor de modelos o la biblioteca de modelos para obtener orientación sobre la variante correcta del modelo a utilizar.
Modelos Compatibles
Debe usar un modelo con capacidad de visión con SecureVu. Las variantes de modelos actuales se pueden encontrar en su biblioteca de modelos. Tenga en cuenta que SecureVu no descargará automáticamente el modelo que especifique en su configuración; Ollama intentará descargar el modelo, pero puede tardar más que el tiempo de espera. Se recomienda descargar el modelo de antemano ejecutando ollama pull your_model en su servidor/contenedor Docker de Ollama. Tenga en cuenta que el modelo especificado en la configuración de SecureVu debe coincidir con la etiqueta del modelo descargado.
Cada modelo está disponible en múltiples tamaños de parámetros (3b, 4b, 8b, etc.). Los tamaños más grandes son más capaces para tareas complejas y comprensión de situaciones, pero requieren más memoria y recursos computacionales. Se recomienda probar varios modelos y experimentar para ver cuál rinde mejor.
Si intenta usar un único modelo para SecureVu y HomeAssistant, necesitará que sea compatible con visión y llamadas a herramientas. qwen3-VL admite visión y herramientas simultáneamente en Ollama.
Se recomiendan los siguientes modelos:
| Modelo | Notas |
|---|---|
qwen3-vl | Fuerte comprensión visual y situacional, mayor requisito de VRAM |
Intern3.5VL | Relativamente rápido con buena comprensión visual |
gemma3 | Fuerte comprensión fotograma a fotograma, tiempos de inferencia más lentos |
qwen2.5-vl | Modelo rápido y capaz con buena comprensión visual |
Debe tener al menos 8 GB de RAM disponibles (o VRAM si ejecuta en GPU) para correr los modelos de 7B, 16 GB para los de 13B y 32 GB para los de 33B.
Modelos en la nube de Ollama
Ollama también admite modelos en la nube, donde su instancia local de Ollama gestiona las solicitudes de SecureVu, pero la inferencia del modelo se realiza en la nube. Configure Ollama localmente, inicie sesión con su cuenta de Ollama y especifique el nombre del modelo en la nube en su configuración de SecureVu. Para más detalles, consulte la documentación de modelos en la nube de Ollama.
Configuración
genai:
provider: ollama
base_url: http://localhost:11434
model: qwen3-vl:4b
Google Gemini
Google Gemini tiene un nivel gratuito para la API, aunque los límites pueden no ser suficientes para el uso estándar de SecureVu. Elija un plan apropiado para su instalación.
Modelos Compatibles
Debe usar un modelo con capacidad de visión con SecureVu. Las variantes de modelos actuales se pueden encontrar en su documentación.
Obtener Clave API
Para comenzar a usar Gemini, primero debe obtener una clave API de Google AI Studio.
- Acepte los Términos del Servicio
- Haga clic en "Get API Key" en la navegación del lado derecho
- Haga clic en "Create API key in new project"
- Copie la clave API para usarla en su configuración
Configuración
genai:
provider: gemini
api_key: "{SECUREVU_GEMINI_API_KEY}"
model: gemini-2.5-flash
Para usar un endpoint de API compatible con Gemini diferente, establezca provider_options con la clave base_url en la URL de la API de su proveedor. Por ejemplo:
genai:
provider: gemini
...
provider_options:
base_url: https://...
Hay otras opciones HTTP disponibles, consulte la documentación de python-genai.
OpenAI
OpenAI no tiene un nivel gratuito para su API. Con el lanzamiento de gpt-4o, los precios se han reducido y cada generación debería costar fracciones de un centavo si elige esta opción.
Modelos Compatibles
Debe usar un modelo con capacidad de visión con SecureVu. Las variantes de modelos actuales se pueden encontrar en su documentación.
Obtener Clave API
Para comenzar a usar OpenAI, primero debe crear una clave API y configurar la facturación.
Configuración
genai:
provider: openai
api_key: "{SECUREVU_OPENAI_API_KEY}"
model: gpt-4o
Para usar un endpoint de API compatible con OpenAI diferente, establezca la variable de entorno OPENAI_BASE_URL en la URL de la API de su proveedor.
Para servidores compatibles con OpenAI (como llama.cpp) que no exponen el tamaño del contexto configurado en la respuesta de la API, puede especificar manualmente el tamaño del contexto en provider_options:
genai:
provider: openai
base_url: http://your-llama-server
model: your-model-name
provider_options:
context_size: 8192 # Specify the configured context size
Esto garantiza que SecureVu use el tamaño de ventana de contexto correcto al generar prompts.
Azure OpenAI
Microsoft ofrece varios modelos de visión a través de Azure OpenAI. Se requiere una suscripción.
Modelos Compatibles
Debe usar un modelo con capacidad de visión con SecureVu. Las variantes de modelos actuales se pueden encontrar en su documentación.
Crear Recurso y Obtener Clave API
Para comenzar a usar Azure OpenAI, primero debe crear un recurso. Necesitará su clave API, nombre del modelo y URL del recurso, que debe incluir el parámetro api-version (vea el ejemplo a continuación).
Configuración
genai:
provider: azure_openai
base_url: https://instance.cognitiveservices.azure.com/openai/responses?api-version=2025-04-01-preview
model: gpt-5-mini
api_key: "{SECUREVU_OPENAI_API_KEY}"