¿Qué conocimiento de dominio necesitas en IA?

Cuando le preguntás a ChatGPT sobre regulaciones bancarias colombianas de 2026 o casos jurisprudenciales argentinos recientes, probablemente falle porque su entrenamiento no incluye esa información especializada. El conocimiento de dominio — información específica de tu industria que combina legislación, datos actualizados, terminología técnica y procesos internos — es el pilar que convierte un modelo de IA genérico en una herramienta útil para tu negocio. La clave no es reentrenar el modelo, sino inyectar ese conocimiento mediante RAG (búsqueda semántica en tu base de datos), fine-tuning selectivo (si tenés datos etiquetados abundantes) o prompt engineering estratégico.

En 30 segundos

RAG (Retrieval-Augmented Generation) permite inyectar conocimiento sin reentrenar: podés actualizar tu base de datos en tiempo real y el modelo accede a ella. Costo: USD 10-100/mes según volumen.
Fine-tuning requiere datos etiquetados abundantes (mínimo 100-1000 ejemplos) y es caro (USD 100-5000+), pero adapta permanentemente tono y especialización. Limitación: se vuelve obsoleto si tus datos cambian frecuentemente.
Prompt engineering (zero-shot, few-shot, chain-of-thought) infunde contexto en cada consulta sin costo de entrenamiento. Funciona para tareas puntuales, no para cambios de comportamiento permanentes.
Los embeddings capturan significado semántico en forma de vectores, permitiendo búsqueda por similitud. Modelos populares: OpenAI embeddings, Google embeddings, modelos open-source como bge-base (libre).
El error más común: asumir que el modelo entiende tu dominio sin inyectarle información. Resultado: alucinaciones, datos inventados, respuestas plausibles pero falsas. Validá siempre contra fuentes autorizadas.

Cuando hablamos de IA aplicada a un dominio específico — derecho, medicina, finanzas, manufacturing, retail — muy rápido te topás con un problema real. Subís un documento a ChatGPT que contiene una regulación argentina de 2025, le pedís que interprete una cláusula contractual a la luz de esa norma, y la respuesta que recibís es plausible pero completamente incorrecta (porque el modelo no entiende esa ley específica). O le preguntás a Claude sobre dosificación de un fármaco nuevo, y te devuelve un resumen de literatura general sin el protocolo que usa tu clínica.

El conocimiento de dominio en IA es el conjunto de información especializada que define cómo funciona tu industria: regulaciones y leyes vigentes, terminología técnica específica, procesos internos, datos históricos, benchmarks, mejores prácticas, casos de uso reales. No es lo que el modelo aprendió en su entrenamiento general. Es lo que solo vos tenés.

Por qué el conocimiento de dominio es crítico para aplicar IA

Un abogado sin acceso a jurisprudencia argentina reciente no puede defender un caso. Un médico sin protocolos actualizados de su hospital no puede diagnosticar (se da de baja). Un desarrollador sin documentación oficial de una librería específica inventa comportamientos que no existen. Los modelos de IA tienen exactamente el mismo problema, potenciado.

Las alucinaciones aumentan 40% o más en dominios especializados cuando no inyectás conocimiento específico, según análisis de AWS y Google. ¿Por qué? Porque el modelo intenta rellenar un vacío de información con patrones estadísticos que vio en el entrenamiento general, y en tu dominio esos patrones no aplican. El modelo genera una respuesta que suena coherente pero es fabricada.

Ejemplo concreto: le preguntás a un LLM no ajustado cuál es el tipo de cambio oficial argentino hoy, y te devuelve una cifra de 2024 (porque su entrenamiento se cortó ahí). O le preguntás cuáles son los requisitos de cumplimiento GDPR para una app de fintech argentina en 2026, y te da requisitos genéricos de GDPR sin considerar la regulación local de Banco Central.

Tres pilares del conocimiento: general, técnico y específico

Cuando aplicás un modelo de IA, en realidad combinás tres capas de conocimiento:

Conocimiento general

Lo que el modelo aprendió en el entrenamiento: cómo escribir, lógica básica, datos públicos hasta febrero 2025 (o la fecha de corte de tu modelo). Funciona para tareas como “explicame qué es machine learning” o “escribí un email profesional”. Pero falla cuando los detalles importan.

Conocimiento técnico

Cómo funcionan los LLMs, embeddings, RAG, fine-tuning, búsqueda semántica. Esto lo necesitás vos (o tu equipo técnico), no el modelo. Te permite diseñar la arquitectura correcta: “voy a usar RAG porque mis datos cambian cada semana” vs. “voy a hacer fine-tuning porque necesito que el modelo adopte un tono permanente”.

Conocimiento específico

La información que solo existe en tu dominio: regulaciones locales, procesos internos, terminología especializada, datos que generaste vos, benchmarks de tu industria. Es lo que inyectás en el modelo mediante RAG, fine-tuning o prompts detallados. Relacionado: consideraciones de seguridad y privacidad.

Tabla rápida de ejemplos:

Dominio	General (Modelo ya sabe)	Técnico (Vos necesitás)	Específico (Inyectás al modelo)
Derecho	Concepto de contrato, cómo se redactan	Cómo funciona RAG, embeddings de texto legal	Jurisprudencia reciente del juzgado local, códigos procesales, interpretaciones locales de precedentes
Medicina	Fisiología general, síntomas comunes	Cómo buscar papers en vector DB, integración con historiales	Protocolos del hospital, guías de tratamiento locales, contraindicaciones conocidas, casos históricos de tus pacientes
Finanzas	Conceptos de tasas, flujos de caja, inversión	Búsqueda semántica en datos financieros, fine-tuning para predicción	Histórico de mercado local, regulaciones BCRA/AFP, portafolio específico del cliente, riesgo crediticio local
Tech/DevOps	Qué es Docker, configuración básica	RAG sobre documentación técnica, embeddings de código	Tu stack específico, configuración de infraestructura, decisiones de arquitectura, logs históricos de incidentes

conocimiento de dominio en ia diagrama explicativo

RAG: inyectar conocimiento sin reentrenar

RAG (Retrieval-Augmented Generation) es la técnica más popular hoy porque es simple y económica. AWS define RAG como un patrón arquitectónico que combina búsqueda sobre una base de datos externa con generación de texto. En español: vos guardás tus documentos en un vector database, el modelo busca los más relevantes para cada pregunta, y los inyecta en el contexto antes de responder.

Cómo funciona paso a paso (y acá viene lo interesante porque el orden importa): tomás tus documentos (PDFs, wikis internas, bases de conocimiento, catálogos de productos), los dividís en chunks pequeños (párrafos de 200-500 palabras), convertís cada chunk en un embedding (un vector que captura su significado semántico), guardás esos vectores en una base de datos especializada (Pinecone, Weaviate, Milvus, o hasta Postgres con pgvector), después cuando el usuario hace una pregunta la convertís también en embedding, buscás los chunks más similares por similitud coseno (geometría vectorial), extraés esos chunks, los inyectás en el contexto del modelo junto con la pregunta, y el modelo genera la respuesta usando tanto su conocimiento general como el conocimiento específico que acabás de inyectar.

Ventajas de RAG:

Económico: No necesitás reentrenar. Vector DB cuesta USD 10-50/mes (Pinecone starter). Inferencia: USD 0.03-0.15 por 1k tokens según modelo.
Actualizable: Agregás nuevos documentos en tiempo real. El cambio se refleja en la siguiente búsqueda.
Privacidad: Tus datos se quedan locales (o en tu VPC). No entrenas el modelo de OpenAI con tu información sensible.
Auditable: Podés ver exactamente qué documentos se inyectaron como contexto. Si la respuesta es equivocada, sabés dónde buscar.

Limitaciones (y acá no hay “revolución tecnológica”, hay problemas reales):

Calidad de búsqueda: Si el chunk relevante no aparece en los top-5 resultados, el modelo no lo ve. Embeddings capturan similitud semántica, no verdad.
Contexto limitado: Metés demasiados chunks largos y se te cae fuera del contexto del modelo (4k, 8k, 100k tokens según modelo).
Alucinaciones siguen ahí: El modelo puede inventar información aunque inyectes documentos. No es un “fact-checker” automático.

Arquitectura típica empresa 2026: Google Cloud documenta arquitecturas RAG que usan un orquestador de preguntas (LangChain, LlamaIndex), un retriever (búsqueda en vector DB), y un generador (LLM). Los tres componentes están completamente desacoplados, así que podés cambiar cualquiera independientemente.

Fine-tuning: cuándo es necesario y cuándo no

Fine-tuning es lo opuesto a RAG: no inyectás documentos, sino que adaptás permanentemente los pesos del modelo entrenándolo con tus datos. La gente lo confunde todo el tiempo con RAG (spoiler: no funcionan igual).

Fine-tuning tiene sentido en 3 casos específicos:

Caso 1: Tono y estilo permanente

Un chatbot de atención al cliente que necesita adoptar el tono de marca de tu empresa de forma consistente en todas las respuestas. No es un cambio de información, es un cambio de personalidad. Ejemplo: tu empresa habla con voseo, tus clientes esperan respuestas cortas y directas, no corporativo formales. Fine-tuning en 100-200 ejemplos bien etiquetados (prompt de usuario → respuesta en tono correcto) funciona.

Caso 2: Tareas muy especializadas con datos abundantes

Un modelo que debe clasificar radiografías en tu hospital, o detectar fraude en transacciones financieras basándose en patrones específicos de tu cartera. Acá el modelo necesita aprender reglas complejas de tu dominio. Pero necesitás mínimo 500-1000 ejemplos etiquetados (a veces 10.000+). Costo típico de labeling: USD 5-10 por ejemplo de buena calidad. Cálculo rápido: 1000 ejemplos = USD 5000-10.000 en labeling + USD 500-2000 en fine-tuning = mínimo USD 5500.

Caso 3: Formato de salida estructurado permanente

Un modelo que debe devolver siempre JSON estructurado, XML, o un formato específico. Fine-tuning lo entrena para respetar esa estructura. Aunque honestamente, en 2026 con structured output nativo en OpenAI, Google y Anthropic, no necesitás fine-tuning para esto.

Ahora, cuándo no usar fine-tuning:

Si tus datos cambian frecuentemente: Fine-tuning es lento (horas o días). Cuando reentrenás, el modelo viejo está obsoleto. RAG es más rápido de actualizar.
Si necesitás información actualizada: Un modelo fine-tuned en datos de 2024 no sabe sobre eventos de 2026. Tendrías que reentrenarlo constantemente.
Si tus datos son sensibles: Envías datos de clientes a OpenAI/Anthropic para fine-tuning. Riesgo de privacidad. RAG con datos locales es más seguro.
Si no tenés suficientes datos etiquetados: Menos de 100 ejemplos → waste de dinero. El modelo no aprende bien.

Costo comparativo 2026: RAG simple = USD 20-100/mes. Fine-tuning = USD 500-5000 inicial + USD 50-200/mes mantenimiento. RAG gana en economía para la mayoría de casos.

Prompt engineering: técnicas para infundir contexto en cada consulta

Si RAG es “inyectar documentos” y fine-tuning es “reentrenar el modelo”, prompt engineering es “instruir bien en cada consulta”. Es gratis, rápido, y funciona cuando la tarea es puntual o el contexto cabe en el prompt.

Tres técnicas principales:

Zero-shot

Le das la instrucción sin ejemplos. “Explicame esta cláusula contractual en español simple.” Funciona para tareas generales. Falla en dominios especializados.

Few-shot

Le das 2-5 ejemplos de la tarea correctamente hecha, luego la tarea nueva. “Aquí hay 3 ejemplos de clasificación de riesgo en préstamos. Ahora clasifica este nuevo préstamo.” Funciona mucho mejor en tareas especializadas. Mejora en 20-40% el accuracy en muchos casos. Para más detalles técnicos, mirá herramientas esenciales de inteligencia artificial.

Chain-of-thought

Le pedís que explique su razonamiento paso a paso antes de dar la respuesta final. “Analiza esto: primero considera X, luego Y, finalmente concluye Z.” Reduce alucinaciones en tareas complejas porque el modelo es “obligado” a ser más explícito.

Template de prompt con contexto de dominio:

Rol: “Sos un especialista en derecho laboral argentino con 10 años de experiencia.”
Contexto específico: “Estamos en 2026. La legislación laboral argentina incluye la ley X del 2024 que prohibe Y.”
Instrucción clara: “Responde esta pregunta: [pregunta]”
Formato de salida: “Devuelve la respuesta en JSON con campos: análisis, riesgo_legal, recomendación.”
Validación: “Cita la ley específica en cada afirmación.”

Errores comunes en prompts: prompts demasiado vagos (“Dame info sobre seguridad”), falta de ejemplos cuando el modelo no sabe de qué hablás, instrucciones contradictorias (“Sé breve pero exhaustivo”), contexto demasiado largo que diluye la pregunta principal.

Herramientas para versioning de prompts: Red Hat compara estrategias y menciona que prompt engineering es escalable si tenés sistemas de testing. Podés usar OpenRouter Evals, Langsmith, o simplemente un spreadsheet donde trackees qué prompt funciona mejor para cada caso de uso.

De embeddings a búsqueda semántica: cómo funcionan internamente

Los embeddings son lo que hace que RAG funcione, así que merece su propia sección.

Un embedding es un vector (lista de números) que representa el significado de un texto. “El abogado redactó el contrato” y “El abogado escribió el acuerdo legal” tienen embeddings similares porque significan prácticamente lo mismo (aunque las palabras son diferentes). “El abogado comió una manzana” tiene un embedding diferente porque significa algo completamente distinto.

Cómo funciona internamente: un modelo de embeddings (BERT, OpenAI embeddings, Google Embeddings, bge-base open-source) toma el texto, lo tokeniza (lo divide en palabras o subpalabras), lo pasa por capas de transformers, y extrae como salida un vector de 1536 dimensiones (o 384 para modelos más chicos). Ese vector captura la semántica del texto en un espacio vectorial multidimensional.

Búsqueda semántica en RAG: cuando el usuario hace una pregunta, la convertís en embedding, calculas la similitud coseno entre ese embedding y los embeddings de todos tus chunks guardados (coseno = ángulo entre vectores, 1 = idéntico, 0 = perpendicular), rankeás los chunks por similitud, y extraés los top-5 o top-10.

Limitación crítica (y muy importante): los embeddings capturan correlación estadística, no verdad. Si en tu base de datos aparece “Donald Trump ganó las elecciones de 2020” mil veces y “Donald Trump perdió las elecciones de 2020” una sola vez, cuando alguien pregunta “¿quién ganó en 2020?” el embedding de la pregunta será más similar al embedding del texto incorrecto (porque fue entrenado en estadística de internet). El modelo no “sabe” cuál es verdadero. Necesitás validación externa.

Modelos de embeddings populares en 2026:

OpenAI text-embedding-3-large: 3072 dimensiones, USD 0.02 por 1M tokens. Best-in-class pero caro.
Google text-embedding-004: 768 dimensiones, USD 0.025 per 1M tokens. Competidor directo.
BGE-base (open-source): 768 dimensiones, libre, puedes self-host. Menos accuracy que comerciales pero suficiente para muchos casos.
BAAI General Embeddings (bge-m3): Multilingüe, 1024 dimensiones, open-source, muy bien para español.

Para dominio especializado (legal, médico, finanzas), existen embeddings fine-tuned: legal-embeddings, medical-embeddings, etc. Aumentan el accuracy en 10-20% comparado con embeddings generales.

Errores comunes y cómo evitarlos

Error 1: Confundir prompting con conocimiento real

Un prompt detallado NO es lo mismo que conocimiento de dominio. Si le das a Claude “sos experto en cardiología” pero no le inyectás información sobre protocolos de tu hospital, sigue sin saber. El prompt es instrucción, no datos. Resultado: confianza falsa. El modelo suena seguro pero inventa. Más contexto en plataformas de desarrollo principales.

Cómo evitarlo: Validá siempre respuestas críticas contra fuentes autorizadas. Si un modelo te dice “la dosis es 100mg”, verificá contra el prospecto o protocolo oficial antes de usarlo.

Error 2: Asumir que el modelo sabe datos posteriores a su fecha de corte

Tu modelo fue entrenado en febrero 2025. Es abril 2026. Preguntás sobre leyes, precios, o eventos de 2026 y esperas información correcta. Spoiler: va a estar desactualizada o inventada (porque el modelo hallucina para rellenar el vacío de conocimiento).

Cómo evitarlo: Usa RAG para inyectar información actualizada. O si usás prompt engineering, sé explícito: “Hoy es abril 2026. Según los datos que conozco hasta febrero 2025, [pregunta]. ¿Qué cambió después?” — así el modelo admite su limitación.

Error 3: No validar alucinaciones sistemáticamente

Las alucinaciones (hechos inventados presentados como verdaderos) son la limitación más seria de los LLMs. Un modelo puede decirte con total confianza una estadística falsa, una fecha incorrecta, un producto que no existe, una jurisprudencia que nunca ocurrió.

Cómo evitarlo: Para información crítica (diagnósticos médicos, análisis legal, decisiones financieras), siempre verifica contra múltiples fuentes primarias. Herramientas: fact-checking manual, sistemas de retrieval que rankeen por confianza, marcación de fuentes cuando el modelo responde. En equipo: genera dos respuestas y compara si son consistentes.

Error 4: Mezclar fuentes confiables con genéricas sin filtro

Si inyectás en RAG tanto “jurisprudencia oficial del tribunal” como “comentarios de usuarios en reddit”, el modelo va a mezclarlas como si fueran equivalentes. Resultado: alucinaciones mejora pero no eliminadas.

Cómo evitarlo: Rankea tus fuentes. Primarias (leyes oficiales, papers peer-reviewed, documentación oficial) > secundarias (análisis, comentarios de expertos) > opiniones. Inyecta metadatos en chunks: “CONFIANZA: alta” vs. “CONFIANZA: media”. El retriever puede priorizar.

Error 5: Confundir “el modelo es útil” con “el modelo reemplaza al experto”

Un chatbot alimentado con RAG sobre regulaciones laborales es una herramienta útil para analistas. No reemplaza un abogado. Un sistema que predice riesgo de fraude con fine-tuning puede alertar auditoría. No sustituye auditoría humana.

Cómo evitarlo: Diseñá workflows donde el LLM es asistente, no autoridad final. Human-in-the-loop: el modelo sugiere, una persona valida. Especialmente crítico en medicina, legal, finanzas. Cubrimos ese tema en detalle en tecnologías modernas del ecosistema web.

Arquitecturas modernas: combinando técnicas estratégicamente

No es “RAG vs. fine-tuning vs. prompt engineering”. En 2026, la tendencia es combinarlos según el problema específico.

Arquitectura típica de empresa: un agente autónomo que recibe tareas (preguntas, análisis, generación de contenido), esa tarea entra en un orquestador que decide: ¿esto necesita RAG sobre nuestra base de datos? ¿fine-tuning para tono específico? ¿solo prompt engineering? El orquestador ejecuta la combinación correcta y devuelve la respuesta. (Herramientas: IBM contrasta estos enfoques en contexto empresarial.)

Ejemplo concreto de startup: un chatbot de atención al cliente de e-commerce.

Componente 1: Fine-tuning leve en 50 ejemplos de preguntas típicas de clientes → respuestas en tono de marca. Entrena en 30 minutos, cuesta USD 10. Permanente.
Componente 2: RAG sobre FAQ, políticas de devolución, información de productos. Actualizable diariamente. Base de datos local o Pinecone (USD 10/mes starter).
Componente 3: Prompt engineering dinámico según contexto: si el cliente pregunta sobre envío, el prompt especifica “refiere siempre a Correo Oficial y DHL” (los proveedores de la empresa). Si pregunta sobre devoluciones, el prompt injerta políticas específicas de la empresa.
Validación: Para quejas de clientes o problemas críticos, ruta automáticamente a humano (escalada). El modelo sugiere respuesta, pero humano tiene veto final.

Stack recomendado para 2026:

Modelo base: OpenRouter (acceso a múltiples APIs: OpenAI, Anthropic, Google, Mistral, etc.). Permiten fine-tuning y RAG según proveedor.
Vector database: Pinecone (simplest), Weaviate (open-source), o Postgres con pgvector (if already using Postgres).
Orquestador: LangChain, LlamaIndex, o custom con LangSmith para observabilidad.
Validación: Sistema de flagging para respuestas de baja confianza, escalada a humano.

Roadmap 2026-2027: agentes autónomos que ejecutan tareas multi-step (busca datos en RAG → elabora respuesta → valida contra fuente secundaria → devuelve con confianza score). Los límites entre RAG, fine-tuning y prompting se difuminan cuando el agente puede elegir dinámicamente.

Técnica	Cuándo usar	Costo	Tiempo de setup	Actualizable	Privacidad
RAG	Información específica que cambia frecuentemente (noticias, catálogos, regulaciones). Datos sensibles que no querés compartir.	USD 10-100/mes	Horas (chunking + embeddings)	Sí, en tiempo real	Datos locales posible
Fine-tuning	Adaptar tono/estilo permanentemente. Tareas muy especializadas con datos etiquetados abundantes.	USD 500-5000	Días (labeling + entrenamiento)	Lento (requiere reentrenamiento)	Datos con proveedor
Prompt Engineering	Tareas puntuales. Cuando el contexto cabe en un prompt. Testing rápido.	Solo API (USD 0.01-0.10 por request)	Minutos	Sí, instantáneo	Depende del modelo
Combinación (recomendado)	Casos reales de producción donde múltiples factores importan.	USD 100-500/mes	Semanas	Parcialmente	Mixed según componentes

Ejemplos concretos

Ejemplo 1: Despacho de abogados argentino

Un despacho mediano (20 abogados) en Buenos Aires necesita un sistema que ayude a revisar contratos de clientes. El sistema debe conocer jurisprudencia reciente de juzgados nacionales y provinciales, leyes vigentes de 2026, y la jurisprudencia interna del despacho (cómo ganaron casos similares antes).

Solución: RAG + embeddings legales especializados. Cargan cada sentencia favorable del despacho (100-500 sentencias), cada ley relevante (5-10 códigos), y jurisprudencia reciente de Google Scholar + Fallos Plenarios. Crean embeddings con modelo legal-specialized. Guardan en Weaviate con metadatos por fecha y tribunal. Cuando un abogado carga un contrato nuevo, el sistema busca las 10 sentencias + leyes más similares, las inyecta en contexto, y Claude analiza riesgos con precisión 15-20% mejor que solo prompt engineering. Costo: USD 200-300/mes (infraestructura) + 2 semanas setup. El abogado mantiene control: el sistema sugiere pero el abogado valida.

Ejemplo 2: Startup de fintech con KYC+AML

Una fintech argentina debe verificar identidad y detectar riesgo de lavado según BCRA y UIF. Regulaciones cambian cada trimestre. El sistema debe aprender el tono específico de reportes de cumplimiento (formal, con referencias explícitas a artículos), pero también necesita datos actualizados constantemente.

Solución: Fine-tuning leve (50 ejemplos de reportes compliant bien redactados de casos pasados) + RAG sobre regulaciones actuales (BCRA, UIF, resolutiones recientes). Prompt engineering dinámico que especifica la versión de regulación aplicable según la fecha de la consulta. Cuando el sistema detecta riesgo alto, escala automáticamente a compliance officer (humano) para validación manual. Costo: USD 150/mes operativo + USD 500 one-time setup. El fine-tuning se actualiza cada 6 meses cuando acumulan 30 nuevos ejemplos buenos.

Qué está confirmado / Qué no

Confirmado en 2026

RAG funciona: Empresas como OpenAI, Google, Anthropic, AWS usan RAG internamente para productos (ChatGPT con browsing y Projects, Gemini con Google Drive integration, Claude Projects). Confirmado por documentación oficial y casos de uso públicos.
Fine-tuning mejora performance en dominios especializados: Papers de Nature confirman que fine-tuning en 100+ ejemplos aumenta accuracy 20-30% en tareas especializadas vs. zero-shot.
Embeddings capturan significado semántico útil: Búsqueda por similitud semántica funciona. Pero correlación estadística ≠ verdad.
Alucinaciones persisten incluso con RAG + fine-tuning: Los modelos siguen inventando hechos. No hay solución mágica. Validación humana sigue siendo necesaria.

No confirmado / Prometido pero no entregado

“Los LLMs aprenderán de manera automática del feedback de usuarios”: Todavía no. Online learning (aprender sin reentrenamiento) está en investigación. En producción no existe a escala.
“Los modelos pequeños entrenados en dominio específico igualaran a los grandes”: Mejoran, sí. Pero los grandes modelos con RAG siguen ganando. Tradeoff: privacidad+costo vs. accuracy.
“Prompt engineering se volverá obsoleto”: No. Menos importante, tal vez. Pero seguirá siendo necesario. La instrucción siempre importa.

Preguntas Frecuentes

¿Necesito fine-tuning o RAG para mi dominio especializado?

RAG primero. Siempre. Fine-tuning solo si: (1) necesitás cambiar tono permanentemente, (2) tenés 500+ ejemplos etiquetados, (3) el costo está justificado. La mayoría de casos se resuelve con RAG porque es más barato, rápido, y actualizable.

¿Cómo hago que ChatGPT o Claude entiendan el contexto de mi industria?

Tres caminos: (1) Cargá documentos en Azure Search + RAG o en ChatGPT Projects (carga PDF/txt, se indexan automáticamente). (2) Fina-tunea el modelo con ejemplos de tu industria. (3) Escribí prompts detallados que inyecten contexto manualmente en cada consulta. ChatGPT Projects es el más simple para usuarios no-técnicos.

¿Cuáles son los errores más comunes al usar IA sin conocimiento del dominio?

Asumir que el modelo sabe más de lo que realmente sabe. Esperar que entienda jerga especializada sin enseñanza. Confiar en respuestas sin validación humana. No actualizar información cuando el dominio cambia. Usar embeddings genéricos para búsqueda semántica en tareas muy especializadas (donde embeddings especializados harían 20% mejor).

¿Cómo creo una base de conocimiento con embeddings vectoriales?

Cinco pasos: (1) Juntá tus documentos (PDFs, wikis, bases de datos). (2) Dividí en chunks (200-500 palabras cada uno). (3) Convertí a embeddings usando API (OpenAI, Google) o modelo open-source. (4) Guardá en vector DB (Pinecone, Weaviate, Postgres+pgvector). (5) Implementá búsqueda: consulta del usuario → embedding → similitud coseno → top-K chunks → inyectar en LLM. Herramientas que automatizan esto: LlamaIndex, LangChain (setup en horas).

¿Qué diferencia hay entre prompt engineering y RAG?

Prompt engineering instruye al modelo en cada consulta (“comportate como X, responde en formato Y”). RAG inyecta datos contextuales (“aquí están los hechos de tu base de datos, úsalos para responder”). Son complementarios. Prompt engineering es instrucción, RAG es información. Usás ambos juntos: instrucción via prompt + datos via RAG = respuesta precisa.

Conclusión

El conocimiento de dominio es lo que separa un chatbot genérico de juguete de una herramienta que realmente soluciona problemas. No es suficiente tener un modelo inteligente. Necesitás inyectar información especializada de tu industria mediante RAG, fine-tuning selectivo, o prompt engineering estratégico.

La pregunta no es “¿qué técnica elijo?” sino “¿cuál es mi caso de uso específico?” RAG para información actualizada. Fine-tuning para tono permanente. Prompt engineering para tareas puntuales. En la realidad empresarial 2026, mezclás los tres.

Lo crítico: siempre validá. Un LLM inyectado con dominio expertise sigue alucinando. Sigue inventando hechos. No es un reemplazo para expertos humanos, es un asistente para hacerlos más eficientes. Arquitecturá con eso en mente. Human-in-the-loop. Validación constante. Fuentes múltiples. Ahí es donde el sistema realmente agrega valor.