¿Cómo se implementa un RAG?

Vale, RAG es la bomba. Pero, ¿cómo funciona por dentro?

jul 09, 2025

En el post anterior vimos qué es RAG y por qué es una auténtica revolución para hacer que la IA sea útil de verdad. Dejamos claro que es como pasar de un examen a libro cerrado a uno con acceso a una biblioteca infinita y actualizada al segundo.

Pero una cosa es entender el qué y otra muy distinta es saber el cómo. ¿Cómo se implementa esto en la vida real? ¿Qué "fontanería" hay que montar para que una IA pueda consultar los documentos de nuestra empresa o saber qué ha pasado hoy en el mundo?

Hoy vamos a meternos en la sala de máquinas. Mi objetivo es que, sin ahogarnos en código, entiendas las estrategias principales que se usan para construir un sistema RAG. Porque, como verás, no hay una única forma de hacerlo, y la estrategia que elijas depende totalmente de lo que quieras conseguir.

1. El RAG "Clásico": Dando a la IA la biblioteca de tu empresa

Esta es la implementación más común y la que la mayoría de la gente tiene en mente cuando habla de RAG. El objetivo es simple: que la IA pueda responder preguntas basándose en una colección de documentos privados (manuales de producto, informes internos, bases de datos de conocimiento, etc.).

Imagina que tienes que construir un chatbot de soporte que conozca al dedillo los 500 manuales de usuario de tus productos. Un LLM no puede "leerse" 500 PDFs de golpe. Aquí es donde entra en juego un proceso muy ingenioso que se divide en varios pasos:

Trocear los documentos (Chunking): Lo primero es coger todos esos documentos (PDFs, webs, etc.) y partirlos en trozos más pequeños y manejables, que llamamos chunks. Piensa en ello como si desmontaras un libro en párrafos o en secciones de unas pocas frases. La clave aquí es que estos trozos a menudo se solapan un poco. Es decir, el final de un trozo repite el principio del siguiente. ¿Por qué? Para no perder el contexto. Si justo cortas una frase por la mitad, la idea se rompe. Con el solapamiento, nos aseguramos de que el hilo conductor se mantenga.
Vectorizar la información: Aquí viene la magia. Cada uno de esos "trocitos" de texto se convierte en una serie de números, un vector. Este proceso, llamado vectorización o embedding, es como traducir el significado de cada trozo a un lenguaje matemático que la IA entiende. Lo fascinante es que los trozos de texto con significados similares acaban teniendo vectores numéricos muy parecidos. En mi cabeza, me lo imagino como si cada trozo de texto se convirtiera en un punto en un mapa 3D gigante. Los puntos que hablan de "política de devoluciones" estarán todos agrupados en una zona del mapa, mientras que los que hablan de "especificaciones técnicas de la batería" estarán en otra.
Almacenarlo en una base de datos vectorial: Todos estos vectores se guardan en un tipo de base de datos especial, una base de datos vectorial. Piensa en ella como una biblioteca super-eficiente diseñada no para buscar palabras clave, sino para encontrar los "puntos en el mapa" más cercanos a una nueva pregunta.

Cuando un usuario hace una pregunta ("¿cómo devuelvo un producto?"), el sistema convierte esa pregunta en otro vector y busca en la base de datos los trozos de documento cuyos vectores sean más parecidos. Esos trozos recuperados son los que se "aumentan" en el prompt que se le envía al LLM, diciéndole: "Oye, responde a esta pregunta, pero basándote en ESTA información".

2. El RAG "Conectado": Dando a la IA acceso al mundo real

El primer método es perfecto para conocimiento estático, pero ¿qué pasa si la IA necesita información en tiempo real? ¿O si necesita interactuar con otros sistemas? Aquí es donde entra en juego el RAG basado en herramientas (Tools).

En lugar de darle una biblioteca, le damos a la IA un cinturón de herramientas. La IA, en lugar de responder directamente, aprende a reconocer cuándo debe usar una de esas herramientas para obtener la información que necesita.

Imagina que la IA es un director de orquesta. No toca todos los instrumentos, sino que sabe cuándo darle la señal al violín, al piano o a la percusión. En este caso, las herramientas podrían ser:

Un buscador de internet: Si le preguntas "¿Quién ganó el partido de anoche?", la IA sabe que esa información no está en su memoria "congelada". En su lugar, activa la herramienta "buscar en Google", obtiene el resultado y luego te lo presenta en un lenguaje natural.
Una API de tu empresa: Podrías darle una herramienta para consultar el stock de un producto. Cuando un cliente pregunta "¿Tenéis la camiseta azul en talla L?", la IA no se lo inventa. Llama a la herramienta, esta consulta la base de datos de stock en tiempo real y le devuelve "Sí, quedan 5 unidades". Luego, la IA construye la respuesta final.
Otros agentes o sistemas: La IA podría tener una herramienta para "llamar" a otro modelo más especializado. Por ejemplo, si una pregunta es muy compleja a nivel financiero, podría delegar parte de la respuesta a un agente entrenado específicamente en finanzas, que dará una respuesta intermedia que utilizará nuestro agente para darte la respuesta final.

La gran diferencia aquí es que el conocimiento no se recupera de una base de datos estática, sino que se genera "en crudo" y en tiempo real para que la IA lo interprete y lo use.

3. El RAG "Inteligente": No solo buscar, sino pensar qué buscar

Esta es una evolución de las técnicas anteriores que a mí personalmente me parece fascinante. Uno de los problemas del RAG clásico es que la calidad de la respuesta depende enormemente de la calidad de la búsqueda. Y a veces, la pregunta que hacemos como humanos no es la mejor para encontrar la información en una base de datos.

Aquí entra en juego el RAG Multi-Query. En lugar de coger tu pregunta y buscarla directamente, el sistema primero le pide a un LLM que piense y reformule tu pregunta desde diferentes ángulos.

Por ejemplo, si le preguntas:

"Háblame de las ventajas de RAG para mi negocio"

Un sistema RAG "inteligente" podría generar internamente varias búsquedas para atacar el problema desde todos los frentes:

"Casos de uso de RAG en empresas B2B"
"Comparativa de costes entre RAG y fine-tuning"
"Cómo mejora RAG la fiabilidad de los chatbots de atención al cliente"
"Impacto de RAG en la reducción de alucinaciones de la IA"

Luego, realiza todas estas búsquedas, recopila la información de cada una y se la entrega al LLM final para que construya una respuesta increíblemente completa y llena de matices. Es como pedirle a un asistente de investigación que, antes de ir a la biblioteca, se tome un momento para pensar en las cinco mejores preguntas que podría hacer para cubrir todos los aspectos de tu duda. De hecho este tipo de sistemas son los que usan los famosos “Deep Research” de ChatGPT o Gemini, pero a un nivel mucho mas complejo.

Como ves, RAG no es una única cosa. Es un conjunto de estrategias y arquitecturas diseñadas para resolver un problema fundamental: conectar el cerebro abstracto de la IA con los datos concretos y actuales de tu mundo. La clave es entender qué problema quieres resolver para elegir la implementación correcta.

Mañana nos pondremos el gorro de abogado del diablo y hablaremos de los problemas que tienen estos sistemas (que los tienen, y no son pocos). Porque, aunque RAG es una tecnología transformadora, no es perfecta. Y entender sus limitaciones es tan importante como conocer sus ventajas.

Adelanto solo uno: el problema del "contexto perdido". ¿Qué pasa cuando el trocito de documento que recuperas no tiene toda la información que necesitas para dar una respuesta completa? ¡Lo vemos mañana!

Discusión sobre este post

Por supuesto, sigue adelante.