Cuando envias un prompt a un producto de IA alojado, ocurren dos cosas que no puedes ver: el proveedor decide cuanto tiempo conservarlo y el proveedor decide si aprender de el. Ambas respuestas dependen del nivel exacto que estes usando, y ambas han cambiado en los ultimos dos anos. La version breve es que los productos de consumo conservan mas durante mas tiempo y pueden entrenar con tu texto por defecto, mientras que los niveles de empresa y de API conservan menos, no entrenan por defecto y pueden contratarse hasta casi cero.
Este articulo mapea lo que los tres mayores proveedores (Anthropic, OpenAI y Google) hacen realmente con los prompts, las respuestas y los archivos subidos entre 2024 y 2026, citando la propia pagina de politica de cada proveedor. Despues cubre la conclusion para empresas: que verificar en el acuerdo de tratamiento de datos de un proveedor y por que los equipos regulados conservan cada vez mas los prompts sensibles dentro de su propia frontera.
Por que importa mas el nivel que el proveedor?
El error mas comun es preguntar “el proveedor X entrena con mis datos” como si hubiera una sola respuesta. No la hay. Cada proveedor importante opera al menos dos regimenes muy distintos bajo la misma marca.
El regimen de consumo cubre las aplicaciones de chat gratuitas y de pago individual. Aqui el incentivo del proveedor es mejorar el modelo a partir del uso real, asi que el valor por defecto suele inclinarse hacia una retencion mas larga y, en algunos casos, hacia el entrenamiento con tus entradas salvo que lo rechaces. El regimen comercial cubre el acceso a la API y los planes de empresa o de negocio. Aqui el cliente suele ser otra empresa con un equipo de compras y de seguridad, asi que el valor por defecto es sin entrenamiento, una ventana corta de retencion para monitorizacion de abuso y la opcion de reducir aun mas la retencion por contrato.
Esta division es el hecho mas importante de todo el tema. Un clinico que pega un resumen de un paciente en una aplicacion de chat gratuita y un ingeniero que llama al mismo modelo a traves de una API de empresa estan usando los mismos pesos bajo condiciones de datos completamente distintas.
Que conserva Anthropic y que cambio en 2025?
El cambio mas notable de Anthropic esta en el lado de consumo. En agosto de 2025 actualizo sus condiciones de consumo y politica de privacidad. Anteriormente, los chats de consumo no se usaban para entrenar modelos y se eliminaban en general en un plazo de 30 dias. Con la actualizacion, a los usuarios de los planes Free, Pro y Max (incluido Claude Code desde esas cuentas) se les pide que elijan si sus chats y sesiones de codigo nuevos o reanudados pueden usarse para entrenar los modelos de Anthropic.
El intercambio es explicito. Si permites el entrenamiento, la retencion se extiende hasta 5 anos. Si lo declinas, te quedas en la ventana de 30 dias y tus chats no se usan para entrenamiento. Los usuarios existentes tenian que hacer una seleccion para seguir usando Claude, con fecha limite el 8 de octubre de 2025. La razon declarada por Anthropic para la ventana mas larga es que los ciclos de desarrollo de modelos abarcan anos, asi que los datos de entrenamiento necesitan sobrevivir a una sola version.
El mejor argumento a favor del proveedor es directo: los modelos grandes se entrenan con interacciones reales, y un rechazo claro mas una fecha limite visible es mas honesto que cambiar las condiciones en silencio. La preocupacion empresarial legitima es igual de clara: los valores por defecto gobiernan el comportamiento, y cualquier aplicacion de consumo en un dispositivo corporativo es ahora una posible via de retencion de cinco anos para lo que sea que un empleado pegue dentro.
Que conserva OpenAI en consumo, API y empresa?
OpenAI traza la misma linea entre consumo y comercio. Sus compromisos de privacidad para empresas establecen que los datos enviados a traves de la API, ChatGPT Enterprise y ChatGPT Team no se usan para entrenar los modelos de OpenAI. En el lado de desarrolladores, la documentacion de controles de datos de OpenAI confirma que, desde el 1 de marzo de 2023, los datos enviados a la API no se usan para entrenar modelos salvo que lo aceptes explicitamente, y que los registros de monitorizacion de abuso se conservan hasta 30 dias.
Para los clientes que necesitan menos de 30 dias, OpenAI ofrece Zero Data Retention (ZDR) en los endpoints elegibles, que excluye el contenido del cliente de los registros de monitorizacion de abuso y fuerza el parametro store a false. ZDR no es automatico. Segun la misma documentacion, esta sujeto a aprobacion previa por parte de OpenAI y a la aceptacion de requisitos adicionales, gestionados a traves de ventas. Algunos endpoints con estado (assistants, threads, vector stores, files) siguen siendo no elegibles porque almacenan el estado de la aplicacion por diseno.
El hecho mas instructivo vino de un litigio, no de una politica. En el caso de derechos de autor presentado por The New York Times, un juez magistrado de EE. UU. ordeno a OpenAI en mayo de 2025 conservar los registros de ChatGPT que normalmente eliminaria. La propia respuesta de OpenAI a las exigencias de datos explica el alcance: la orden afecto a ChatGPT Free, Plus, Pro y Team, mas el trafico de API estandar. No afecto a ChatGPT Enterprise, ChatGPT Edu ni a los clientes de API con un acuerdo de Zero Data Retention, porque OpenAI no conserva ese contenido en primer lugar. El requisito amplio de conservacion se acoto despues a finales de septiembre de 2025.
Que conserva Google en Gemini, Vertex y Workspace?
La division de Google es la mas amplia de las tres. En el lado de consumo, la Actividad de las apps de Gemini esta activada por defecto, las conversaciones se guardan en tu cuenta de Google hasta 18 meses por defecto (ajustable a 3 o 36 meses), y una muestra separada de conversaciones es revisada por personas y se usa para mejorar los modelos de Google salvo que desactives la opcion. Google advierte explicitamente a los consumidores que no introduzcan informacion que no querrian que viera un revisor.
En el lado comercial la postura es la opuesta. La documentacion de gobernanza de datos de Vertex AI de Google establece que Google no usa tus prompts ni respuestas para entrenar sus modelos fundacionales sin permiso. Las entradas pueden almacenarse en cache brevemente para reducir la latencia (hasta 24 horas, con alcance de proyecto), y los clientes que necesitan una postura mas estricta pueden solicitar condiciones equivalentes a retencion cero de datos, lo que requiere desactivar la cache y solicitar una excepcion al registro de monitorizacion de abuso. Los registros de monitorizacion de abuso de la API de Gemini se conservan durante una ventana limitada solo para la aplicacion de politicas, no para entrenar los modelos fundacionales.
Como se comparan los tres proveedores de un vistazo?
La tabla siguiente resume los valores por defecto. Tratala como un mapa de partida, no como un contrato: las condiciones vinculantes son siempre la pagina de politica actual del propio proveedor y tu acuerdo firmado.
| Proveedor y nivel | Entrena con tus datos por defecto? | Retencion por defecto | Reducir a cero? |
|---|---|---|---|
| Anthropic consumo (Free/Pro/Max), entrenamiento permitido | Si (aceptacion) | Hasta 5 anos | Rechazar, vuelve a 30 dias |
| Anthropic consumo, rechazado | No | 30 dias | n/d |
| Anthropic comercial / API | No | Corta, definida por contrato | Si, por acuerdo |
| OpenAI ChatGPT consumo | No para Enterprise/Team; los ajustes de consumo varian | Depende de la cuenta | Usar el nivel de negocio |
| OpenAI API | No (desde marzo de 2023) | Hasta 30 dias (abuso) | Si, ZDR en endpoints elegibles |
| OpenAI Enterprise / Team | No | Definida por contrato | Si |
| Google Gemini app de consumo | Si, salvo que se desactive | Hasta 18 meses por defecto | Desactivar la Actividad de las apps |
| Google Vertex AI / Workspace negocio | No, sin permiso | Hasta 24 h de cache | Si, condiciones equivalentes a ZDR |
Dos patrones se mantienen en los tres. Primero, el valor por defecto en una aplicacion personal es mas permisivo de lo que la mayoria de los equipos regulados creen. Segundo, todos los niveles comerciales ya prometen sin entrenamiento y permiten llevar la retencion hacia cero, lo que significa que el control que necesitas suele existir; solo hay que activarlo y dejarlo escrito en el contrato.
Que deberia verificar un equipo regulado en el DPA de un proveedor?
Un acuerdo de tratamiento de datos (DPA) es el contrato que regula como un proveedor, actuando como tu encargado, gestiona los datos personales. Las paginas de marketing no son vinculantes; el DPA y las politicas a las que remite si lo son. Cuatro comprobaciones separan un despliegue defendible de uno esperanzado.
- Retencion cero, por escrito. Confirma la ventana de retencion para los prompts, las respuestas y los archivos subidos, y confirma si la retencion cero de datos se aplica a los endpoints concretos que llamas. Una ZDR que excluya los endpoints con estado que realmente usas no es retencion cero para ti.
- Sin entrenamiento, sin excepciones silenciosas. Confirma en el contrato que tu contenido no se usa para entrenar ni afinar los modelos del proveedor, y comprueba si alguna clausula de “mejora del servicio” o de afinado de seguridad reabre esa puerta.
- Subencargados nombrados y una clausula de aviso de cambios. Toda parte aguas abajo que pueda tocar los datos debe estar listada, con aviso previo de las altas para que puedas oponerte antes de que entren en funcionamiento.
- Una region de tratamiento y almacenamiento fija. Para la residencia conforme al RGPD y para las normas sectoriales, fija donde se tratan y almacenan los datos, no solo donde se factura la cuenta. Una promesa de region que no puedes verificar no es residencia.
En que situacion deja esto a los equipos regulados?
La lectura honesta es que los grandes proveedores han construido controles comerciales razonables. Sin entrenamiento por defecto en los niveles de API y de empresa, retencion corta y una via hacia la retencion cero son reales y estan documentados. Para muchas cargas de trabajo, un DPA bien negociado en un nivel comercial es suficiente.
La brecha tiene dos lados. Primero, la superficie de consumo sigue siendo el punto debil: las aplicaciones gratuitas en dispositivos corporativos llevan los valores por defecto permisivos, y eso es un problema de gobernanza sobre personas y politicas, no sobre el proveedor. Segundo, incluso un DPA solido es una promesa sobre la infraestructura de otra persona, y las promesas las puede cambiar el proveedor o anular un tribunal. Para los flujos de trabajo mas sensibles (informacion sanitaria protegida, material legal privilegiado, registros financieros regulados, datos de defensa), la respuesta mas duradera es no enviar ese contenido a un tercero en absoluto. Ejecuta el agente dentro de tu propia nube, VPC o entorno on-prem, conserva los prompts y documentos en un plano de datos que controlas, encamina cada llamada a traves de una unica pasarela y registra cada ejecucion en una traza que posees. Entonces la ventana de retencion es tu ventana de retencion, la politica de entrenamiento es tu politica de entrenamiento, y el proximo cambio del proveedor es algo sobre lo que lees en lugar de algo que le pasa a tus datos.
Mapea tus proveedores con la tabla de arriba, corrige los valores por defecto de consumo, verifica las cuatro comprobaciones del DPA y conserva los prompts irreemplazables dentro de la frontera. Para mas sobre esa frontera, consulta nuestro enfoque de la confianza y el resto de nuestros textos sobre AgentOps y gobernanza.
Preguntas frecuentes
Anthropic entrena con mis datos de Claude?
Depende del nivel. Para Claude for Work, Government, Education y el acceso por API, Anthropic no usa tus datos para entrenar sus modelos. Para los planes de consumo Free, Pro y Max, desde la actualizacion de agosto de 2025 eliges: permitir el entrenamiento y la retencion llega hasta 5 anos, o rechazarlo y quedarte en 30 dias sin entrenamiento. Consulta la actualizacion de las condiciones de consumo de Anthropic.
Se usan para entrenar sus modelos los datos enviados a la API de OpenAI o de Google?
No, no por defecto. OpenAI afirma que los datos de API no se han usado para entrenamiento desde marzo de 2023 salvo que lo aceptes, con hasta 30 dias de retencion de monitorizacion de abuso y una via opcional de Zero Data Retention. Google afirma que Vertex AI no usa tus prompts para entrenar sus modelos fundacionales sin permiso. Las aplicaciones de chat de consumo son la excepcion, donde los valores por defecto pueden favorecer el entrenamiento salvo que desactives la opcion.
Que es lo mas importante que comprobar en el contrato de un proveedor de IA?
Cuatro cosas, por escrito: retencion cero o minima para los endpoints que realmente usas, un compromiso explicito de no entrenamiento sin excepcion silenciosa de mejora del servicio, una lista de subencargados nombrados con aviso de cambios y una region de tratamiento y almacenamiento fija. Si los prompts mas sensibles no pueden tolerar ningun riesgo de retencion por parte de terceros, el control mas solido es conservarlos dentro de tu propia frontera en lugar de depender de un contrato por si solo.