Cómo organicé 200.000 archivos y 40 años de trabajo: la metodología que aplicamos para nuestros clientes

Cómo organicé 200.000 archivos y 40 años de trabajo con IA: la metodología que aplicamos para nuestros clientes

Por qué una guía de Organizando e indexación de 200.000 archivos y 40 años de trabajo. Ayudamos a profesionales veteranos a organizar e indexar décadas de archivos acumulados. La pregunta inevitable es: ¿hacéis lo mismo con vuestro propio archivo? La respuesta corta es sí. Después de cuarenta años en el sector informático, con cerca de 200.000 archivos repartidos entre Google Drive, Dropbox, varios discos duros y unas 20.000 notas de Evernote, decidí aplicarme la misma metodología que aplicamos a nuestros clientes. Esta guía documenta esa arquitectura paso a paso.

Esta guía documenta la metodología que he diseñado para organizar, proteger e indexar todo ese conocimiento. No es una propuesta teórica: es la arquitectura que estoy aplicando, pensada para resistir el paso del tiempo, los cambios de proveedor y los riesgos a los que se enfrenta cualquier persona que produce contenido sensible (en mi caso, comunicación política aunque también aplicable a temas médicos y estudios sociales personales).

La guía sigue un orden lógico de capas, de la más fundamental a la más avanzada. Cada decisión está razonada, no es estética.

Fase 1. IONOS HiDrive como repositorio central

La primera decisión, y la más contraintuitiva para quien trabaja a diario con Google, es no dejar el archivo histórico en Google Drive. Drive es excelente para trabajo activo, pero presenta dos vulnerabilidades estructurales que afectan a cualquier persona que produzca contenido susceptible de polémica: política, periodismo, opinión, investigación.

El riesgo real del bloqueo de cuenta. Google ha bloqueado cuentas de usuarios por algoritmos automáticos sin revisión humana, y la recuperación puede tardar semanas o no producirse nunca. No es un escenario hipotético: hay casos documentados de profesionales que han perdido años de trabajo de un día para otro. Para alguien con perfil político, comunicación electoral o análisis crítico, la diversificación geográfica y jurisdiccional no es paranoia: es prudencia profesional.

Por qué IONOS y no otro proveedor europeo. Existen alternativas robustas como Hetzner, pCloud o Infomaniak, todas con jurisdicción europea. He elegido IONOS HiDrive Business 1 TB por tres razones: ya era cliente, los centros de datos están certificados ISO 27001 y operan exclusivamente en Europa, y el soporte está en español. El precio post-promoción (7 €/mes por 1 TB) es competitivo a largo plazo. El cumplimiento del RGPD está garantizado y los datos no se monetizan, a diferencia de las plataformas estadounidenses.

La arquitectura es invertida respecto al uso habitual. La mayoría de la gente usa Drive como almacén principal y otros servicios como espejo. Mi arquitectura hace lo contrario: IONOS es el repositorio histórico principal, y Drive y Dropbox quedan reservados para trabajo activo del día a día. Si Google bloquea la cuenta mañana, pierdo trabajo en curso, no archivo histórico. Es una distinción cualitativamente distinta.

Por qué uso rclone y no el cliente HiDrive de IONOS

IONOS proporciona un cliente de sincronización propio llamado HiDrive, pero presenta los problemas habituales de los clientes propietarios cuando trabajas con volúmenes altos: lentitud en sincronizaciones grandes, conflictos con archivos modificados rápido, consumo desproporcionado de CPU y, en algunos casos, pérdida de seguimiento de cambios. Es una limitación conocida del producto, no mala suerte del usuario.

La solución es rclone, una herramienta de línea de comandos open source descrita por sus usuarios como «la navaja suiza del almacenamiento en la nube». Inspirada en rsync y escrita en Go, rclone soporta más de 70 servicios de almacenamiento, incluido el protocolo WebDAV que IONOS expone de forma nativa. Las ventajas funcionales son sustanciales:

Conserva timestamps y verifica checksums en cada transferencia. Las transferencias interrumpidas se reanudan desde el último archivo correcto. Funciona idéntico en Windows, Mac y Linux. Soporta scripts y automatización completa. Y lo más importante para una arquitectura de archivo a largo plazo: al ser open source, no depende de la viabilidad comercial de ningún proveedor concreto. rclone seguirá funcionando dentro de diez años, independientemente de lo que pase con IONOS, Google o cualquier otro servicio.

Para quien prefiera una interfaz gráfica, existen frontales como RcloneView que mantienen el motor open source pero añaden una capa visual de gestión.

Fase 2. Drive y Dropbox solo para el día a día

Una vez IONOS ocupa el papel de repositorio histórico, los servicios estadounidenses recuperan su mejor uso: trabajo activo y colaboración.

Google Drive cumple aquí muy bien. Tengo contratados 5 TB de los que uso aproximadamente 105 GB. La velocidad es excelente, la integración con el ecosistema Google Workspace es difícil de igualar, y la colaboración en tiempo real sobre Google Docs sigue siendo superior a cualquier alternativa. Lo uso para trabajo en curso: artículos en redacción, documentos compartidos con clientes, materiales de proyectos vivos.

Dropbox tiene un papel específico y distinto: alberga el vault de Obsidian en el que estoy migrando 20.000 notas desde Evernote. La razón es una técnica concreta. Obsidian escribe muchos archivos pequeños muy rápido (cada vez que editas una nota, mueve archivos cuando reorganizas, los plugins escriben metadatos). Drive maneja mal este patrón y genera archivos duplicados con sufijos tipo «(1)» o «(conflicto)». Dropbox sincroniza fichero a fichero con menor latencia y resulta más fiable para este patrón de uso intensivo.

La metodología es generalizable. Aunque uso Drive y Dropbox, el principio aplica a cualquier combinación: OneDrive, iCloud, Box. La regla operativa es la misma: el servicio rápido y colaborativo se usa para trabajo activo; el servicio europeo independiente se usa para archivo histórico; los dos están separados deliberadamente.

El movimiento entre capas es manual y consciente. Cuando un proyecto pasa de «activo» a «histórico», lo muevo a IONOS. No hay sincronización automática que propague todo el contenido de Drive a IONOS, porque eso desvirtuaría el papel de cada capa. La transición de un documento de «vivo» a «archivado» es una decisión informada que tomo yo.

Fase 3. Backup en frío como tercera capa

La regla 3-2-1 del backup profesional dice que cualquier información crítica debe existir en tres copias, en dos soportes distintos, con una de ellas fuera de línea. Mi arquitectura cumple esta regla:

  • COPIA 1: Disco local del PC
  • COPIA 2: IONOS (jurisdicción UE) + Google Drive (trabajo activo)
  • COPIA 3: Disco duro externo desconectado físicamente

El backup en frío trimestral en disco duro externo cubre un riesgo que ninguna copia online puede cubrir: la corrupción silenciosa. Si un archivo se corrompe en local por un fallo de disco, malware o error humano, esa corrupción se propaga a Drive e IONOS en la siguiente sincronización. La protección real ante ese escenario la da una copia desconectada físicamente, no presente en ninguna red.

La frecuencia trimestral es deliberada. Un backup mensual sería innecesariamente frecuente para mi volumen de cambios; uno anual dejaría una ventana de pérdida demasiado amplia. Cada tres meses conecto el disco externo, ejecuto rclone con destino local, verifico que el conteo de archivos coincide con lo esperado, y vuelvo a desconectar el disco. La operación dura menos de una hora.

Importante: el disco externo no se usa nunca para nada más. No es disco de trabajo, no es disco de transporte. Vive guardado en un cajón y solo sale para la operación trimestral. Esta disciplina es la que garantiza que el snapshot capturado representa fielmente el estado del corpus en el momento del backup.

Fase 4. Conversión automática de Google Docs a formatos abiertos

Una decisión funcional crucial en la arquitectura es que todo lo que llega a IONOS entra en formato abierto. Esto significa que los archivos nativos de Google (.gdoc, .gsheet, .gslides) se convierten automáticamente a sus equivalentes Office (.docx, .xlsx, .pptx) durante el proceso de sincronización.

¿Por qué es crítico? Los archivos .gdoc no son archivos reales: son punteros a documentos alojados en los servidores de Google. Si Google bloquea la cuenta, los .gdoc almacenados en cualquier copia local o en IONOS se convierten en enlaces rotos. El contenido real sigue en Google. Para que el archivo histórico sea verdaderamente independiente del proveedor, los documentos deben existir como ficheros completos legibles por cualquier programa.

La herramienta. Esta conversión se realiza con rclone, aprovechando una de sus funciones avanzadas. Rclone detecta automáticamente los archivos nativos de Google durante la descarga y los convierte al formato Office equivalente sin intervención manual. La conversión preserva texto, formato, imágenes, tablas y la mayoría de elementos. Lo que se pierde son comentarios colaborativos puntuales y el historial de versiones de Google, ninguno de los dos relevante para un archivo histórico.

Alternativa para migraciones puntuales: Google Takeout permite exportar todo el contenido de Drive en un ZIP con los archivos ya convertidos. Es la herramienta oficial de Google para exportación masiva, gratuita y útil para una migración inicial. Sin embargo, no sirve para sincronización continua, porque es una operación puntual que hay que ejecutar manualmente cada vez.

Misma lógica para Evernote. Las 20.000 notas que estoy migrando desde Evernote a Obsidian siguen el mismo principio: dejar el formato propietario (.enex) y pasar a Markdown plano. Markdown es texto puro, lo entiende cualquier programa, y dentro de cuarenta años seguirá siendo legible sin necesidad de software específico.

La regla universal: cuanto más sensible es un dato y más larga su vida útil esperada, más importante es que viva en formato abierto. Para un archivo histórico de cuatro décadas de trabajo, esta regla no admite excepciones.

Fase 5. Herramientas de IA gratuitas para indexar el conocimiento

Tener 200.000 archivos bien organizados resuelve la mitad del problema. La otra mitad es encontrar lo que necesitas cuando lo necesitas. La búsqueda tradicional por nombre de archivo o palabra clave funciona mal a esta escala: requiere recordar exactamente cómo escribiste algo hace diez años. La solución es la búsqueda semántica con IA, que entiende el significado y no solo las palabras.

Las opciones disponibles cubren todo el espectro entre privacidad total y máxima potencia.

AnythingLLM es una de las herramientas más completas. Apunta la aplicación a una carpeta y procesa todos los archivos generando embeddings (representaciones matemáticas del significado) que se almacenan en una base vectorial local. Cuando haces una pregunta, AnythingLLM recupera los fragmentos relevantes y se los pasa al modelo de IA que elijas. Soporta Claude, GPT, Gemini y modelos locales. Es la opción más versátil.

Khoj es un asistente personal open source que indexa Obsidian, Notion, GitHub y carpetas locales. Su integración con Obsidian es especialmente cuidada, lo cual lo hace muy interesante para usuarios que ya tienen su conocimiento estructurado en Markdown. La búsqueda semántica más el chat sobre tus propios documentos cubren la mayoría de necesidades de un trabajador del conocimiento.

NotebookLM es la propuesta de Google para esta categoría. Su limitación es que el corpus se sube a servidores de Google, lo cual contradice la lógica de toda esta arquitectura. Útil para experimentar, no para indexación seria del archivo histórico.

Paperless-ngx es la referencia open source para gestión documental personal con OCR automático, etiquetado con machine learning y full-text search, todo en local. Especialmente recomendable si tienes mucho material escaneado en PDF que necesita reconocimiento de texto.

Modelos locales con Ollama o LM Studio. Esta es la opción que más respeta la privacidad. Ejecutas el modelo de IA completamente en tu propia máquina, sin que ningún fragmento del corpus salga de tu PC. La calidad de los modelos abiertos (Llama 3.3, Qwen 2.5, Mistral) ha mejorado dramáticamente en 2025 y 2026, hasta el punto de ser comparables a modelos comerciales para muchas tareas. Requiere hardware decente (preferiblemente con GPU) pero el coste operativo es cero una vez instalado.

La estrategia escalonada que estoy aplicando. No utilizo todas estas herramientas a la vez. La búsqueda semántica entrará en juego cuando el corpus consolidado en IONOS esté completo. Hasta entonces, sigo trabajando con búsqueda tradicional, que para el volumen de archivos verdaderamente activos sigue siendo suficiente.

Fase 6. El futuro: una IA propia que lo conozca todo

Si las cinco fases anteriores son arquitectura presente, la sexta es horizonte. Estamos en un punto de inflexión tecnológico que cambia la forma de pensar sobre el conocimiento personal.

Las IA locales están madurando rápidamente. Lo que en 2024 requería conocimiento técnico avanzado y hardware caro, hoy se instala con un par de clics. Modelos como Llama 3.3 y Qwen 2.5 corren en hardware doméstico con calidad cada vez más cercana a los modelos cloud. La trayectoria es clara: en 12-24 meses tendremos asistentes personales completamente locales con capacidades comparables a los productos comerciales actuales.

El modelo de «contexto persistente» está llegando. Los grandes laboratorios de IA (Anthropic, OpenAI, Google) trabajan en formas de que el modelo «recuerde» un corpus completo sin necesidad de recuperación fragmento a fragmento. Cuando esto madure, el patrón de uso cambiará: en lugar de hacer preguntas puntuales y recibir respuestas con fragmentos recuperados, podrás dialogar con un asistente que conoce tu trabajo completo de forma global, como conoce un colaborador veterano que lleva veinte años contigo.

Mi visión del futuro inmediato es construir esa IA propia. Una entidad digital que:

  • Conozca todo mi corpus profesional y personal.
  • Entienda los patrones de mi pensamiento y de mis intereses.
  • Pueda razonar sobre conexiones entre proyectos lejanos en el tiempo.
  • Funcione en local sin que ninguna información salga de mi infraestructura.
  • Sea propiedad mía, no producto de un proveedor externo que pueda cambiar las reglas del juego.

Por qué esperar es la decisión correcta. La paciencia tiene fundamento empírico para alguien que arrancó en informática en los 80 con minicomputadores VAX y ha visto pasar cuarenta años de tecnología. He visto demasiadas veces cómo la solución óptima de hoy es el legacy doloroso de mañana. Construir hoy una infraestructura RAG compleja sería trabajo desperdiciado si en doce meses los modelos con contexto persistente la dejan obsoleta.

Mientras tanto, capitalizo trabajo. Cada archivo que consolido en IONOS, cada nota migrada de Evernote a Obsidian, cada documento convertido de gdoc a docx, es trabajo que sirve para cualquier futuro tecnológico. Independientemente de qué herramienta de IA termine adoptando, todo este material estará listo para ser indexado, procesado y comprendido por ese sistema futuro.

Fase 7. Aspectos complementarios a considerar

Esta sección recoge cuestiones que surgen al implementar la arquitectura y que conviene tener resueltas.

Estructura de carpetas. La reorganización completa de 200.000 archivos no se hace en una semana. La aproximación realista es por fases: primero consolidar físicamente todo en IONOS respetando las estructuras de origen (con prefijos identificativos del origen), después definir una taxonomía maestra coherente con áreas reales de trabajo, y finalmente migrar progresivamente desde la estructura de origen a la nueva. La búsqueda semántica funciona bien independientemente de la estructura de carpetas, lo cual permite empezar a aprovechar el corpus consolidado mucho antes de tener la reorganización terminada.

Privacidad por capas. No todo el contenido tiene la misma sensibilidad. Material profesional ordinario, material político, material bajo NDA, material personal íntimo: cada categoría puede requerir un trato distinto. La arquitectura aquí descrita permite segmentar: la IA local procesa lo más sensible sin que salga de la máquina; las IA cloud procesan lo no sensible cuando se requiere mayor potencia.

Verificación periódica. Una arquitectura de backup que nadie verifica es una arquitectura que no funciona el día que se necesita. Cada seis meses ejecuto una restauración de prueba: tomo un archivo aleatorio de IONOS y otro del backup en frío y compruebo que se abren correctamente. Detectar un problema en una verificación rutinaria es muy distinto a descubrirlo el día que se necesita el archivo de verdad.

Documentar la propia metodología. Este artículo es, en sí mismo, parte de la arquitectura. Si en cinco años tengo que reconfigurar todo desde cero, este documento es la referencia que me explica las decisiones tomadas y por qué. Documentar las decisiones es tan importante como tomarlas.

Evolución continua. Esta no es una arquitectura definitiva. Cada año reviso si las herramientas elegidas siguen siendo las mejores opciones disponibles, si los proveedores mantienen sus condiciones, si han aparecido alternativas superiores. La metodología es estable; las herramientas concretas son sustituibles.

Conclusión

Cuarenta años de trabajo no se organizan en una semana ni en un mes. Esta arquitectura es paciente por diseño: respeta el ritmo real al que se mueve el trabajo profesional y al que se mueve la tecnología. Combina prudencia (jurisdicción europea, formatos abiertos, backup en frío) con ambición (búsqueda semántica con IA, horizonte de asistente personal completo).

La pregunta no es si vale la pena hacer todo esto. La pregunta es qué se pierde si no se hace. Mi respuesta personal: demasiado. Los archivos que acumulamos son la materia prima de nuestro trabajo futuro. Tratarlos como activo estratégico, no como acumulación accidental, es la diferencia entre seguir creciendo profesionalmente o quedar atrapado en un caos de información imposible de recuperar.

Tabla de referencias

Herramienta Categoría Enlace
IONOS HiDrive Almacenamiento europeo https://www.ionos.es/soluciones-oficina/hidrive-almacenamiento-en-la-nube
rclone Sincronización open source https://rclone.org
RcloneView Interfaz gráfica para rclone https://rcloneview.com
Google Drive Almacenamiento de trabajo activo https://drive.google.com
Google Takeout Exportación masiva de Google https://takeout.google.com
Dropbox Almacenamiento para vault Obsidian https://www.dropbox.com
Obsidian Sistema de notas en Markdown https://obsidian.md
AnythingLLM RAG local con múltiples IA https://anythingllm.com
Khoj Asistente personal open source https://khoj.dev
NotebookLM RAG cloud de Google https://notebooklm.google.com
Paperless-ngx Gestión documental con OCR https://docs.paperless-ngx.com
Ollama IA local https://ollama.com
LM Studio IA local con interfaz gráfica https://lmstudio.ai

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies