Machine Learning: por qué la supervisión humana es la clave del éxito

EL MACHINE LEARNING (ML), O APRENDIZAJE AUTOMÁTICO, SE CONVIRTIÓ EN LA ESTRELLA DE LA TRANSFORMACIÓN DIGITAL. SEGÚN MCKINSEY, EL 51% DE LAS ORGANIZACIONES YA ESTÁN EN ETAPAS INICIALES DE ADOPCIÓN, PERO SÓLO EL 15% SON CONSIDERADAS USUARIAS AVANZADAS. ¿QUÉ SEPARA A UNOS DE OTROS? LA RESPUESTA NO ESTÁ EN LOS ALGORITMOS, SINO EN EL TRABAJO INVISIBLE QUE LOS SOSTIENE: LA PREPARACIÓN DE DATOS, LA SUPERVISIÓN CONSTANTE Y EL ENTRENAMIENTO RIGUROSO.

En empresas de logística es común encontrar registros manuales de localidades de clientes con múltiples formatos. Buenos Aires podría aparecer como “Bs. As.”, “B.A.”, “Capital Federal” o incluso “CABA”. Este caos de datos no es la excepción, sino la regla.

Según estimaciones citadas por expertos, los científicos de datos dedican el 80% de su tiempo a limpiar y estandarizar información, enfrentando problemas como registros incompletos, valores nulos o escalas dispares. “Se habla mucho de machine learning pero no siempre se tiene en cuenta que se requiere seguimiento, supervisión y entrenamiento para que realmente sea efectivo”, introduce Clemencia Nicholson, CEO de Arbusta, startup especializada en la gestión de datos para el uso de IA en las empresas.

Pero el desafío no termina ahí. Incluso con datos limpios, los modelos requieren un monitoreo activo para evitar la “deriva” (cuando los datos de producción difieren de los de entrenamiento) y ajustes continuos para mantener su precisión.

Un artículo de Nodd3r, una escuela online para aprender Data Science e Inteligencia Artificial, advierte que la falta de supervisión puede reducir la eficacia de los modelos hasta en un 30%, mientras que IBM destaca que el aprendizaje supervisado mejora la precisión de predicciones en un 25%. “Se habla de algoritmos, pero el verdadero secreto está en el ciclo de vida del ML: entrenar, validar, probar y repetir”, añade Stephany Villa Castillo -CBO de Arbusta.

Arbusta: el aliado que transforma datos en decisiones
Arbusta hizo de la gestión de datos su bandera. Fundada en 2015, la compañía se convirtió rápidamente en partner tecnológico de empresas como Mercado Libre, Kavak y Despegar, gracias a un equipo de expertos en servicio de gestión de data para el entrenamiento de Machine Learning. Con sedes en Buenos Aires, Medellín y Rosario, y respaldada por fondos como el suizo ELEA y el estadounidense Potencia Venture, la empresa cerró 2024 con un revenue de 4,4 millones de dólares, triplicando su crecimiento desde 2019.

LEER  Los destinos nacionales son los más elegidos en Semana Santa

“Nuestra misión es ser el partner latinoamericano número uno en gestión de data para la toma de decisiones con IA”, afirma Nicholson. Su modelo integra servicios como DATA, BPO y QA, articulados bajo una suite de productos que prioriza la calidad. “No vendemos algoritmos; vendemos confianza construida desde el talento humano”, agrega Martín Senderey -COO de Arbusta-.

El corazón del Machine Learning: ¿Cómo se enseñan y prueban las soluciones?
Arbusta adoptó el paradigma Human in the Loop (HITL), donde la intervención humana es clave en cada fase. “El Machine Learning no reemplaza a las personas; las potencia”, afirma Pablo Mlynkiewicz, CTO de Arbusta. Este enfoque estructura el proceso en tres pilares:

  1. Entrenamiento con datos limpios y diversos
    Los modelos se alimentan con datos históricos etiquetados, donde humanos corrigen errores y homogeneizan criterios. Por ejemplo, en chatbots de comercio electrónico, el Procesamiento del Lenguaje Natural (PLN) requiere anotaciones manuales para entender variaciones lingüísticas. “La máquina aprende mejor cuando combinamos automatización con supervisión experta”, explica Mlynkiewicz.
  2. Validación
    El 20-30% de los datos se reservan para validar que el modelo generalice patrones, no memorice respuestas. Arbusta utiliza técnicas como la validación cruzada k-fold, que divide los datos en segmentos para probar múltiples escenarios. “Un modelo con 90% de precisión en pruebas es confiable, pero si cae al 70% en producción, hay que reentrenarlo”, advierte Senderey.
  3. Pruebas en tiempo real y ajustes continuos
    Los datos de prueba (nunca vistos por el modelo) revelan su desempeño en condiciones reales. Si la precisión es baja, se ajustan hiper parámetros (variables que controlan el aprendizaje). Este ciclo iterativo es respaldado por estudios de PwC, que proyectan que el Machine Learning aportará $15,7 billones a la economía global para 2030. “Es un proceso de mejora , resume Nicholson.
LEER  Pancho Ibáñez se une a Grupo Gaman como su primer embajador institucional

Arbusta y la revolución del mercado automotriz online
La colaboración entre Arbusta y un sitio de ecommerce focalizado en autos, ejemplifica este enfoque. El desafío era claro: automatizar la captura de datos de mercado para predecir precios justos y actualizar catálogos en tiempo real.

Antes de Arbusta, el proceso era manual y lento. “El 70% de las tareas se automatizaron”, detalla Juan Pablo Hermida, Project Manager de Arbusta. Esto le permitió integrar datos de fuentes dispersas (sitios web, concesionarios) y validarlos con herramientas de back-office optimizadas. La precisión del algoritmo mejoró un 40%, reduciendo errores en valoraciones.

El éxito radicó en la simbiosis entre tecnología y talento. “Trabajamos codo a codo con el equipo de nuestro cliente para ajustar métricas y priorizar datos críticos”, explica Hermida. Hoy, el catálogo de la web actualiza precios en horas, no días, y la experiencia del usuario es más ágil y transparente.

El futuro del ML es humano
El Machine Learning no es un proyecto, sino un proceso. Según EarthWeb, el 48% de las empresas ya usan ML, pero pocas invierten en supervisión a largo plazo. “La tecnología avanza, pero sin seguimiento, los modelos envejecen”, sentencia Nicholson.

¿Qué es Machine Learning y cómo evolucionó?
El Machine Learning, o aprendizaje automático, es una rama de la inteligencia artificial (IA) que se centra en el desarrollo de algoritmos que permiten a las computadoras aprender de los datos y mejorar su rendimiento con la experiencia, sin ser programadas explícitamente. Estos algoritmos identifican patrones en grandes conjuntos de datos y utilizan estos patrones para hacer predicciones o tomar decisiones.

La historia del Machine Learning comienza a mediados del siglo XX. En 1943, Walter Pitts y Warren McCulloch publicaron un artículo que intentaba mapear matemáticamente el pensamiento y la toma de decisiones en los seres humanos. Este trabajo sentó las bases para el desarrollo de las redes neuronales artificiales. En 1950, Alan Turing propuso el concepto de una “máquina de aprendizaje” que podría modificar su comportamiento basado en la experiencia.

LEER  Celebramos la vocación y la conexión con los animales

El término “Machine Learning” fue acuñado por Arthur Samuel en 1952. Samuel desarrolló un programa de ordenador para jugar a las damas, que mejoraba su rendimiento con cada partida mediante la estrategia minimax. Este programa fue uno de los primeros ejemplos de un algoritmo que podía aprender y mejorar sin intervención humana directa.

Evolución del Machine Learning
Desde sus inicios, el Machine Learning evolucionó significativamente. En los años 60, se desarrollaron los primeros algoritmos de reconocimiento de patrones, como el algoritmo de vecino más cercano. En los años 80, el interés por el Machine Learning resurgió con el desarrollo de los sistemas expertos basados en reglas.

En los años 2000, el aumento de la potencia de cálculo y la disponibilidad de grandes conjuntos de datos impulsaron el desarrollo de algoritmos más sofisticados, como las redes neuronales profundas. Hoy en día, el Machine Learning es una tecnología clave en diversas aplicaciones, desde el reconocimiento de voz hasta la predicción de enfermedades.

Con su propuesta de valor, Arbusta demuestra que la clave está en integrar humanos y máquinas, desde la limpieza de datos hasta el reentrenamiento constante. Con una proyección de triplicar sus operaciones en la región, la compañía reafirma que el éxito del ML no está en la sofisticación técnica, sino en la capacidad de sostener un ciclo virtuoso donde cada dato, cada ajuste y cada persona cuentan.