Lógica errónea, error de lógica o datos incorrectos

Introducción

Querría comenzar con un par de preguntas:

  1. ¿Podemos cocinar una tortilla con huevos podridos y que tenga un aspecto apetecible?
  2. ¿Nos comeríamos una tortilla con aspecto apetecible si sabemos que está cocinada con huevos podridos?

A partir de esas dos frases, me gustaría incidir en un hecho innegable: si no tenemos información correcta podemos tomar decisiones inciertas.

¿Podemos acertar teniendo información errónea?, sí. Es posible que alguna vez acertemos, como si siempre apostamos a un mismo número en la ruleta, un lado de la moneda o una cara de un dado. Estadísticamente acertaremos algunas veces, unas más y otras menos, dependiendo de las diferentes posibilidades en la elección y de factores externos que hacen que si hay dos opciones no tiene por qué salir la segunda si acaba de salir la primera.

Imaginemos que no solamente hay que acertar un número de la ruleta, si no 3 seguidos. Si no hemos de acertar un lado de la moneda, sino de 3 lanzadas a la vez o si no hemos de acertar una cara de un dado o sino las de 3 dados lanzados simultáneamente. ¿Pensamos que acertaremos más o menos veces?

Como nos damos cuenta, todo va a depender de las posibilidades. Si pensamos en esto, nos damos cuenta de cómo funciona la mente humana y en base a qué decidimos qué número va a salir, qué lado de la moneda quedará a la vista, o que lado del dado finalizará en la parte superior. Pues necesitamos realizar un estudio que nos facilite más datos o utilizar el método (demasiado extendido) prueba y error.

Estos estudios se llevan haciendo hace tiempo por aquellos que generan procesos de análisis de información con el objetivo de enriquecerse: contar cartas, estadísticas de la ruleta, combinaciones de dados..., y cuantos más datos puedan revisar mejor pueden acercarse a una elección de los posibles resultados. No solamente 1, ya qué el coste de las apuestas respecto a al beneficio obtenido, les compensa.

Lógica errónea, error de lógica o datos incorrectos en IA

Este es el principio de la inteligencia artificial. Se le da información para que analice los datos de entrada y resultado final, evaluando las diferentes variables que han podido llevar a él. Pero... ¿quien le dice que el resultado final es correcto,? ¿quien le dice que esos son todos los datos?, ¿quien le dice las variables a tener en cuenta?, ¿quién le ha dicho cómo ha de analizarlo?... humanos.

Por tanto, la inteligencia artificial se basa en lo que han decidido unos humanos: qué ha de procesar y cómo ha de hacerlo.

Llegados a este momento, podemos pensar en un principio básico: Todo el mundo miente.

Y no porque todo el mundo sea mentiroso, si no porque cada uno tiene su verdad. Su certeza asume unos u otros datos, está condicionado por culturas, enseñanzas, entornos…

Si nuestras decisiones se basan en información errónea, incompleta o condicionada, nuestras acciones no serán las correctas, pero… ¿No correctas para quién?

Volviendo a las primeras preguntas, pongamos una hipótesis basada en lo que sabemos de la Inteligencia Artificial:

1) Nosotros le ofrecemos los siguientes datos para cocinar una tortilla:

  • Unos huevos podridos
  • La mejor receta del mundo de la tortilla
  • La temperatura perfecta para el aceite idóneo para freír los huevos
  • El mejor material para que la sartén no se adhiera, ni cambie el sabor a esa tortilla

2) El resultado será

  • Una tortilla con un aspecto impecable, o no, dependiendo del gusto de cada uno.

3) Las acciones que tomaremos pueden se varias

  • Comer la tortilla perfecta porque lo ha decidido una IA que está “mucho más preparada que nosotros” y “ha tenido toda la información para procesarla”
  • Saber primero de dónde ha sacado la información, antes de comer esa tortilla sin saber si los huevos estaban podridos, el aceite manipulado, la sartén sucia, se ha cocinado con queroseno que ha podido dejar sabor y residuos….

Como vemos, la lógica de la IA no era errónea, ya que ha aplicado unos análisis de información basado en procesos cognitivos simulados en los modelos de aprendizaje. La lógica errónea era la nuestra al asumir que el resultado no podía ser malo al haber analizado muchos datos en pocos segundos cuando, nosotros tardaríamos mucho en llegar a hacer una tortilla tan perfecta.

El error está en la lógica de creer que la IA aplicará los mismos principios que nosotros aplicaríamos, ya que no somos nosotros los que le hemos facilitado las fuentes de información para su aprendizaje.

¿Qué sucedería si a una IA le ofrecemos un mayor número de fuentes de información de una ideología o principios contrarios a los nuestros? ¿Qué pasaría si basamos nuestro trabajo, decisiones o interlocución en esa IA? ¿Quién sería el responsable de lo que nos suceda por ello? ¿Sabemos realmente qué información se le ha facilitado a esa IA?

Por ello, pensemos en lo siguiente cuando criticamos a la IA por que muestre un trozo de sushi remontando un río (ya que la mayor cantidad de información recibida es de cocina asiática). O cuando decidimos que haga nuestro trabajo la IA sin saber de dónde ha aprendido y por tanto sí el resultado será nuestro (o de otro) y luego tenemos problemas por decir cosas contrarias a nuestro entorno (sin estar nosotros de acuerdo con ellas).

Como vemos, el impacto de los datos de aprendizaje de las IA es la información que les proveemos. No es más que el mismo problema que las compañías están arrastrando desde hace años. Evolucionando en una huida hacia adelante, cerrando los ojos a los problemas que acumulan.

  1. Primero fueron los Almacenes de datos (Data Warehouse) de los que se generaban los informes y de los que se extraía la información para las campañas de marketing (en ocasiones no muy triunfales por la falta o inconsistencia de la información)
  2. Después se comenzó a traer datos de otras fuentes y comenzar a acumularla (como un síndrome de Diógenes digital) en los mal llamados Lagos de datos (Data Lake) que derivaban en Pantanos de datos (Data Swamp). O mejor dicho, lodazales de datos (Data Mud)
  3. Más adelante se comenzaron a lanzar modelos basados en esos Data Mud con menos éxito y mucha polémica, pero que sirvió para poder evolucionar los algoritmos que nos han llevado dónde estamos
  4. Ahora hablamos de IA (que es la evolución a los modelos más complejos que intentan simular capacidades cognitivas y de razonamiento). Utilizando múltiples fuentes de información, “cuanto más, mejor”.

Vemos que la evolución ha sido rápida para todo lo que se había realizado anteriormente, pero con un punto común que lleva al desastre. Siempre escuché una frase atribuida a Einstein que decía: Locura es hacer lo mismo, una y otra vez, y esperar un resultado diferente.

En este caso la podríamos adaptar a: Locura es tratar de analizar cada vez más información errónea y esperar obtener el resultado correcto.

Dentro de los sistemas computacionales, avanzamos con esa metodología de ser el más adelantado de la clase pero sin poder aplicar lo que hemos adelantado porque la base es mala. Como la mejor tortilla del mundo realizada con huevos podridos, puede matarnos.

Al final, la realidad es que:

  • Si nuestros datos nos son correctos, no aprendemos nosotros ni una inteligencia artificial
  • Si la ética aplicada (según la visión del que desarrolla) no es la misma que la nuestra, luego no podemos quejarnos del resultado
  • Si dejamos que una inteligencia artificial se nutra del caos que nosotros mismos desplegamos en nuestras fuentes de información: negacionistas, conspiracionistas, estadistas, legalistas, religiosos, marxistas, fascistas… Sin aplicar un filtrado, sin relacionar correctamente los datos, (como que el sushi no es un salmón vivo que podemos encontrar en estado salvaje) los resultados serán los que el proveedor de los datos y quien decida los filtros desee.

La información se ha de tratar:

  • Analizar (Perfilado de datos – Data profilling)
  • Limpiar y unificar (Calidad del dato – Data quality)
  • Relacionar las diferentes fuentes (Gestión de datos maestros - Master data management)
  • Constatar las fuentes y detectar la información (Catálogo de datos – Data catalog)
  • Analizar la información de las fuentes (Gestión de metadatos – Metadata management)
  • Poner en contexto (Glosario y Taxonomías – Glossary and Taxonomy)
  • Proteger las fuentes de información para evitar manipulaciones (Seguridad del dato – Data security)
  • Gobernar la información mediante de forma correcta (Ética de los datos – Data ethics)

Esto nos permitirá afinar nuestros análisis, estudios, modelos... Y obtener cada vez resultados mejores.

Conclusión

Antes de correr hay que tener toda la información, ya que correr cuesta abajo de la misma forma que correrías cuesta arriba o en plano, puede provocar un desastre. No por no saber correr, sino por no tener toda la información necesaria para saber cuál es la mejor forma de hacerlo en esas condiciones (ya que tu fuente de datos no incluía información suficiente, en calidad o volumen para ser representativo en el resultado del modelo).

Aseguremos que todo es correcto antes de que nos cocinen una tortilla maravillosa que no nos podamos comer.

Ebook IA

Tags

IA
He leído y acepto la política de privacidad
Acepto recibir emails sobre actividades de recruiting NTT DATA