Buena Data Podcast

Todo es una construcción social. Esto incluye a los datos, a los algoritmos y la forma en que estos se usan. En el capítulo de hoy vamos a hablar de la importancia de las ciencias sociales para la naciente disciplina de la ciencia de datos: lo específico (y muy buscado) del cientista social, el rol del pensamiento crítico, la (insuficiente/inexacta/innecesaria) formación académica para desempeñarse en el rubro, y la importancia de enmarcar un problema desde una mirada interdisciplinaria. Los modelos de machine learning tienen impactos concretos en la vida real, y por eso integrar una mirada basada en las ciencias sociales es igual de necesario que la excelencia algorítmica y performance computacional. Dejar de lado una de las dos esferas de la ciencia (humanística/exacta) fuera de la ecuación reduce la ciencia de datos a la programación. Y si bien haberlo hecho así hasta ahora tuvo consecuencias, todavía estamos a tiempo de cambiar la historia. Además, cómo la OTAN está usando la IA para construir armas y humanos aumentados, pero también cómo se está usando para detectar trastornos del espectro autista en niñxs a edades cada vez más tempranas.

Show Notes

Todo es una construcción social. Esto incluye a los datos, a los algoritmos y la forma en que estos se usan.

En el capítulo de hoy vamos a hablar de la importancia de las ciencias sociales para la naciente disciplina de la ciencia de datos: lo específico (y muy buscado) del cientista social, el rol del pensamiento crítico, la (insuficiente/inexacta/innecesaria) formación académica para desempeñarse en el rubro, y la importancia de enmarcar un problema desde una mirada interdisciplinaria.

Los modelos de machine learning tienen impactos concretos en la vida real, y por eso integrar una mirada basada en las ciencias sociales es igual de necesario que la excelencia algorítmica y performance computacional.

Dejar de lado una de las dos esferas de la ciencia (humanística/exacta) fuera de la ecuación reduce la ciencia de datos a la programación. Y si bien haberlo hecho así hasta ahora tuvo consecuencias, todavía estamos a tiempo de cambiar la historia.

Además, cómo la OTAN está usando la IA para construir armas y humanos aumentados, pero también cómo se está usando para detectar trastornos del espectro autista en niñxs a edades cada vez más tempranas.

--

Hacemos Buena Data

Mothercaster Media: producción, edición, diseño sonoro y post producción sonora > https://www.mothercastermedia.com

Circular.lat: comunicación y dirección de arte > https://www.circular.lat

Hernán Escudero: idea y música original, producción, guión y grabación > https://www.linkedin.com/in/hernanescudero

La discusión por el uso responsable de los datos continúa en > https://www.buenadata.ai/
Seguinos en Instagram > https://www.instagram.com/buenadata.podcast

Invitades del episodio
Pedro Damián Orden > https://www.linkedin.com/in/pedroorden/
Juana Cervio > https://juanacervio.com/

Créditos musicales
“Buena Data Theme”, “CB Theme” y “GR Theme” by Hernán Escudero
“Dark Matter” by Chasms
“Till Let Go” by NEFFEX

Este episodio contiene material obtenido de programas de televisión con fines periodísticos.

Creators & Guests

Editor

Dalmas

Diseño y construyo la identidad sonora que representa y eleva el contenido de los Podcasts. Edito, mezclo y domino una variedad de formatos de Podcast, como entrevistas y narraciones.

Producer

Dalmas

Como Productor de Podcast, ayudo a las marcas a encontrar su voz, escuchándolas y trabajando juntas desde la creación del contenido, la grabación y hasta la publicación del Podcast.

What is Buena Data Podcast?

Buena Data es un espacio para debatir, aprender y concientizar sobre el maravilloso y amplio mundo de la ciencia de datos.

Tu día a día está cruzado por una fuerza invisible que se encarga de guardar datos de todas tus interacciones con el mundo digital, sea para afinar los resultados de tus búsquedas, tener información personal online de forma segura, o hasta venderte publicidad.

Los datos son la materia prima más valiosa de la actualidad. Y con ellos se pueden hacer soluciones que rozan lo mágico, pero también desarrollos con consecuencias potencialmente desastrosas para la humanidad entera.

Para entender hasta qué punto los datos son una constante omnipresente en la actualidad, en cada episodio analizo, examino y hablo sobre la Ciencia de Datos y sus componentes como algoritmos, machine learning e inteligencia artificial. También está presente la voz de los trabajadores y trabajadoras del rubro, quienes cuentan más sobre lo que hacen en su día a día y con qué herramientas trabajan. Y como este rubro crece de manera permanente, en cada capítulo hablamos de noticias en las que los datos son una herramienta de control, pero también de aquellas en las que los datos son la clave para pensar y crear un mundo mejor.

Todo esto lo hago con una mirada social crítica, pero por sobre todas las cosas, divertida y fácil de entender.

¡Hola! Soy Hernán Escudero, uno de los fundadores de deployr.ai, donde combino mis años de experiencia como Machine Learning Engineer (GCP Certified) y Lead Data Scientist. También soy sociólogo y periodista, lo que me da una mirada bastante heterodoxa y crítica respecto de la ciencia de datos como disciplina, filosofía y técnica. Creo fuertemente en una tecnología con una mirada humana y ética, y a través de la transferencia y co-creación de conocimiento se pueden dar los primeros pasos para repensar colectivamente una sociedad distinta.

Hacemos Buena Data
Mothercaster Media: producción, edición, diseño sonoro y post producción sonora > https://www.mothercastermedia.com
Circular.lat: comunicación y dirección de arte > https://www.circular.lat
Hernán Escudero: idea y música original, producción, guión y grabación > https://www.linkedin.com/in/hernanescudero

La discusión por el uso responsable de los datos continúa en > https://www.buenadata.ai/
Seguinos en Instagram > https://www.instagram.com/buenadata.podcast

(Bloque 00 - Introducción)
[Hernán Escudero]
En julio de 2020, la UBA (Universidad de Buenos Aires), institución donde hice tanto la secundaria como mi carrera universitaria, me rompió el corazón al anunciar su flamante Licenciatura en Ciencia de Datos.

Y más allá de discusiones súper interesantes y súper válidas respecto a si el ámbito académico formal es la mejor manera de aprender esta disciplina (o sea la ciencia de datos), y de cuál es el lugar que debieran tener bootcamps, talleres y cursos, la realidad es que me dolió muchísimo una omisión muy grave en su plan de estudio: las ciencias sociales.

¿Saben cuántas materias hay vinculadas con esta rama a lo largo de todo el plan de estudio de esa flamante carrera? Cero.
No existe ninguna materia vinculada con esta rama: economía, antropología, sociología, psicología, son asignaturas que lamentablemente brillan por su ausencia.

¿Qué esconde esta omisión, y cuáles son los problemas que trae considerar que la ciencia de datos y la programación son la misma cosa?

(Pieza Artística APERTURA - inicio)
[Hernán Escudero]
¡Hola! Soy Hernán Escudero, y estás escuchando Buena Data, un podcast para entender, desmitificar y cuestionar el mundo de los datos y el uso de algoritmos.

Aquí vamos a hablar de la ética en la inteligencia artificial, de los sesgos en la tecnología y cómo nos afectan como sociedad, discutiendo la realidad de una disciplina en constante evolución y cuyo crecimiento y omnipresencia nos afecta a niveles que aún no conocemos del todo.

En el capítulo de hoy vamos a hablar de la importancia de las ciencias sociales para la ciencia de datos: qué relación existe entre ambas y cuál es el rol del pensamiento crítico en nuestra profesión.

Así que sin más preámbulos, arranquemos con Buena Data.
(Pieza Artística APERTURA - fin)
(Bloque 01)
[Hernán Escudero]
Pocas personas pueden decir a ciencia cierta y de forma inequívoca cuál fue el peor día de su vida. Yo tengo ese dudoso privilegio: fue el 26 de enero del 2018.

Ese fue el día en que, no sólo me robaron mi amada bicicleta en la puerta de una importante empresa de software argentino, sino que fue el día en que se emitieron 258 telegramas de despido para personal del Instituto Nacional de Tecnología Industrial (INTI), organismo científico y tecnológico del Estado Nacional Argentino.

Y uno de ellos tenía mi nombre y apellido. Tras cuatro años de trabajar en comunicación científica y otros cuatro años más haciendo desarrollo territorial con tecnologías populares (trabaja en saneamiento seco y construir estufas de barro), el gobierno de aquel entonces decidió echarme de mi puesto junto a otras casi 300 personas por ser activistas gremiales.
(Audios de archivo)

[Hernán Escudero]
Recuerdo muy bien el momento de estar parado en la puerta del INTI, en una situación de mucha tensión y nerviosismo, y recuerdo que no tenía ninguna duda de que mi nombre iba a estar presente en la lista que mi gerente iba leyendo en la puerta del Instituto, rodeado de policías y de gente que se desplomaba en llanto.

Pero lo que más recuerdo fue como en ese momento de muchísimas emociones encontradas, tuve un momento de claridad y frialdad mental.

Tengo muy presente el instante en que, mientras estaba abrazado a una compañera que no paraba de llorar pese a que ella no había sido despedida, se hizo carne en mí el hecho de que el camino que había elegido hasta ahora, hasta ese entonces, había llegado a un final muy abrupto. Todas las decisiones que había tomado a mis 14 años cuando decidí que quería hacer exactamente lo que estaba haciendo, me había llevado hasta este punto, donde una topadora amarilla y neoliberal me reventó el piso sobre el cual estaba parado sin ninguna posibilidad de reconstruirlo.

Y ahí me pregunté: ¿qué hago?

La respuesta a esa pregunta la encontré unos meses después cuando me anoté en el ostentosamente llamado “Curso de Introducción a Big Data para Ciencias Sociales”. En aquel mes de julio, cuando el profesor compartió pantalla y ví por primera vez en mi vida la interfaz de “R Studio”, supe que había encontrado el camino.

Todo este gran preámbulo no es para ventilar, o no solamente, sino para contar cómo fue que llegué a esta naciente disciplina y por qué conozco muy bien qué es lo que siente una persona que llega a lo que llamamos ampliamente “la ciencia de datos” desde un camino muy diferente al tradicional.

Me parece importante hablar no sólo de lo que las ciencias sociales pueden y deben ofrecer en la práctica concreta de la ciencia de datos, sino también de quiénes somos los profesionales que venimos de sociales y nos metemos en el mundo de los datos.

Se dice (mitad en chiste y mitad en serio) que les sociólogues somos una máquina de generalizar y prejuzgar. ¿Y saben qué? Ahora no voy a ser la excepción.

Quienes venimos de un área más social tenemos otra clase de inclinaciones y de aptitudes. Es cierto, no salís de sociología sabiendo programar algoritmos, no egresás de antropología con los fundamentos de la teoría computacional, ni tampoco te gradúas de filosofía multiplicando matrices a mano.

Pero así como las ciencias exactas se apoderaron, hace ya siglos, del término “ciencias duras” para referirse a sí mismas, en contraposición a las “ciencias blandas”, que serían las humanísticas, eso que antes era casi que una señal de desprecio, hoy en día son habilidades muy requeridas.

Lo que cuando yo estudiaba era conocido como pensamiento crítico, metodología de investigación y capacidad de comunicar ideas, hoy el mercado lo llama soft skills.

Como suele ser con estos conceptos, no hay una definición tajante de “pensamiento crítico”, pero una forma de acercarnos es mediante una frase tan dura como real: “No existe la objetividad. Nada es, de forma natural, inmutable e inevitable” (ni siquiera Thanos).

Y acá viene el slogan de cabecera de la sociología: “todo es una construcción social”.

El primer paso es entender que todo, pero todo, absolutamente todo lo que pensamos, hacemos, vemos, sentimos y creemos, tiene un sesgo de algún tipo. El lugar en el que crecimos, el tiempo en el que vivimos, nuestra situación socioeconómica, nuestro entorno familiar, nuestros amigos, etc, etc, etc… Todo eso moldea poquito a poquito, cómo entendemos y cómo interpretamos el mundo, y por consecuencia, cómo consideramos que el mundo es y cómo debería ser.

Y este es un punto que es especialmente importante en nuestra actualidad: la definición de las cosas que son “un problema” (que son consideradas un problema) ha cambiado y va cambiando siempre con el tiempo. Hace 100 años no era “un problema” que las mujeres no votaran. Hace 40 años no era “un problema” fumar en un transporte público. Hace 20 años no era “un problema” hacer un chiste transodiante.

Ojo, que quede claro, no es que en sí mismo no fueran un problema, sino que estas cosas eran consideradas aceptables socialmente o por lo pronto, aceptadas por lo que sería la opinión hegemónica de la sociedad, por una gran parte de la sociedad. Era lo que se consideraba el sentido común en aquel entonces, las cosas que sí eran válidas, que sí eran lícitas y aquellas que no lo son.

A lo que voy con todo esto, es que el pensamiento crítico implica un ejercicio permanente de cuestionarlo todo. Y en ese “cuestionarlo todo”, garantizar que los presupuestos que rigen nuestro accionar sean informados o al menos manifiestos.

El proceso de hacer ciencia de datos, y siempre hago el mismo énfasis: la palabra “ciencia” en “ciencia de datos”, empieza con una pregunta, un problema de investigación, una hipótesis, un escenario posible.
Entonces, cuanto mejores sean tus preguntas, mejores serán tus resultados. Y para eso, ineludiblemente, tenés que tener en cuenta cuáles son estos presupuestos y estos sesgos de los que hablábamos antes.

Y acá aparece claramente el punto que el sector privado empezó a entender: que si bien es cierto que quienes estudian ciencias exactas probablemente tengan mejores aptitudes para la parte de la programación (o sea, la ejecución algorítmica, la matemática, lo “técnico” por así decirle), quienes estudian ciencias sociales probablemente tengan mejores aptitudes para enmarcar los problemas de una forma correcta y luego poder resolverlos.
(TESTIMONIOS - inicio)
[Pedro Damián Orden]
Hola, mi nombre es Pedro Damián Orden soy sociólogo y científico de datos. Actualmente me desempeño como consultor en el sector público y privado, y presido el Colegio de Sociólogos y Sociólogas de la Provincia de Buenos Aires.

Con respecto a la academia en las ciencias sociales que es el caso que conozco, creo que existen varios obstáculos para que estos puedan entablar un mejor diálogo con el mundo de las nuevas tecnologías.
Entre los más destacables considero que influye la novedad y dinamismo de la temática que se aleja en gran medida de la posibilidad de adopción o de utilización para instituciones con tiempos clásicos como son las universidades.
En ese sentido la enseñanza de saberes y destrezas vinculadas a nuevas tecnologías y a la innovación en general requiere de recursos y formas de hacer las cosas que hoy en la academia no se encuentran, no están y creo que en determinado punto tampoco creen necesitar sino claramente que las incorporarían.
En vista del rumbo al que se dirige el desarrollo de nuestras sociedades, las nuevas tecnologías tienden a ocupar un rol cada vez más importante en nuestras vidas, también en nuestros trabajos, organizaciones y gobiernos. En este tema parecería ser que no hay mucha grieta.
Por lo tanto, creo fundamental que exista una incorporación temprana de nuevos saberes técnicos como la programación y la robótica en la enseñanza básica y sobre todo en el trayecto universitario, y esto como una forma de favorecer el desarrollo de sujetos profesionales contemporáneos, es decir, propios de su época. Y en una clara sintonía con la demanda del mercado de trabajo.
En última instancia se trata de darle herramientas a las y los estudiantes de la universidad para poder hacer frente a la complejidad del mundo del mañana. Cuando estamos pensando en estudiantes, estamos pensando en los profesionales del futuro.

[Juana Cervio]
Hola, yo soy Juana y mi formación es en ciencias sociales y humanidades. Pero hace 8 años que trabajo en empresa de tecnologías y hace 4 años que estoy enfocada en IT Recruiting o Tech Recruiting.
Y a mi me ha servido muchísimo venir desde las ciencias sociales y es un mito que si estudiaste ciencias sociales o una carrera en humanidades no te va a servir ese conocimiento que tenes para trabajar en empresas. Te va a servir y un montón porque te va a ayudar muchísimo a entender las relaciones, no solo entre las personas, sino entre los diferentes actores sociales. No hace falta estudiar una carrera completa, pero tener formación en ciencias sociales es algo que realmente es necesario, no solo para los puestos que se consideran “más soft”, sino también para los puestos que quizás son bien de tecnología.
También creo que las carreras universitarias y terciarias que enseñan ciencias sociales tienen muchísimas falencias y las sigo viendo hoy en día cuando hablo con personas que están super capacitadas pero no tienen idea de cómo aplicar estos conocimientos. Ni siquiera saben cuáles son sus posibilidades de inserción en las diferentes organizaciones, sacando lo clásico de la investigación académica y educación .
Pero no es culpa de la persona que estudió eso, es culpa de la academia que no difunde este conocimiento y como los profesores generalmente las personas que dan clases en las universidades son personas que no trabajan estas áreas y tienen también muchas veces, no todos, pero varios tienen un prejuicio ante la salida laboral el empresa (es como venderse al mercado) no te transmiten esto. Y quizás hay pequeñas agrupaciones que sí están saliendo a contar todo esto, pero bueno, no tienen tanta tanta difusión.
Hay otro problema que es que también, muchas veces y esto pasa en muchas áreas, no solo en ciencias sociales, muchas veces quienes lograron insertarse en una área no comparten esa información, a veces por desconocimiento por como poder compartirlo sin mala intención. Pero otras veces porque piensan “bueno yo me hice de abajo, a mi nadie me ayudo, yo tuve que investigarlo todo sola, solo… entonces que la gente lo haga también”.
Bueno, quizas vos tuviste suerte, quizas no estas contando que hubo gente que sí te ayudó, que encontraste esa información correcta en el momento adecuado y no lo estas compartiendo con el resto de la comunidad lo que sabes, que no es obligatorio compartirlo, pero para mi tiene muchísimo valor. Por eso yo quiero que haya más cientistas sociales contando cómo empezar a trabajar en tecnología, como empezaron a trabajar en ambientes corporativos, o como empezaron a trabajar en ambientes de gestión, puede ser gestión estatal, hay muchísima salida laboral. Falta de todo, hay mucho para hacer, pero bueno, es algo que al menos me entusiasma saber hay tanto para hacer y que quizás yo desde mi lugar pueda contribuir en algo.
(TESTIMONIOS - fin)
(Pieza Artística RRSS)
(Bloque 02)
[Hernán Escudero]
Sautú y Cohen. Estos dos apellidos que acabo de mencionar, que dichos así suenan casi a invocación demoníaca, corresponden a quienes eran titulares de cátedras de Metodología de la Investigación 1, 2 y 3 en mis años de facultad.

Yo cursé sociología en la UBA entre el 2006 y el 2014, e hice lo que comúnmente llamábamos “las método” en un período entre 2008 y 2010, donde, mediante una cuidadosa selección de cátedras intercaladas, me dediqué sistemáticamente a esquivar todo tipo de cálculo matemático o aproximación cuantitativa al tema.

Así es, hoy me zambullí de lleno en el tema que esquivé años atrás.

Una buena parte de mi rechazo en aquel entonces, pasaba por la forma de aprender esos temas, que involucraba el uso de fotocopias de fotocopias de fotocopias, en doble faz, con los “p values” de un lado (esto es los valores de significancia estadística) y el “z score” del otro (desviaciones estándar).

Ojo, no quiero entrar en tecnicismos ni vale la pena. Pero el punto al que voy es que inclusive en aquel entonces (2008-2010) la forma de enseñanza era absolutamente anacrónica, y eso no se ha visto demasiado alterado hoy en día.

Hoy contamos con herramientas de programación libres y abiertas: R y Python son los dos principales lenguajes que se usan en ciencia de datos. No me interesa para nada entrar en la discusión de cuál es mejor (uso ambos y los dos tienen cosas muy interesantes para ofrecer), pero sí sería interesante que en pleno 2022, alguna de las dos, sea considerada dentro de la currícula de las ciencias sociales.

En su libro “Data Feminism”, las autoras Catherine D’ignazio y Lauren Klein plantean un punto muy concreto: what gets counted, counts. Juego de palabras cuya traducción sería “aquello que es contado, es lo que cuenta”.
Un ejemplo muy concreto es lo que ocurre con aquellas personas no binarias, es decir, quienes no se reconocen ni como hombres, ni como mujeres.

Las autoras explican:
“Hay un estimado de 9 a 12 millones de personas no binarias en el mundo. Al crearse una cuenta online, o sacar un pasaporte, en la amplia mayoría de los casos las únicas opciones son ‘hombre’ o ‘mujer’. Si las empresas y organismos estatales se rehúsan a ampliar esas categorías para recolectar la data apropiada, no tienen ningún derecho en decir que no son suficientes personas para que valga la pena un cambio en las categorías. Si no tenés una correcta categorización, no tenés la data apropiada. Y sin la data apropiada, no puede haber cambio social”.

Esto va de la mano con lo que hablábamos en el capítulo anterior respecto de qué es “la realidad” y cómo podemos traducirla en datos.

Y como si nos faltara una complejidad adicional en todo esto, como sabemos muy bien quienes venimos de las ciencias sociales, los instrumentos de recolección de datos, o sea las encuestas y las entrevistas, también están teñidos de subjetividades e inexactitudes imposibles de evitar.

Veamos esto con un ejemplo muy concreto. Si yo hago una encuesta y le pregunto a miles de personas “En una escala del 1 al 5, cuán de acuerdo estás con la frase ‘Yo discrimino a personas que tienen un color de piel más oscuro que el mío’”', estoy bastante seguro de que ese cuestionario tendría valores mayoritariamente cercanos al 1. Sin embargo, también estoy muy seguro de que una amplísima mayoría de encuestados y encuestadas me habría mentido en la cara.

¿Por qué? Porque nadie quiere confesarse como racista.

Entonces, si nadie se reconoce homófobo, transodiante y clasista, ¿cómo podemos entender la situación real, y por lo tanto, cambiarla?

Esto pasa con muchísimos otros puntos más, que son justamente aquellos que tienen una sensibilidad social importante: cuestiones de género, de etnias, de clase, etc.

Y vale mencionar que, curiosamente, estas mismas herramientas que tenemos, las que nos hacen cuestionadores natos, en buena medida son las mismas que también nos permiten desempeñarnos con bastante idoneidad en ámbitos más cercanos a lo que se suele llamar “el negocio”: porque la idea de “brindar valor” mediante un análisis de datos o un modelo de machine learning, requiere abordar un problema desde múltiples perspectivas y con una mirada en algún punto empática.

Entender cómo investigar, con qué herramientas y desde qué enfoques es crucial para tener los mejores datos posibles.
(Pieza Artística MOMENTO GENE RODDENBERRY - inicio)
[Hernán Escudero]
Una de las principales aplicaciones de la ciencia de datos “para el bien” es en el ámbito de la salud. En un lindo ejemplo de esto, investigadores en la Universidad de Chicago desarrollaron un sistema capaz de detectar autismo en niñes basándose en los datos recolectados en los chequeos de rutina.

Dada la alta tasa de ciertas condiciones como asma, problemas gastrointestinales y convulsiones, la detección temprana es un aliado clave.

¿Cómo funciona?
A grandes rasgos, cada historia clínica de cada paciente fue convertida en una serie de tiempo, que es una de las formas típicas que tienen los datos cuando se quiere estudiar la temporalidad.

Primero, les investigadores identificaron 17 categorías distintas de enfermedades: respiratorias, nutricionales, etc. Luego, armaron una serie de tiempo para cada semana de cada paciente, donde se las agrupaba en función de qué enfermedad estaban presentando.

Con eso, entrenaron 68 modelos: para les curioses “Cadenas de Markov”: es un modelo en el que la probabilidad de que ocurra un evento depende sólo del evento anterior.
Uno para cada combinación de enfermedad y las combinaciones entre los sexos masculino y femenino, y la presencia o no de autismo.

¿El resultado? Más del doble de precisión en comparación a los cuestionarios tradicionales, y una sensibilidad del 90% (esto es, el porcentaje de niños y niñas correctamente identificados como autistas) con una reducción del 30% de los falsos positivos.

Estos son resultados prometedores pero hay que tener en cuenta algunas consideraciones: si bien detecta los casos positivos con una relativa solidez, el modelo se equivocó dos de cada tres veces en predicciones de la condición, es decir, falsos positivos.

La ciencia de datos y la salud tienen un camino muy largo que recorrer juntos: detección de imágenes, análisis de audio y técnicas avanzadas de segmentación, son algunos de los aportes que ya vienen generando respuestas a problemas que nos afectan como humanidad.
(Pieza Artística MOMENTO GENE RODDENBERRY - fin)
(Pieza Artística SEPA BUENA DATA)
(Bloque 03)
[Hernán Escudero]
Hay una pregunta que es especialmente picante por lo difícil de definir en algún punto en el terreno de la programación.

¿Qué es un desarrollo?
Pero yo le agregaría más: ¿desarrollo de qué, para qué y para quiénes?

Me parece súper importante poner estas preguntas arriba de la mesa porque creo que la ciencia de datos como disciplina rara vez se da la oportunidad a sí misma de reflexionar sobre esto.

Pensemos por ejemplo en “el desarrollo” arquetípico de la práctica en datos: un modelo de machine learning. La concepción etimológica de la palabra “desarrollo” implica justamente el despliegue de “algo” que ya estaba adentro en el ser mismo, es algo que se desarrolla.

Y en esa línea, cabe mencionar cuál es el supuesto fundamental del machine learning: que el “hoy” se comporta más o menos como se comportó el “ayer”, y que el “mañana” se va a comportar más o menos como se comporta el “hoy”.

Entonces… ¿A qué voy con todo esto? A que si nos limitamos a ser “desarrolladores” (sin ofender) y no pensamos más allá de nuestros inputs, outputs y librerías, corremos un serio riesgo de estar repitiendo sin darnos cuenta un montón de patrones y comportamientos que no hicieron más que generar la desigualdad que tenemos hoy en día.

Para que quede bien claro el punto, vamos a poner un ejemplo concreto.

Supongamos que trabajamos en un banco, y estamos trabajando en un modelo que busca encontrar la probabilidad de que una persona pague o no un crédito, de forma tal de considerar cuán apto o no está para recibir dicho producto.
Este es un caso bastante arquetípico en cualquier caso de banca en ciencia de datos, en un equipo de analítica avanzada.

Recordemos el funcionamiento un poquito de estos modelos de una forma un tanto rudimentaria. Pero la idea básica es que a partir de ciertas variables, como pueden ser: cantidad de saldo disponible, años de antigüedad, tipo de cuenta, etc, etc.
Obtendremos una probabilidad, que a efectos comunicativos lo solemos decir en porcentajes. Entonces podríamos decir, por ejemplo, “el cliente número 3 tiene una probabilidad del 90% de devolver el crédito”.

Ahora, resulta que estamos trabajando en el modelo, y detectamos que hay una variable que tiene un poder explicativo impresionante. No damos más de la alegría, nuestro jefe nos asciende y todo es dicha y felicidad, la empresa se hace mega multimillonaria más todavía.

Pero… Resulta ser que esa variable es el segmento socioeconómico al que pertenece. Entonces, mientras que el cliente número 3, que tiene un 90% de devolverlo, pertenece al sector más pudiente de la sociedad, el cliente número 7, que el modelo arrojó que tiene una probabilidad del 45% de devolverlo, pertenece al sector menos pudiente.

Entonces aparece una pregunta muy interesante que es: ¿qué vino primero? ¿Dado que la persona no puede pagarlo, no se le ofrece un crédito, o como a la persona nunca se le ofrece un crédito, sigue estando en una situación socioeconómica de la que no puede salir?

Es imprescindible que quienes practicamos esta disciplina nos hagamos esta clase de preguntas en este y otros ejemplos. ¿Por qué? Porque el hecho de incorporar una variable (recordemos: una variable es un recorte observable de la realidad), a un modelo que va a tener un impacto concreto en la vida real, implica inequívocamente que esa variable, esa dimensión, va a tener una repercusión directa en el resultado, tanto para bien como para mal.
(Pieza Artística MOMENTO CHARLIE BROOKER - inicio)
[Hernán Escudero]
Tal vez recuerden que en el primer capítulo dije que “faltaba para llegar a Skynet”, pero si hay alguien está haciendo todo lo posible para achicar esos tiempos es nada más ni nada menos que la OTAN.

La OTAN, la Organización del Tratado del Atlántico Norte, conformó un fondo de inversión de mil millones de euros, que a lo largo de 15 años irá apostando por el desarrollo de empresas tecnológicas que utilicen inteligencia artificial para la seguridad.

¿Seguridad? En mi barrio eso se llama guerra.

Entre los temas que están buscando desarrollar se encuentran el procesamiento de datos y cómputo vinculado a máquinas autónomas, biotecnología, formas de propulsión, materiales, energía y… “human enhancement”, que podría traducirse como “humanos mejorados”.

Si bien no especifican de qué se trata, en lo personal he leído la suficiente ciencia ficción como para intuir por dónde viene la mano. Una mano cada vez más cercana a la de un cyborg, que no dude ni sienta nada al momento de apretar un gatillo.

“Imaginate un soldado en el frente de batalla, entrenado en entornos sintéticos de alta performance, guiado por comandos portátiles y alimentado de datos provistos por miles de horas de imágenes captadas por drones. Imaginate las últimas armas de energía dirigida, usando algoritmos que van a la velocidad de la luz para protegernos”.

Esto que les acabo de leer no sale de un libro de Ray Bradbury, sino de un posteo de junio de 2022 de la página oficial del gobierno del Reino Unido. Lo más paradójico y escalofriante de todo esto, es que saben perfectamente bien lo peligroso que es el escenario que plantean, porque en el párrafo siguiente argumentan:

“En las manos de nuestros adversarios, estos sistemas controlados mediante inteligencia artificial son una amenaza, y es imperativo que no les demos ventaja. Sabemos de los conflictos éticos que esto trae, pero pensá en los dispositivos que usan estas tecnologías que tenés en tu casa y preguntate por qué no usarlos para defendernos a nosotros mismos y a nuestros valores”.

Esto es un Podcast así que no puedo quedarme sin palabras, pero la verdad que es difícil transmitir el horror que esto me despierta.

¿Quiénes tienen el poder de decidir quiénes son los malos de la película? ¿Cuáles son estos valores que sí pueden ser defendidos con estas armas y cuáles no? Cuando la OTAN dice que esto ayuda a “fortalecer la seguridad de sus mil millones de ciudadanos”, ¿Es a expensas de los otros seis mil millones de seres humanos? Si los ataques remotos con drones dirigidos en la actualidad no están exentos de errores, ¿quién se va a hacer cargo cuando inevitablemente uno de estos modelos falle, ya sea por impericia o malicia humana o por cuestiones técnicas?

Las Naciones Unidas hace rato que vienen intentando proponer una prohibición a esta clase de armas, una especie de ampliación de los Convenios de Ginebra, que tienen la responsabilidad un poco contradictoria de poner reglas y prohibiciones a algo tan caótico, anárquico y destructivo como una guerra.

Aquí de inteligencia no hay nada, hay mucho de artificial y tampoco en esa línea pareciera haber mucho de learning y diría que hay un exceso de machines.

Mientras tanto, en parte gracias al uso y abuso de estas tecnologías, hay millones de personas que viven sometidas a las decisiones caprichosas que toman unos pocos, que no hacen más que buscar su propio beneficio.
(Pieza Artística MOMENTO CHARLIE BROOKER - fin)
(Pieza Artística SEPA BUENA DATA)
(Bloque 04)
[Hernán Escudero]
El escritor de ciencia ficción Arthur Clarke planteó hace ya 60 años que “cualquier tecnología lo suficientemente avanzada es virtualmente indistinguible de la magia”.

Pertenezco a la que creo que es la última generación que tuvo un contacto directo con lo analógico.
Ayer rebobinaba cassettes con una birome, hoy si llueve me duele la rodilla y eso es lo que nos hace tener realmente dimensión, o al menos a mí, de qué es lo que tenemos en la mano cuando agarramos un celular.

Ahora, como consumidores, podemos quedarnos con esa sensación de asombro, sin profundizar mucho más allá. Pero quienes trabajamos y hacemos de esto nuestra profesión, no podemos quedarnos sólo con esto.

Yo tengo acceso a la discografía de mis bandas preferidas mediante una aplicación en un dispositivo que tiene cientos de veces más memoria RAM que la computadora que llevó al Apolo 11 a la Luna. Y eso, si bien es alucinante, no es magia: es tecnología.

Yo escucho amigos, amigas y amigues decir que “las redes sociales saben lo que están sintiendo y pensando antes de que elles mismes se den cuenta de eso”. Y eso, si bien es alucinante y un poco escalofriante, no es magia: es ciencia.

Tenemos que saber y saber comunicarle al resto qué es lo que está pasando cuando el mago mete la mano en la galera y saca un conejo. Porque no sea cosa, que esa adorable de pelos (que desde nuestra óptica la vemos moverse tiernamente sostenido de las orejas por el mago) en realidad sea un monstruo cuya voracidad está controlada únicamente por la mano invisible que sostiene la correa.
(Pieza Artística CRÉDITOS)

De la fotocopiadora a la base de datos: Ciencias Sociales y Data

De la fotocopiadora a la base de datos: Ciencias Sociales y DataDe la fotocopiadora a la base de datos: Ciencias Sociales y Data

More episodes

De la fotocopiadora a la base de datos: Ciencias Sociales y Data

De la fotocopiadora a la base de datos: Ciencias Sociales y Data

Chapters

Show Notes

Creators & Guests

What is Buena Data Podcast?