Dev&Ops

En este episodio hablamos a fondo sobre una de las preguntas más comunes hoy en día en inteligencia artificial: ¿es mejor usar modelos en la nube o correr IA en local?
Compartimos experiencias reales probando modelos locales, los retos de hardware, costos ocultos, rendimiento y qué tan viable es realmente para el día a día. También exploramos casos prácticos donde sí tiene sentido usar IA en local y cuándo definitivamente no vale la pena.
Si estás considerando montar tu propio entorno de IA o quieres optimizar costos, este episodio te va a dar claridad basada en experiencia real, no en “venta de humo”.

🔍 En este episodio aprenderás:
  •  Qué es realmente la IA en local y cómo funciona 
  •  Diferencia entre modelos “open source” y “open weights” 
  •  Limitaciones reales de hardware (RAM, VRAM, contexto) 
  •  Cuándo sí tiene sentido usar modelos locales 
  •  Por qué la nube sigue siendo la mejor opción en muchos casos 
  •  Casos prácticos donde modelos pequeños funcionan muy bien 
  •  Cómo balancear costo, rendimiento y tiempo en tu workflow 
📑 Capítulos:
 (00:00) Introducción y contexto del episodio
 (02:00) Nuevo integrante en la familia y regreso al podcast
 (04:30) Tema del episodio: IA en local vs en la nube
 (07:30) ¿Qué es la IA en local?
 (10:30) Open source vs open weights
 (14:00) Evolución de modelos (Llama, Qwen, etc.)
 (18:30) Limitaciones reales del hardware
 (22:00) Quantization explicado
 (26:30) Experimentos en hardware limitado
 (30:00) Casos de uso prácticos con modelos pequeños
 (35:30) Debate: IA local vs nube
 (42:00) Costos, planes y modelos en la nube
 (48:00) Problemas reales de rendimiento en local
 (52:00) Privacidad: mitos y riesgos
 (56:30) Casos donde sí vale la pena IA local
 (01:02:00) Conclusiones y recomendaciones
 (01:10:00) Cierre del episodio

Creators and Guests

DB
Host
Douglas Barahona
JR
Host
Juan Ramos

What is Dev&Ops?

Dev&Ops es el espacio donde hablamos de cultura tech, compartimos anécdotas reales y damos consejos prácticos para todo entusiasta del mundo del desarrollo y la tecnología. Acompáñanos a descubrir las últimas tendencias, aprender de nuestras experiencias y recibir tips que te ayudarán a destacar en este entorno digital en constante evolución.

Juan (00:00)
yo soñaba con correr estos modelos en mi Raspberry Pi porque vi vídeos en internet, vi gente que decía que se podía y en teoría sí pero la realidad es que al final llegué a la conclusión de que no, no se puede

en términos prácticos no vale la pena. Es más, tengo varios dispositivos, en uno de ellos si lo ejecuto se muere, se muere definitivamente el servidor entonces y con el modelo, ojo, con un modelo ya dijimos hay modelos de 8B, 16, yo probé con uno de 0.8 y ahí murió.

Hola a todos sean muy bienvenidos a DevenOpps Podcast. Este es nuestro podcast sobre tecnología y todo lo que tiene que ver con el mundo y la industria tecnológica. Mi nombre es Juan y me acompaña mi buen amigo Douglas. Douglas, quien tiene un máster en todo, en todo lo que tiene que ver con tecnología. Douglas, ¿cómo has estado Douglas el día de hoy?

Douglas (01:10)
Juan, gracias por la introducción. Muy bien, a Dios. Máster en todo y nada, como dicen. Bien gracias a Dios. Contento de tenerte de vuelta luego de unos cuantos episodios de ausencia por motivos obviamente justificados. como siempre Juan, con el ánimo de aportar valor.

Juan (01:31)
Excelente, Sí, estuve ausente un par de días. bastantes días. Pero, las cosas se han estabilizado en la casa, en el hogar. Así que podemos regresar a estas sesiones que me gusta tener con Douglas aquí, hablando de todos estos temas que son muy interesantes, muy interesantes.

Douglas (01:54)
Juan, y para aclarar, si alguien nos sintoniza hasta este episodio únicamente, cuando dijiste aclarar en la casa, explica qué se estabilizó porque no queremos que gente piense que tenés problemas familiares.

Juan (02:08)
Buen punto, sí, sí, es cierto. Para los que sean nuevos o hace tiempo no nos miraban, pues gracias a Dios ha llegado un nuevo miembro a la familia. que tengo un nuevo bebé que está llorando y comiendo y durmiendo y haciendo todo lo que hacen los bebés. Así que por unos cuantas semanas, para los que sean padres me van a entender, las primeras semanas

la casa está, como decimos aquí, patas arriba, ¿no? La casa es un desastre. Gracias a Dios tengo ayuda de mi familia y también de la familia de mi esposa, así que eso nos ha ayudado mucho. Pero pues sí, es un periodo donde hay que... como yo lo imagino como que se revuelve el agua, ¿no? Un estanque, un lago y hay grandes olas, pero luego se empieza a pasiguar todo y no es que ya todo está como antes.

obviamente ya no duermo eso ya no existe para mí pero ya todo está más tranquilo entonces eso es lo importante y gracias a Dios pues el bebé ha sido no ha tenido problemas no ha habido complicaciones así que yo estoy más que contento con eso Douglas los que somos papás sabemos que que se enferme un niño es es complicado

Douglas (03:23)
me alegro.

supuesta así.

Juan (03:31)
Pero bueno, así que hoy, esperemos que no vaya a despertarse en medio de la sesión, vamos a hablar un poco sobre un tema que probablemente algunos no hayan escuchado, lo que tiene que ver con inteligencia artificial. Sé que es un tema bastante de nicho, Douglas? No muchos les interesa. Pero de nuevo es importante a veces aclarar algunas cosas y también nos gusta compartir

el trabajo que hemos ido haciendo, las experiencias que hemos ido adquiriendo y el día de hoy queremos tocar un tema que a mí en lo personal me ha saltado bastante en las redes y en todo lo que es la búsqueda de internet, obviamente no, estas plataformas nos espían así que me empiezan a retroalimentar con algo que pero

Bueno, que voy con todo esto. Queremos hablar sobre lo que es la Inteligencia Artificial corriendo en tu local versus Inteligencia Artificial en la nube. Entonces, qué es mejor? Realmente debería comprarme una Mac Mini y dejar de pagar todo lo que es Gemini, GPT o cómo funciona esto? Entonces queremos hablar sobre este tema que estoy seguro que a muchos les debe interesar, pero la información es un poco compleja de.

de asimilar y tener una experiencia concreta con esto. Douglas, vos te han salido algún post o algún comentario sobre la IA en local? O realmente por los momentos no te llama la atención. ¿Cómo ha sido hasta el momento tu acercamiento con este tema en específico?

Douglas (05:23)
Fíjate Juan, que mi feed de redes sociales está tan lleno de IA que ya no distingo algunas cosas. Pero si estamos hablando específicamente de IA en local, mira que sí me sale, para mí es un tema interesante. Yo no corro directamente modelos locales. Más allá de pruebas,

O sabes, somos personas que nos gusta la tecnología, nos apasiona lo que hacemos, vemos algo interesante y queremos hacer una que otra prueba, Y pues muchas veces eso hasta se convierte en un hobby, no necesariamente tiene que salir algo que vamos a implementar en nuestra vida, en el trabajo, etcétera. Simplemente nos pareció interesante y decidimos probarlo. Entonces, más allá de pruebas que hecho con modelos locales, yo no corro modelos locales, pero sí veo información.

veo información interesante, positiva, pero la mayoría que miro alrededor de modelos locales son, como decimos acá, venta de humo. ¿Por qué podemos ahondar más a medida de avance de la conversación? No, no te dicen todo.

hay que entender más cómo es que realmente funcionan los diferentes modelos, cómo funcionan desde los tokens internamente y el contexto y todo eso y qué tanto voy a lograr hacer con un modelo local comparado con un modelo...

no sé, de la nube, los famosos de OpenAI, Anthropic, etc. Entonces sí, esa parte, por eso me tiene un poco bastante emocionado esta conversación para que podamos ahondar un poco más en esos detalles de qué es lo que hay realmente detrás de correr modelos locales.

qué cosas es viable hacer, qué cosas posiblemente mejor consideres otra solución, a menos que tengas una super máquina o un super clúster con bastante GPU a nivel local, entonces por ahí no te compliques pagando APIs. sí, ese ha sido hasta el momento mi exposición en redes sociales y noticias en general al respecto.

Juan (07:37)
Sí, y me parece que es una exposición bastante normal en el aspecto que por ahora pareciera que este tema, a menos que lo busques activamente, pues no es lo que muchos recomiendan, Y hay un motivo por el por qué es así. Ya vamos a ir hablando de eso poco a poco. Pero bueno, así que para los que tal vez nunca hayan escuchado de esto o no están muy...

muy al tanto, me gustaría empezar hablando de que a qué nos referimos con IA en local. Y bien, básicamente es, literalmente eso es tener un modelo de inteligencia artificial, un LLM que se ejecuta en tu ordenador, en tu computadora. Los grandes modelos, los grandes tres que hay hoy en día son OpenAI, Anthropic y Gemini.

Esos son los grandes modelos de frontera que tenemos hoy en día y esos son de pagón. Yo no puedo descargar Gemini y correrlo en mi computadora. Necesito conectarme a los servidores de Google y necesito una conexión a Internet. Pero hace un tiempo atrás empezó, yo diría que el precursor de todo esto es Meta, porque ellos aparentemente, sin querer, se filtró uno de sus modelos que estaban desarrollando.

el famoso LAMA. Este era un modelo de lenguaje que se convirtió en un modelo open source, aunque bueno, antes de todo me gustaría aclarar eso Douglas, están los modelos de lenguaje que podemos descargar, normalmente se le llaman open source, así es como normalmente se le dice, pero si nos vamos a la definición más técnica, en realidad son modelos open weights, o sea de pesos abiertos.

Douglas (09:32)
Sí.

Juan (09:33)
Cuando hablamos de que un modelo es open source, ese caso estaríamos diciendo que la empresa o el estudio que desarrolló ese modelo, está liberando no solamente el modelo como tal, sino también las herramientas y la información con la que se entrenó ese modelo. Por ese motivo, en la práctica casi no hay...

prácticamente cero la cantidad de modelos que son open source con todo el sentido de la palabra. Normalmente liberan el modelo para que nosotros lo utilicemos, pero no tenemos idea con qué información lo entrenaron y ni qué herramientas utilizaron, ni qué método. Tal vez liberan algún paper. De hecho, los estudios chinos, los laboratorios chinos están haciendo eso, liberando muchos papers, aportando mucho a la inteligencia artificial hoy en día.

Pero más allá de eso, es muy poco lo que van a liberar. Entonces, para tener eso en mente, por si a alguien le interesa la definición, es así. Así que no me...

Douglas (10:38)
Y

me gusta que lo aclares, perdón, rapidito porque lo veo bastante pasar en internet. Se dice Open Source, en realidad nos dan la libertad de usar el modelo ya entrenado de manera gratuita, bueno, sin pagarle a ellos, tiene un costo para nosotros, no, me gusta bastante que hayas aclarado esa parte.

Juan (10:58)
Para evitar embrollo de ahora en adelante me voy a referir a simplemente modelos gratis modelos libres. Bien, estos modelos tenemos hoy en día bastantes opciones y yo los puedo descargar a mi computadora necesito algún programa etcétera para poder ejecutarlos. El punto aquí es que...

Aparte de Anthropic, aparte de OpenAI, aparte de Gemini, existe todo un abanico grandísimo de diferentes modelos orientados a diferentes cosas. Modelos para generación de video, para generación de imágenes, para generación de texto, para reconocimiento de imágenes, reconocimiento de videos, para muchas cosas. Algunos están entrenados para una cosa en específico, hay otros que están entrenados para otra. Hay modelos que son...

Model of Expert, o sea son modelos que internamente es como que tuvieran diferentes motores y dependiendo de lo que estamos realizando uno u otro se enciende es todo un mundo de información que hay allá afuera más allá de utilizar Chagypti o Gemini así que no vamos a ahondar en todos estos pequeños detalles voy a tratar de ir aclarando ciertos conceptos que creamos necesarios

Pero si no conocen nada de esto, realmente les sugiero que lean y que investiguen un poco sobre cómo funciona. Porque al final del día entender estas cosas nos va ayudar a también entender qué está pasando cuando hacemos un prompt. Qué está pasando cuando utilizo la herramienta de Cloud Code y le envío un prompt y entender que internamente hace una inyección de otro prompt, etcétera, etcétera. Bien.

con eso en mente ¿por qué utilizaríamos un modelo local? ⁓ algo más este primer lama que mencioné al inicio muy interesante, se podía correr y correrlo en el local era bien engorroso de hecho yo nunca lo he hecho, nunca me di la tarea de intentar hacerlo pero no era muy bueno era más como un experimento de nuevo Meta dice que fue que se...

alguien lo filtró y etcétera nunca lo sabremos pero a raíz de eso meta dijo está bien se liberó esto voy a hacer el siguiente la siguiente versión y yo lo voy a liberar y así han ido liberando diferentes versiones de este modelo y eso empezó a desembocar o a generar una bola de nieve donde más estudios o laboratorios empezaban a liberar y como dije ahora hay muchas

pero con el tiempo se han vuelto cada vez mejores y no solamente mejores Douglas sino que ahora son mejores con menos cantidad de parámetros algo que vamos a notar Douglas cuando vemos o buscamos estos modelos locales por ejemplo Lama Lama 3.2 vas a notar que está la Lama 3.2 y también está Lama 3.2

8B, 16B y 24B y va creciendo. Ese número de la B significa billones de parámetros. Aquí el billón es el billón estadounidense. Entonces son 8 miles de millones de parámetros. Esos son los parámetros que tiene internamente el modelo y que se ejecutan y todo eso. A nivel general entre mayor sea el número es más inteligente el modelo.

Pero aquí está lo interesante Douglas, que para mí es lo que vale la pena empezar a hablar de esto hoy en día. Es que ahora los modelos empiezan a ser más inteligentes con menos parámetros. Y un ejemplo rápido que estaba viendo hace poco es que el QN 2, creo que QN 2, el modelo de 16 o 18 billones de parámetros.

tenía el mismo performance, el mismo rendimiento que el modelo actual QN3.5 de 8 billones. Entonces, hubo una reducción de básicamente la mitad. Con la mitad de recursos, ahora puedes obtener el mismo resultado del modelo anterior que era más grande. Por ende, el modelo actual con la misma cantidad de billones de parámetros es mucho mejor.

Entonces eso para mi Douglas hace que me hace ver que hoy en día ya empieza a ser mucho más viable empezar a prestar atención a estos modelos mucho más de lo que era en el pasado porque en el pasado pues era más como un experimento era más como un juguete pero hoy en día ya empezamos a tener ciertos resultados pero bueno algo así ha sido de manera muy simplificada

la evolución de estos modelos y cómo la comunidad ha ido utilizándolos y haciendo experimentos y todo esto. ¿Hay algún modelo Douglas que hayas escuchado o incluso probado anteriormente? Como dije, tal vez así a nivel de experimento o ver cómo era. ¿O hay alguno que hayas escuchado que era muy bueno?

Douglas (16:42)
Fíjate que los que he probado, sí he probado, los que he probado, los de los Llamas, supuesto, ¿verdad? Los de Ali Baba, los Kuen, Sí, que me parece, me parece bastante bueno, la verdad. Y los de los que ha soltado...

Juan (16:53)
Los quen. Sí, sí, sí.

Douglas (17:06)
Google, son Gema, Gema se llama. Sí, Gema se llaman estos modelos. Los he probado locales, ¿verdad? Porque yo creo que agregándole un poquito la historia de cómo definitivamente en la actualidad le debemos a Meta tener esto, o Lama y estos modelos. También le debemos a DeepSic.

Juan (17:08)
Sí, sí, sí, también.

Douglas (17:25)
que empresas como OpenAI soltaran modelos gratis, dijimos que íbamos a usar la palabra gratis o de uso gratuito porque sintieron la presión cuando se detonó la bomba de DeepSic y entonces ellos también sacaron, probé modelos de DeepSic también, ¿verdad? Pero sí, o sea, como lo decía antes, los he probado, he hecho pruebas, testeo, he hecho pruebas de

generación de documentación, hecho pruebas de generación de código, que es lo que donde mayormente me enfoco cuando los pruebo de manera local y sí veo resultados significativamente sorprendentes para lo que es un modelo local, acorde a la cantidad de contexto que pueden tener y acorde a la cantidad de recursos que mi máquina les puede dar.

Juan (18:25)
ves resultados vamos a dejarlo ahí sí sí sí sí es que ahí tal vez podemos empezar a profundizar un poco en esto ¿no? qué pasa con los modelos locales el primer problema que vamos a enfrentar es el hardware que poseemos el dispositivo físico en el que estamos ejecutando el modelo va a tener

Douglas (18:27)
Sí, hay resultados interesantes.

Juan (18:55)
todo el peso del mundo en la calidad y la velocidad en la que se va a ejecutar porque como dije entre más grande la cantidad de parámetros es mejor pero eso también implica que va a ser más pesado veamos los modelos, los LLMs tienen una ventana de contexto el famoso context window eso lo que nos dice es la cantidad de tokens vamos a decirlo así tokens puede ser una palabra o una sílaba

es un pedazo de información. La cantidad de tokens que puede mantener un modelo y sin olvidar la información, eso hace una gran diferencia en el uso de este modelo. Por ejemplo, digamos que un modelo puede retener una, qué sé yo, una oración. Pero ¿querés trabajar sobre un capítulo de un libro entero?

Entonces, ¿qué pasa? Cada vez que cambias de párrafo de oración pues ya olvidó lo anterior y eso hace que el trabajo se vuelva... en el mejor de los casos se vuelve muy engorroso. Entonces, para tener una ventana de contexto más grande necesitamos más memoria RAM y más precisamente más VRAM de las tarjetas de vídeo. Y aquí empieza la parte que probablemente muchos no...

no dicen en internet o al menos que yo he visto que no lo aclaran sí se pueden correr los modelos locales pero cuánto te cuesta correr eso una memoria de vídeo actualmente no si hablamos en términos de gamer una memoria gráfica de nvidia la 5090 creo que es la más nueva hoy en día

esa tiene una memoria que es muy muy rápida y todo la cantidad de VRAM que tiene es si no me equivoco no sé si 24 o 48 GB bastante y si estamos jugando pues es es una maravilla pero cuando ya lo traemos al mundo de los LLMs un modelo decente vamos a decirlo así decente anda en los 70 GB a eso eso es sólo el modelo

luego a eso sumale el contexto que le estás ingresando con tus prompts entonces vas a necesitar más información ahí es donde empezamos a notar que bueno, sí se puede correr en el local pero el hardware necesario para hacerlo es caro al menos hoy en día es muy muy caro si querés tener doble tarjeta gráfica para pues ahora en vez de 48 tendrías 80 y tantos o 90 90 gigas

¿Cuánto te va a costar eso? Son tarjetas gráficas que cuestan... La verdad ni siquiera he visto los precios de ULAS. Yo creo que andan por los 2 mil o 4 mil dólares. Y ese es el gran problema. Pero hay una solución, hay un atajo, podríamos decirlo. Y es que a estos modelos se les puede aplicar una técnica llamada... Y aquí me van a desculpar, no busqué.

cuál era la traducción literal en español. En inglés es quanti-sation. La quanti- no sé Douglas, ¿cuál es la palabra en español?

Douglas (22:32)
¿Cuantificar algo?

Juan (22:35)
no creo que sea cuantificar porque sería como contar pero va por ahí me disculpo con la audiencia lo siento este es un proceso en el que vamos a agarrar un modelo y lo vamos a cortar por decirlo así cuando tenemos un modelo los parámetros son vectores de punto flotante y estos vienen en punto flotante de 16 bits

hay otros que vienen en 8 o 4, entonces eso es lo que a grandes rasgos eso es lo que aplica este proceso es que si teníamos un modelo que de 120 gigas y FP16 pues lo vamos a bajar, en vez de 16 lo vamos a bajar a 8 o hasta 4 entonces eso es yo creo que la gran analogía con esto para los que estén escuchando es como si tuviéramos

un video en 4k y en 4k tienes la máxima resolución pero pues mi computadora o mi televisor no reproduce 4k entonces lo voy a cambiar a otra resolución más baja lo vamos a bajar a 1080p todavía se ve y se ve muy bien pero no tiene toda la calidad que realmente tenía al inicio algo así viene siendo este proceso

Y eso lo que nos permite entonces es tener estos modelos que son muy inteligentes pero a un nivel un poco más son medio lobotomizados estos modelos. Entonces no tienen las grandes capacidades pero nos van a servir para hacer diferentes tareas. Esa es una opción que existe hoy en día. otra opción, bueno sí, generalmente es así.

Descargamos modelos que han sido reentrenados y los han modificado y ya ahora sí los podemos cargar en nuestras tarjetas gráficas. En general Douglas, va a depender de lo que necesitamos hacer. Yo he estado haciendo pruebas, muchas pruebas con modelos en local. pues no tengo el presupuesto para una buena tarjeta gráfica. Mi tarjeta de video tiene a duras penas 6 GB de RAM. Así que...

no puedo correr prácticamente nada. por eso mismo me ha llamado la atención el estar haciendo experimentos de ver qué es lo que realmente puedo ejecutar. Porque como decíamos al inicio, se habla mucho en internet de que bueno, puedes correr en tu local pero qué podrías correr y con qué hardware. Y bueno, en este caso lo más que podría correr yo serían modelos de 4 billones de parámetros. Así a nivel general o...

modelos de 3 a 4 GB porque ya después aumentan con el contexto y la verdad Douglas es que con eso pues no no logro hacer muchas tareas al menos si lo pongo a programar en cierto momento logré que realizar a un feature a algo que estaba haciendo en el programación y me sorprendió mucho descargué QN3.5 la versión de 9B

billones de parámetros y logró hacer la tarea pero hizo esa tarea y listo se quedó sin contexto ya no podía hacer nada más cuando empecé a preguntarle más cosas ya empezó a alucinar porque ya olvidó lo que tenía anteriormente y bueno fue algo curioso pero yo creo que aquí Douglas desde mi punto de vista y aquí me podrías dar tu opinión también es que

Yo no descarto estos modelos, aun en un hardware tan limitado como el que dije que tengo yo, porque me ha servido para hacer otro tipo de tareas. Si bien ya no me sirve para programar, así como con Cloud Code y Chagypti Codecs, si me sirve para otras tareas que son más simples. Y he estado explorando ese tipo de funcionalidades y he tenido resultados muy, muy interesantes.

Resultados muy buenos. Un ejemplo muy claro es categorizar correos, ejemplo. El hecho de recibir correos, agregarle diferentes etiquetas y ordenar mi bandeja del correo. Eso lo puedo hacer con estos modelos que son pequeños. También puedo transformar información. Tengo un objeto JSON muy grande, lo quiero convertir a...

a CSV o a un documento de Excel o viceversa también lo pueden hacer estos modelos. Son tareas que no requieren tanto razonamiento y son tareas que son relativamente fáciles que estos modelos ya pueden realizar. Y he estado haciendo ese tipo de experimentos y como dije me han servido mucho.

Cuando digo que me han servido me refiero a que me han dado los resultados que esperaba. Son resultados bastante simples, pero que si yo me pongo a hacerlos de manera manual pues sería muy engorroso. Y si me pongo a utilizar los modelos grandes de la nube pues voy a estar gastando tokens y voy a estar gastando, dependiendo del plan en el que esté, me puede salir un poquito más caro de lo que realmente necesitaría. Para tareas que...

en teoría son más simples. Pero bueno, hasta el momento yo creo que lo puedo dejar como en ese estado Douglas, siento que los modelos locales son muy buenos para tareas más simples. Y claro, dependiendo de tu hardware, entre mayor capacidad pues también vas a poder hacer cosas un poquito más complejas cada vez más.

Douglas (28:45)
Sí, mira, es un tema un poquito... tiene bastantes ramificaciones, voy a decirlo, porque ya mencionaste vos, los modelos locales están mejorando, cada vez más eficientes, con menos recursos, hacen un mejor trabajo. Comparto total lo que decís para este tipo de tareas, son muy buenos porque no necesitas un razonamiento alto para este tipo de tareas.

Pero entonces vengo y pongo en balanza el trabajo que me lleva correr un modelo local.

Y aquí voy a hacer un paréntesis rapidito. Yo quiero animar a las personas que nos ven y nos escuchan, que esperaría que mayormente sean personas con un trabajo técnico o que están entrando en un trabajo técnico, prueben los modelos locales. Por favor, háganse ese favor ustedes mismos. Prueben los modelos locales, hágan, conéctenlos, prueben código, prueben diferentes cosas. Porque esa es la mejor manera de entender cómo funcionan los modelos de inteligencia artificial. Entonces...

Quiero, hago ese paréntesis porque no quiero que lo que voy a decir ahorita suene como que estoy desanimando a las personas a que prueben modelos locales, verdad. Sino que a lo que voy ya ahora al punto central, tratando de poner en balanza yo el beneficio, el tiempo, etcétera, de la misma manera en que los modelos locales, los modelos gratis han ido mejorando, también han ido mejorando los planes de estos tres grandes

Juan (30:02)
Sí, sí.

Douglas (30:23)
de la industria en lo que es AI, ya lo mencionamos, OpenAI, Anthropic y Gemini de Google. De hecho, Grog entra ahí, prácticamente, últimamente, Grog entra en esa lista, de hecho son cuatro grandes hoy en día, aclarando esa parte ahí. Porque los modelos de ellos, los planes de ellos, perdón, han ido mejorando también. Entonces ya...

Juan (30:36)
Ay, es cierto.

Douglas (30:52)
Con los planes de ellos te permite autenticar si usas algo como Codex o usas algo como Cloud Code o algo como Cursor o el mismo Open Cloud que ahorita está revolucionando, ¿no? Al punto de que NVIDIA sacó su versión y hay un montón de forks por ahí de Open Cloud. Podés, con Open Cloud, en lugar de conectar un token, podés autenticar.

⁓ y entonces él va empezar a consumir tu plan de OpenAI, tu plan de Anthropic en lugar de consumir tokens. Entonces estos modelos de pago han ido mejorando sus planes a medida van creciendo y para tareas que requieren de menor razonamiento puedo utilizar los modelos más baratos. No tengo que gastar el uso

de modelos caros para que me organice emails, para que me convierta archivos, para que me formate archivos y para que me haga tareas pequeñas. No necesito el modelo, si estoy con OpenAI, no necesito el GPT-4, no sé qué es el último ahorita. No necesito ese, puedo irme con uno de los anteriores que me va funcionar perfecto para ello y me va a salir una fracción del costo. Entonces...

¿Por qué pongo esto en balanza? El correr en modelo local, aunque tengas un gran hardware, que eso es bien caro, ya no diste vos una estimación de precios, aunque tengas un gran hardware y has invertido miles de dólares en tener un gran hardware,

no vas a igualar el rendimiento de estos modelos con API, con estos modelos en la nube de los grandes. No los vas a igualar porque la cantidad de recursos que necesitan para ejecutar y correr con todo ese contexto, sea la memoria, lo que pueden recordar, con todo ese contexto, con esa velocidad.

para que te respondan rápido y ser eficiente, la cantidad de recursos que se necesita para eso es exagerado, es exagerado. Entonces de manera local no vamos a lograr replicar eso a menos que instalemos un data center local que quien tiene ese dinero, ya no se volvería algo local, ya sería crear tu propia nube. Pero ¿a qué voy con esto? De que...

Aquí toca poner en balanza, cuánto valoramos o qué beneficio más allá le puedo sacar si corro un modelo local, en lugar de hacer invertir ese tiempo ahí y simplemente usar los modelos baratos de Anthropic o OpenAI o los de Google.

Usar esos baratos para esas tareas y dejar los caros para ya lo que es desarrollo o razonamiento más grande cuando quieren hacer documentaciones bien elaboradas, ¿no? De algo que queremos que esté bien estructurado. Idealmente ahí queremos un modelo bueno. Cuando solo es una documentación o comunicación interna, dame un email para el cliente, eso puede ser un modelo más barato, él te lo va a elaborar bien, ¿no?

Ahí está el debate Juan y yo creo que no voy a dar como una respuesta

final en ese sentido. Yo te voy a decir que es lo que yo he optado, que creo que se ha sobre entendido, que es irme con los modelos pagados usando, es en la nube sí, usando el modelo acorde a la tarea para reducir los gastos y hasta el momento yo te puedo decir con OpenAI que es el que yo estado usando, el plan de 20 dólares creo, no he llegado a un límite diario. He visto, estoy trabajando con Corex a veces

y he visto como ya va como por el 100 % que va porque tiene tiempo la sesión no me he puesto a ver a detalle ahí cómo funciona la sesión de ellos ahí porque como nunca he llegado hasta el límite no a veces lo veo llegar como al 14 % pero ya para ese punto ya terminé mi trabajo y listo verdad y con esos mismos 20 dólares tengo mi propia instancia de open cloth no tengo una mac mini no iba a comprar una mac mini solo por eso

lo tengo en un servidor en la nube protegido y bien asegurado y con esos mismos 20 dólares tengo mi OpenClaw conectado con el cual estaba haciendo muchas cosas a nivel personal ahí entonces yo he optado por eso cuando veo algo nuevo en modelos locales lo pruebo como parte de entender mejor las cosas pero no dependo de ellos ahora sé que me extendido con mi opinión Juan pero

¿Por qué hice el comentario de no desanimar a nadie que pruebe modelos locales? Cuando hablamos de escala, de escala inmensa, puede ser que llegue un punto donde existan empresas que, aunque usen el modelo más barato para tareas que no exijan, siempre sea un gasto mayor que correr sus modelos locales para ese tipo de tareas.

puede que sea así. Para mí, de nuevo, para mi, para Douglas, he identificado que el tiempo que le invierto y los recursos que me consume en correr modelos locales, mejor pago los 20 dólares y me ahorro un montón de tiempo, que al final eso se traduce en dinero, cuando nos ahorramos tiempo, no es un problema, pero pensemos en una empresa grande que tiene...

gran cantidad de usuarios y gran cantidad de flujos y tiene 200, 500, 800 no sé, agentes de inteligencia artificial para diferentes funciones y diferentes cosas. Entonces en ese volumen y digamos que usan Antropic, voy a poner Antropic como ejemplo, a ese volumen usar los modelos más baratitos.

Para cositas como organizar emails y para cositas como responder un mensaje de Slack o un correo, como ocurre tantas veces, puede que el costo siempre se eleve porque en volumen ya se eleva. estas empresas pueden que sí hagan un default de ese tipo de funcionalidades a modelos locales.

porque les va a salir más barato probablemente y por lo que les me refiero correr en una nube no siempre con máquinas siempre van a ser máquinas con GPU siempre van a ser instancias caras pero si hacen la suma en uso les va a ser más barato pagar miles de dólares por instancias que tal vez cientos de miles de dólares en keys en request a estos modelos de la nube entonces

Juan (37:37)
Sí.

Douglas (37:58)
puede que en algún momento se llegue por ahí, se sabe que existe cuando se configura modelos de inteligencia artificial, ruteo, donde le decimos, mira para esta tarea que pensás, andate al modelo más grande, para esta tarea que es más pequeña, andate al modelo local, puede que se llegue a necesitar eso.

Yo sí lo miro ocurriendo en el futuro a medida las empresas empiezan a operar cada vez más y más con agentes de inteligencia artificial. es bueno, de nuevo, es bueno que probemos, que interactuemos con ellos.

pero no doy una respuesta definitiva, simple y sencillamente les comento de que analicen qué les conviene mejor porque también por 20 dólares o incluso miren no es poco dinero pero puede ser que aún el plan caro de 100 dólares les ahorre mucho tiempo donde ustedes puedan multiplicar esa inversión haciendo más cosas con ese plan. esa es...

un poco por todas partes Juan pero espero poder haber aterrizado en lo que opino y en lo que yo hago con respecto a si modelo local o modelo en la nube.

Juan (39:10)
Si claro, aunque decís que no es una respuesta definitiva, siento que tu postura es analizar bien que es lo que te conviene en términos de tu tiempo y lo que realmente necesitas hacer y poner eso en la balanza, me parece perfecto. La verdad es que con lo único que discrepo en cuanto a que mencionabas, si creo que es lo único, con lo demás estoy totalmente de acuerdo con lo que decís.

es el hecho de que hoy en día me parece que no es difícil siento que no es un trabajo difícil el hecho de descargar y ejecutar modelos gratis en nuestra computadora hay múltiples, si múltiples herramientas que nos permiten hacer eso ya sea en Windows, en Mac o en Linux de las que yo conozco las dos más famosas son LLM Studio

LLM Studio y OLAMA. Son las dos que realmente, pues casi toda la comunidad son las que están utilizando. Te permite modificar valores, parámetros, cambiar un poco el modelo, reentrenar, no, sí, creo que también reentrenar o crear modelos custom, etcétera. Así que en ese aspecto yo también por eso creo que hoy en día ya nos estamos acercando a ese momento donde ya empieza a ser viable.

porque probar un modelo hoy en día es muy muy fácil por ejemplo en el caso de olama descargas docker obviamente voy a asumir que ya saben utilizar docker y descargas la imagen de olama y listo eso es todo y ahí utilizamos olama con olama run y el nombre del modelo es relativamente fácil claro hay una curva de aprendizaje si realmente no sabes absolutamente nada de estas herramientas

Pero en perspectiva es bastante fácil.

Douglas (41:11)
Juan, fíjate

que me gustaría aquí, ya que mencionas eso, porque de hecho yo hace dos episodios creo...

Uno de esos que les tocó a la audiencia escucharme solo a mí hablar. Hablé de Docker Desktop, permite correr los modelos de manera directa, el Docker Model Runner. Y no ocupás bajar o Lama como contenedor, sino que hay no más en Docker Desktop. Y eso interactúa mucho más fácil con contenedores. Tenés tu ambiente local de desarrollo, levantás con Docker Compose.

Juan (41:28)
sí. Sí.

Douglas (41:46)
Ahí nomás en un contenedor levantas un modelo con Docker Model Runner y se conecta de manera interna. Cuando yo digo complejidad Juan, en realidad o la carga de manejarlo, no me refiero a lo difícil que es, sino que me refiero al recurso que te consume.

la máquina se te pone más lenta porque mira, seamos honestos, las personas que nos ven y nos escuchan, ¿cuántos tienen realmente acceso?

no nos vayamos a tarjetas gráficas, a una supercomputadora que tenga 32 GB de RAM, que tenga suficiente almacenamiento en disco para poder bajar un modelo porque son pesados, si querés correr uno bueno son 70 GB, 50 GB por lo menos, si querés correr uno decente, entonces ¿quién tiene una computadora con esos recursos para que le corre el modelo local aparte de su flujo?

de trabajo diario y si tenés una laptop viejita donde lo estás corriendo ¿Cuánto tienes a laptop? ¿12 GB de RAM? ¿8 GB de RAM? Entonces, me explico, a eso me refiero donde entonces estás lidiando con que configuraste algo donde en práctica es lento, es bien lento, entonces

más allá de pruebas que super ganancia en hacer pruebas y en entender y en ver que existe, a mí no, no me genera un beneficio con, y yo tengo una máquina con 32 GB de RAM, Mac, ¿verdad? Tengo una máquina con 32 GB de RAM, no tiene video aparte, pero ¿qué es un GPU de 4 GB?

Juan (43:25)
que es RAM unificada, imagino.

Douglas (43:35)
Ayuda en algo, pero yo trabajo con ella, Juan, y se vuelve lento. Se vuelve lento, pues. Entonces, si nos vamos a la realidad de las cosas...

es un grupo pequeño de personas que entran en la categoría de poder correr de manera decente y esto con una inversión significativa de dinero entonces cuando me refiero al trabajo de mantenimiento me refiero a eso cada vez que yo estoy probando modelos locales trabajo lento tengo que cerrar las demás cosas para dejarle el recurso ahí y es ahí donde yo miro videos en internet por eso te digo los que miro venden humo la mayoría de ellos porque dicen

viste el modelo tal que salió es tan rápido que puede hacer esto esto y esto sí el modelo lo puede hacer verdad

pero tenés el hardware para correrlo realmente entonces a eso me refiero con venta de humo en ese tipo de videos el modelo lo puede hacer pero lo más probable es que la computadora que tengas no lo haga aquellos de ustedes que la tienen que bueno yo tengo una con 32 gigas de ram y 4 gigas de video porque son a macbook pro y me corren más allá de pruebas me corre lento entonces a eso me refiero yo mismo he experimentado por mi cuenta si con docker desktop incluso

Juan (44:27)
Sí.

No,

Douglas (44:55)
correr el MCP server hasta se está volviendo una práctica los que tienen cloud code o codex manejar los MCP servers con Docker Desktop porque si no codex te levanta codex o cloud code te levantan un montón de MCP servers y cada uno de esos MCP es con texto, verdad, que tiene que llamar entonces mejor

Docker Desktop se encarga de hacer un gateway, de hacer proxy y solo es un llamado y es menos contexto. Entonces, hasta es una práctica hacer eso hoy en día, pero sí, de nuevo, a menos mi experiencia personal y desde ahí hablo, a eso me refería, Juan, con que en realidad se vuelve tedioso por esa parte.

Juan (45:40)
Si, claro, a nivel técnico, el nivel de esfuerzo que te va a llevar es el mismo. Ya de ahí la diferencia es cuál es el equipo que tenés. Así que con eso me gustaría pasar entonces a otro punto Douglas y es ¿por qué utilizar o en qué momento deberíamos utilizar modelos en local? Y aquí voy a empezar a un poco sobre lo que ha sido mi experiencia.

y me identifico mucho con lo que mencionas de que ha sido engorroso y esterioso porque yo desde un inicio he intentado, hecho, yo soñaba con correr estos modelos en mi Raspberry Pi porque vi vídeos en internet, vi gente que decía que se podía y en teoría sí pero la realidad es que al final llegué a la conclusión de que no, no se puede

en términos prácticos no vale la pena. Es más, tengo varios dispositivos, en uno de ellos si lo ejecuto se muere, se muere definitivamente el servidor entonces y con el modelo, ojo, con un modelo ya dijimos hay modelos de 8B, 16, yo probé con uno de 0.8 y ahí murió.

Entonces

Douglas (47:02)
Disculpame solo para hacer un paréntesis rapidito con lo que estás diciendo y con lo que es la venta de humo. La mayoría de gente que ven en redes sociales que dicen compro una Mac mini, con Apple Cloud estoy corriendo a mi empresa, estoy... No están corriendo modelos locales. sea, algunos lo han bajado porque eso vieron en internet que están haciendo, pero se dieron cuenta que tardaba.

horas en hacer cosas que los modelos de la nube lo hacen. Entonces tienen la Mac mini por los recursos locales, porque tienen el sistema operativo de Mac para calendario, para software y otras cosas y automatiza la máquina. Pero ellos están conectados.

Juan (47:41)
para mandar iMessage.

Douglas (47:42)
Exacto, sí, para todo eso, pero los modelos que están usando, es OpenAI o es Anthropic o es Gemini. eso no se dejen engañar por esos mensajes. Si usted compra uno Mac Mini pensando que van a tener gratis porque van a bajar un modelo local, no le va funcionar como muestran en esos videos. Y vos nos estás contando un poco tu experiencia con queriendo correr en Raspberry Pi, que también sale por ahí en internet.

Juan (48:08)
Sí, sí,

Sí, sí, sí, sí. Y miren, a todos los que nos están escuchando y viendo, esta es la triste realidad de cómo está la inteligencia artificial en local hoy en día, 2026. Es caro. Es extremadamente caro. Esa es la realidad. Se puede, pero como ya mencionaba Douglas y lo que hemos venido diciendo de todo el episodio, necesitabas un equipo que soporte todo esto.

y eso es muy muy caro y a eso le podemos agregar todos los conflictos que hay externos y que aumentan los precios etcétera etcétera etcétera pero entonces eso me llevó a la pregunta entonces debería dejar de utilizar los modelos locales y aquí quisiera hacer como una acotación de por qué podrías utilizarlo

o por qué invertir en un local si tenés el dinero podrías invertir de hecho hoy en día se está poniendo muy de moda estos chips que son de como la M4 de Apple que son chips con memoria unificada la diferencia con una tarjeta gráfica de Nvidia como la que utilizamos para jugar es que tienen una VRAM una RAM de video

pero estos otros chips utilizan la RAM normal y con eso utilizan para todo. Bien, se estaba empezando a poner mucho de moda o la gente estaba empezando a ver hacia ese punto porque cuando lo comparas con lo otro sale más barato. Es utilizar este tipo de chips. El que estoy viendo que está teniendo mucho auge hoy en día es uno de AMD, el AMD AI Pro no sé qué. El Halo Sticks creo que se llama, algo así.

es un chip que como M4 de Apple o M5 no sé por cuál va utiliza la memoria unificada así que con eso podréis tener una computadora con 120GB de DDR5 y ahora este chip utiliza eso para correr Inteligencia Artificial es más importante la cantidad de RAM que la velocidad de la misma entonces lo que nos interesa es tener mucha RAM

para poder cargar estos modelos. No va a ser igual de rápido que chat gpt, no va a ser igual, ya se los dejo claro. Pero corre y corre en una velocidad que es, en el peor de los casos es como cuando estás leyendo y alguien está escribiendo al mismo tiempo. esa velocidad. Entonces no es extremadamente lento, no es súper rápido, pero dependiendo de lo que vayas a hacer te puede funcionar. Entonces

pero son aparatos que cuestan 2.000 dólares, 3.000 dólares en el mejor de los casos, con buenas gangas así que como dije es caro por eso como mencionaba para programar no se puede ¿qué podrías hacer entonces? algo que he estado explorando hoy en día son estos modelos de visión son los modelos de reconocimiento de imágenes y estos modelos aún los más pequeños funcionan muy bien

De hecho estaba trabajando en una aplicación que analiza lo que son los recibos, recibos de pago de cualquier cosa y rellena los valores en la aplicación. Funciona muy bien. Con un modelo de 9 billones de parámetros que pues el 80 % se carga en mi memoria de video y el otro está haciendo como un offloading a la RAM, está como haciendo un ciclo.

funciona muy bien, claro cada vez que necesito analizar una imagen se tarda pues entre 30 segundos a un minuto y podría decir que eso es lento y si lo es pero para trabajar con esta aplicación me funciona otro aspecto es que no todo, yo creo que aquí viene nuestro sesgo Douglas es que siempre estamos haciendo pruebas que tienen que ver con

programación o orquestración de herramientas y subprocesos, cosas así ¿no? Pero también hay otras tareas que vamos a realizar en nuestro día a día que sí la pueden hacer los modelos más pequeños. De nuevo estoy hablando de modelos pequeños porque eso lo que vamos a poder correr. Yo creo que a lo que podremos aspirar es a tener una memoria de vídeo de 24 GB o de 8 GB.

El 8GB es obviamente más barato, pero si tienes dinero, una 24GB y con eso vas a poder correr modelos de 8 o 16GB y te va funcionar con una velocidad bastante bastante decente. Entonces vas a poder correr procesos que no necesariamente tienen que pasar en tiempo real. Hay muchos procesos, ojo lo que mencionaba yo al inicio Douglas, yo me pongo a clasificar correos.

y estos correos que los voy clasificando, dependiendo de lo que son, yo al final empiezo a generar reportes. Empiezo a ⁓ crear un reporte y eso lo lleno en un Excel o Google Sheets y lo guardo. Eso yo no necesito que suceda instantáneamente. Eso empieza a correr, si se tarda un minuto, dos minutos, diez minutos, la verdad es que no me importa porque ni siquiera me doy cuenta. Yo al tiempo reviso los reportes.

son cosas personales, no necesito que sea tan rápido. Con ese tipo de tareas, cuando no son, la velocidad no es un factor, entonces podríamos utilizar esto. Claro, estamos hablando, ya que ya nos salimos de la parte técnica de utilizarlo para programar, utilizarlo para correr herramientas, y empezamos a caer en este territorio de automatización de tareas, que puede ser para nuestro...

personal o podría ser también para un negocio. Digamos que tenemos una tienda y bueno, no sé, por motivos de privacidad creo que ese es el factor más fuerte cuando hablamos de modelos locales, es el hecho de la privacidad. Cuando estamos ejecutando modelos en la nube ellos dicen que no van a utilizar nuestra información para entrenarlos. Yo tengo mis dudas, dudas.

Si me lo permitís, voy a dudar. Pero bueno, si tenemos información que es demasiado sensitiva, esta puede ser también una opción. De nuevo, los modelos que tienen que ver con reconocimiento de imágenes o modelos que hacen operaciones de OCR, Object Character Recognition o algo así creo que se llama, son muy buenos y no necesitan un hardware muy muy caro.

Douglas (55:03)
chiste va?

Juan (55:31)
Realmente con hardware pequeño funciona de maravilla. hecho, eso si he visto que ejecutan en los Raspberry Pi modelos que se encargan de reconocer. Reconocer si las manos están moviendo, reconocer facciones de tu cara. Ese tipo de cosas pueden correr y claro, no tienen que ser tan poderosas. Tienen sus limitantes. Pero cuando empezamos a caer en esas tareas que son un poco más...

que no sean en tiempo real o que sean muy muy pequeñitas, muy muy específicas, muy especializadas como lo que es reconocimiento visual, es así, al menos en mis pruebas he podido ejecutarlas en un hardware que es bastante bastante limitado y como dije la privacidad ese es el mayor, creo yo el mayor componente. ¿A cuánto no nos ha pasado Douglas?

que queremos hacer una pregunta a chatgpt de que tenés un lunar extraño en tu cuerpo pero luego te pones a pensar bueno esto va a quedar ahí en el entrenamiento de la guía y bueno con un modelo local vas a poder hacer cualquier pregunta y nadie te va a juzgar pero de nuevo van a ser limitadas las tareas que puedes hacer con el hardware limitado eso lo que funciona y así es

Y aquí me lleva ⁓ al último punto de por qué creo yo Douglas que puede valer la pena utilizar modelos en local. es, muy ligado con lo que estabas hablando de en un futuro puede que muchas empresas empiecen a invertir en equipo local, qué sé yo, por normas empresariales, de privacidad, normas ISO por ejemplo, puede llegar a ser.

y vamos a tener que implementar este tipo de cosas nosotros. Así que lo que podamos hacer en nuestro local perfectamente se va a trasladar a un ambiente ya más grande. Lo que va a cambiar es que ahora en vez de utilizar Lama 3.2 vas a utilizar Deep Seek 170B o sea todos estos modelos que son grandísimos. Eso lo que va a cambiar.

pero la manera en que funciona sigue estando igual. hecho, una nota aquí Douglas, por eso me gusta Olama. Olama más allá de ejecutar los modelos expone un SDK, ya sea para Python o para JavaScript, entonces te permite hacer aplicaciones que se conectan directamente con el Engine de Olama. Claro, lo puedes hacer también por REST API normal, pero pues tiene un SDK que es bastante...

interesante creo que docker también lo tiene o tal vez puedes utilizar algo de terceros no estoy seguro pero lo que podés utilizar y las optimizaciones que puedes hacer con olama luego se van a traducir a cualquier implementación que querrás ejecutar en un ambiente más grande y esto aquí Douglas me gustaría entonces llegar como a la conclusión a la que yo he llegado y esta es mi postura actual de nuevo

2026, a inicio de 2026, no sé en un futuro que vaya a pero actualmente Douglas mi postura es que estoy empezando a utilizar modelos muy pequeños en local para hacer tareas muy simples y tareas que no me importa que se tarden mucho tiempo, pero yo sigo utilizando los modelos más grandes en la nube y con esto yo...

Te estaba comentando hace rato, no dudas, que estaba probando Olama pero en la nube. ¿Cuál es la... Ni siquiera esa es una ventaja, pero el aspecto que me llamó la atención a mí actualmente, comparado con un ChatGPT donde tenés tu plan de 20 dólares, que en Olama también hay un plan de 20 dólares, pues la mayor diferencia, creo yo, es que en Olama me permite estar testeando todos estos modelos que empiezan a salir, los modelos nuevos.

He estado probando el Minimax, tienen nombres bien largos, Minimax M 2.7 y algo más. Muy bueno, buenísimo, buenísimo. Estoy claro que no llega al nivel de Codex 3.4, 3.2, este tipo de números, O Cloud Opus, no sé qué número van. No llega a esos niveles.

pero realmente Douglas no siento que necesite esos modelos para el tipo de tareas que realizo y ojo aquí también cabe aclarar que yo sé programar así que cuando estoy programando y encuentro bugs puedo ya lo veo como bueno ahora voy a hacerlo yo quitarte arreglo lo que tengo que arreglar y luego ok continuar y ya dejo que la IA siga trabajando pero por ahora

Pero bueno, Jackie es más como, como dije, no es una ventaja, es algo que me gusta a mí, del hecho de probar diferentes modelos con Ola McCloud. Pero también he estado utilizando Gemini, entonces no creo que vayamos a dejar los modelos de la nube muy pronto Douglas. Y por ahora, pues es lo que hay. Cada vez como decía, son más baratos los planes. Y esa es la parte interesante.

Lo que me gusta también Douglas es que cada vez es menos... No sé cómo lo veas vos, pero siento que cada vez el modelo como tal es menos relevante. Por ejemplo, a veces yo inicio un... estoy trabajando en un proyecto por aparte, inicio con Gemini, luego a mitad de camino cambio a Codex y luego puedo cambiar a otro modelo de Olama. Y la verdad es que es lo mismo.

No siento una gran diferencia. Sí, a veces los modelos grandes, los de Frontera, de Gemini, Odex, hacen menos errores, pero también depende de cómo vos los timonías los vayas dirigiendo. Pero bueno, esa es mi opinión, no sé.

Douglas (1:02:10)
Si es que vos sabes dirigirlo

vos sabes dirigirlo por eso, por eso te encontras menos a diferencia, pero alguien que son white coders, netos, que no les interesa cómo se hace, creo que ellos si ven diferencia.

Juan (1:02:29)
Sí.

Douglas (1:02:30)
que no piensan ellos, pues no lo digo de mala manera, soporto, perdón, no comparto el vibe coding porque hay mejores maneras de hacerlo, trabajar con inteligencia artificial, pero sí, vos ves una diferencia menor o probablemente inexistente porque vos sabes programar, vos estás...

Manajín, estás administrando la Inteligencia Artificial, no la estás dejando que ella piense.

Juan (1:03:02)
Exacto y cada vez surgen más herramientas que nos permiten hacer esto pues están los famosos skills está también el famoso agents md y cada vez tenemos como más pequeñas piezas que nos permiten darle un contexto más concreto a la ia y con este tipo de herramientas o bueno no sé cómo llamarlo pero le digo herramientas pues no importa la ia o el modelo que ponga debería

debería seguir esas reglas que yo ya generé anteriormente. Y también pues siento que ya no es tan importante, así como lo era antes, que utilizar Cursor, utilizar Windsurf, este tipo de IDEs. Pues ahora creo que me mencionabas la vez pasada utilizadas con Copilot, la extensión de Copilot. Y recuerdo que las cosas que me mencionabas, pues es lo mismo, no importa el modelo que utilicés.

Douglas (1:04:00)
Yo lo siento igual, siento diferencia con Codex que uso Copilot y Codex ambos. Allá hay un poco de diferencia, pero entre Cursor y lo que hacía con VS Code y Copilot, existen diferencias pues, pero al menos yo no me beneficiaba de ellas.

Juan (1:04:21)
Ajá, sí, sí, yo estoy igual. No siento una... Voy cambiando de ambientes y pues todo sigue estando igual. Así que... ¿cuál es la conclusión de este episodio? Entonces, Douglas, yo diría... investigan un poco sobre cómo funcionan los modelos en local, en la nube. Exploren otras alternativas, diría yo, Douglas.

Por ejemplo, precios que hay hoy en día en Gemini los tokens de salida andan alrededor de 18 dólares el millón de tokens y si ves eso en la plataforma de Qwenn creo que eran como 2 dólares y como dije Qwenn 3.5 Max, no sé cómo son los nombres que tienen, tiene un performance muy bueno. Yo lo he probado con Olama y Qwenn es muy muy bueno.

Y bueno, hay otras opciones. Hay otras opciones para los que andan buscando cómo economizar, ¿verdad? Estos planes. Pero bueno, esa sería mi recomendación del día de hoy, Douglas.

Douglas (1:05:35)
Mira, yo voy a cerrar un poquito, no tanto, pero un poquito por otro lado. ⁓

y es que mi recomendación sería no dejen de probar los modelos locales porque de esa manera aprenden y porque lo mencionó Juan y yo también lo creo. Siento que en algún momento instalar y mantener modelos locales va a ser importante para los trabajos técnicos, para ciertos flujos, no para todo, para ciertos flujos, entonces...

Si eso llegara ser una realidad, ya estaríamos preparados, aquellos de nosotros que hemos corrido modelos locales y que hemos sabido administrarlos. Es igual, correrlos de manera local nos ayuda a entender realmente que los conceptos de trata de la inteligencia artificial y cómo trabaja, porque magia no es como cuando surgió la nube, que la mayoría de la población realmente creía que era la nube en el cielo. Solo las personas técnicas entendíamos que en realidad son data centers.

regados por el mundo. Entonces lo mismo con la inteligencia artificial. Para sus flujos de trabajo hay implementaciones que los modelos locales le van a funcionar. Yo estoy 100 % de acuerdo con eso, con Bozwan. De hecho he visto personas que los tienen, he visto a dos personas en internet que instalaron con modelos locales en máquinas pequeñas OpenClaw para manejar su Home Assistant.

para manejar su casa porque entonces a los asistentes que han existido, el el eco de amazon y el de apple y eso se le dan instrucciones específicas no puedes dialogar con él y de esta manera ellos lo controlan con telegram en lenguaje natural, controlan su casa en lenguaje natural con telegram y eso les ha generado

beneficio que ojo ya salió el Alexa Plus que no sé si se me activó, ya tiene inteligencia artificial, está en beta y ya se va a poder hacer ese tipo de cosas con ese tipo de asistentes pero si bien es cierto existen a nivel personal yo he optado por los modelos baratos de los planes de paga.

me consumen poco o nada de tokens para lo que necesito, esos flujos, de nuevo llevo meses y meses con el plan de 20 dólares de OpenAI, no he necesitado brincar, van a ver personas que trabajan muchísimo más con AI y entonces el de 20 dólares no es suficiente, van a tener que saltar al de 100 o 200, ya no me acuerdo cuánto es el brinco.

Juan (1:08:20)
que de las preguntas

buscando sobre olama cloud me di cuenta que yo no utilizo tanto la IA yo trabajo con Inteligencia artificial todo el día en mi trabajo y luego por las noches hago proyectitos así random y me di cuenta que no, no la utilizo mucho porque muchas personas se quejan, se estaban quejando de olama porque les estaba dando muy poco datos de uso y yo la he utilizado por dos, tres semanas

y nunca he pasado del 10-15 % entonces ahí me di cuenta que wow

Douglas (1:08:54)
Sí, yo he visto gente con

el plan de 200 dólares de Antropic que ya para la tarde de la tarde no tienen disponibilidad. Y de nuevo, yo, al igual que vos, se ha vuelto una herramienta indispensable para mí y ese plan de 20 dólares lo uso para el trabajo.

Juan (1:09:02)
Sí, es cierto.

Douglas (1:09:13)
y para nivel personal, con el beneficio de que cuando trabajo con Copilot, esa es una licencia que paga la empresa, cuando estoy ahí me ahorro un poquito, pero en fin, mi punto es ese, yo a nivel personal, por motivos de tiempo, he optado por los modelos de paga.

escogiendo los modelos baratos para tareas que no necesitan pensamiento, menos razonamiento y los modelos caros, dejarlos básicamente para lo que desarrollo o para documentaciones complejas y diagramación y ese tipo de cosas. Entonces esa es mi perspectiva, yo creo que no hay una...

no hay un camino malo aquí Juan, mientras no estemos forzando las cosas. Privacidad con modelos locales de la misma manera que no me creo que los modelos públicos, los modelos de paga, perdón, no entrenan sus modelos con nuestra información, de la misma manera no me creo del todo que un modelo local no exponga mi información. Se ha visto gente haciendo doms de red mientras trabajan con modelos locales y esos modelos locales empiezan a ser llamados al internet sin que le pidan información de internet.

Juan (1:09:58)
correcto.

Douglas (1:10:25)
entonces qué están enviando no se sabe entonces tampoco me confería yo del todo en seguridad por esa parte pero de nuevo mientras no estemos forzando ⁓

Juan (1:10:37)
Perdón, que creo que acabas de dar un dato muy interesante y muy importante de aclarar a las personas. es que también eso es una narrativa que siempre se da que con los modelos locales vas a poder trabajar sin conexión a Internet porque todo está en tu computadora. Y es cierto, pero aún con los modelos más grandes es necesario que la IA vaya a Internet y haga búsquedas y haga feches de información. Cuántos no le hemos dicho OK.

Douglas (1:11:03)
Exacto.

Juan (1:11:05)
chat GPT, ingresar a esta página web y dame un resumen de tal cosa. Eso mismo va pasar con los modelos locales. Necesitamos una conexión a internet. Entonces sí, es cierto lo que decís, hay modelos que se ha descubierto eso.

Douglas (1:11:19)
Entonces, de nuevo, como cierre, mientras no estemos forzando solo porque no me interesa trabajar local o solo porque no, yo solo trabajo local, mientras no forcemos, creo que no hay mal camino, el que te convenga, ese es el.

Juan (1:11:37)
Perfecto, sin nada que agregar y sin nada que quitar. Con eso vamos a cerrar el episodio de hoy. Muchas gracias a todos los que nos han seguido hasta este punto. Definitivamente su apoyo nos ayuda a seguir continuando con este proyecto tan bonito que tenemos aquí en este canal. Les agradeceríamos un like, compartir, comentar y todas esas cosas que ayudan a estos algoritmos de las redes sociales de los que queremos escapar pero no podemos.

Muchas gracias a todos y eso es todo nos vemos la próxima