1
00:00:00,001 --> 00:00:03,440
[MÚSICA]

2
00:00:03,440 --> 00:00:11,880
Bienvenidos a la segunda parte de "Con los ojos bien abiertos,

3
00:00:11,880 --> 00:00:15,400
Dominando el Monitoreo y la Gestión de Eventos".

4
00:00:15,400 --> 00:00:16,520
Soy Alex.

5
00:00:16,520 --> 00:00:17,920
Y yo soy Julián.

6
00:00:17,920 --> 00:00:21,520
En la primera parte, cubrimos los fundamentos de esta práctica.

7
00:00:21,520 --> 00:00:22,840
¿Qué son los eventos?

8
00:00:22,840 --> 00:00:26,720
Los diferentes tipos, los procesos y algunas herramientas

9
00:00:26,720 --> 00:00:27,960
disponibles.

10
00:00:27,960 --> 00:00:29,680
Ahora viene lo bueno.

11
00:00:29,680 --> 00:00:33,240
Vamos a meternos en cómo aplicar todos estos conceptos en la

12
00:00:33,240 --> 00:00:38,240
práctica, en tu entorno real, cómo gestionar algunos errores

13
00:00:38,240 --> 00:00:42,600
que, bueno, que definitivamente quieren evitar.

14
00:00:42,600 --> 00:00:45,520
Julián, pongámonos súper prácticos aquí.

15
00:00:45,520 --> 00:00:48,440
Basado en tu experiencia trabajando con organizaciones

16
00:00:48,440 --> 00:00:52,920
de todo tipo y tamaño, teniendo en cuenta lo que realmente ha

17
00:00:52,920 --> 00:00:58,400
funcionado, ¿qué consejos les darías a nuestros oyentes?

18
00:00:58,400 --> 00:01:00,440
Les diría que antes de comenzar a monitorear,

19
00:01:00,440 --> 00:01:03,680
se pregunten qué resultados específicos de negocio queremos

20
00:01:03,680 --> 00:01:04,440
lograr aquí.

21
00:01:04,440 --> 00:01:06,840
¿Qué servicios son verdaderamente críticos para

22
00:01:06,840 --> 00:01:08,920
nuestros usuarios y para el negocio?

23
00:01:08,920 --> 00:01:11,640
Identifiquen esos servicios críticos y comiencen desde

24
00:01:11,640 --> 00:01:12,160
allí.

25
00:01:12,160 --> 00:01:15,000
Identifiquen los procesos de negocio más importantes para

26
00:01:15,000 --> 00:01:18,280
luego mapear los servicios de TI que los respaldan.

27
00:01:18,280 --> 00:01:19,560
Muy buen consejo.

28
00:01:19,560 --> 00:01:23,440
Siempre le digo a mi gente, monitoreen lo que realmente

29
00:01:23,440 --> 00:01:27,320
importa para el negocio, no lo que es técnicamente fácil de

30
00:01:27,320 --> 00:01:31,840
monitorear. Porque si intentan monitorear todo al mismo nivel

31
00:01:31,840 --> 00:01:35,440
de intensidad, no monitorean nada útil.

32
00:01:35,440 --> 00:01:36,240
Así es.

33
00:01:36,240 --> 00:01:38,760
El ruido va a ahogar completamente las alertas

34
00:01:38,760 --> 00:01:40,080
importantes.

35
00:01:40,080 --> 00:01:42,800
Otro consejo es que implementen filtrado inteligente y

36
00:01:42,800 --> 00:01:44,240
correlación de eventos.

37
00:01:44,240 --> 00:01:46,880
Esto es muy intenso, gente, pero necesario.

38
00:01:46,880 --> 00:01:47,600
Claro.

39
00:01:47,600 --> 00:01:52,880
Si un servidor se cae y eso automáticamente causa 50 alertas

40
00:01:52,880 --> 00:01:55,720
diferentes, pero se relacionan entre sí,

41
00:01:55,720 --> 00:01:59,680
no quieres recibir 50 tickets separados que consuman tiempo y

42
00:01:59,680 --> 00:02:00,560
recursos.

43
00:02:00,560 --> 00:02:03,400
Quieres un ticket que claramente diga,

44
00:02:03,400 --> 00:02:08,320
se cayó el servidor X y estos son los servicios impactados.

45
00:02:08,320 --> 00:02:10,560
Usen herramientas que puedan correlacionar eventos

46
00:02:10,560 --> 00:02:13,120
relacionados, que puedan suprimir duplicados obvios

47
00:02:13,120 --> 00:02:15,840
automáticamente y que puedan generar alertas que

48
00:02:15,840 --> 00:02:18,000
verdaderamente son significativas,

49
00:02:18,000 --> 00:02:21,200
en lugar de solo, bueno, ruido digital constante.

50
00:02:21,200 --> 00:02:25,040
La correlación inteligente puede reducir el volumen total de

51
00:02:25,040 --> 00:02:30,160
alertas en un 80% o más, mientras que simultáneamente

52
00:02:30,160 --> 00:02:33,760
aumenta dramáticamente la calidad y utilidad de la

53
00:02:33,760 --> 00:02:35,440
información que reciben.

54
00:02:35,440 --> 00:02:37,040
¿Algún otro consejo?

55
00:02:37,040 --> 00:02:37,840
Oh, sí.

56
00:02:37,840 --> 00:02:40,120
Automatice en donde sea posible y apropiado.

57
00:02:40,120 --> 00:02:43,000
Si pueden automatizar la respuesta a eventos comunes y

58
00:02:43,000 --> 00:02:45,440
predecibles, no duden en hacerlo.

59
00:02:45,440 --> 00:02:47,640
Limpieza automática de disco.

60
00:02:47,640 --> 00:02:50,840
Reinicios de servicio cuando se detectan condiciones

61
00:02:50,840 --> 00:02:52,080
específicas.

62
00:02:52,080 --> 00:02:53,640
Limpieza de caché.

63
00:02:53,640 --> 00:02:57,800
Estos son candidatos perfectos para automatización porque son

64
00:02:57,800 --> 00:03:03,000
predecibles, repetitivos y relativamente seguros.

65
00:03:03,000 --> 00:03:05,800
La automatización bien implementada puede resolver

66
00:03:05,800 --> 00:03:07,880
muchos problemas comunes en segundos,

67
00:03:07,880 --> 00:03:10,560
en lugar de esperar a que un humano vea la alerta,

68
00:03:10,560 --> 00:03:13,160
la evalúe y luego responda manualmente.

69
00:03:13,160 --> 00:03:17,080
Punto importante, siempre registren detalladamente lo que

70
00:03:17,080 --> 00:03:20,960
hizo la automatización para poder auditarlo después y

71
00:03:20,960 --> 00:03:22,840
aprender de los patrones.

72
00:03:22,840 --> 00:03:24,240
Y no olviden los respaldos.

73
00:03:24,240 --> 00:03:27,280
Una automatización mala puede causar más problemas de los que

74
00:03:27,280 --> 00:03:28,320
resuelve.

75
00:03:28,320 --> 00:03:32,920
Basado en experiencia, les recomendaría rastrear métricas

76
00:03:32,920 --> 00:03:36,160
importantes como tiempo medio para detectar,

77
00:03:36,160 --> 00:03:39,880
tiempo medio para responder, tasas de falsos positivos,

78
00:03:39,880 --> 00:03:42,280
escalamientos innecesarios.

79
00:03:42,280 --> 00:03:45,400
Usen data empírica para mejorar continuamente sus procesos de

80
00:03:45,400 --> 00:03:47,000
monitoreo y respuesta.

81
00:03:47,000 --> 00:03:50,680
Los datos objetivos no mienten y les van a mostrar exactamente

82
00:03:50,680 --> 00:03:52,800
dónde están las oportunidades de mejora.

83
00:03:52,800 --> 00:03:56,040
De hecho, déjenme compartir una historia de éxito rápida.

84
00:03:56,040 --> 00:03:58,840
Julián trabajó con una empresa que logró reducir su tiempo

85
00:03:58,840 --> 00:04:03,000
medio para detectar problemas, de 45 minutos a menos de 5

86
00:04:03,000 --> 00:04:03,560
minutos.

87
00:04:03,560 --> 00:04:04,440
Así es.

88
00:04:04,440 --> 00:04:07,800
Solo implementando correlación apropiada de eventos y alertas

89
00:04:07,800 --> 00:04:10,280
inteligentes basadas en impacto de negocio,

90
00:04:10,280 --> 00:04:12,520
el impacto fue inmediato y medible.

91
00:04:12,520 --> 00:04:15,440
Los usuarios finales notaron la diferencia inmediatamente,

92
00:04:15,440 --> 00:04:18,240
menos interrupciones, resolución más rápida,

93
00:04:18,240 --> 00:04:20,000
mejor experiencia en general.

94
00:04:20,000 --> 00:04:23,600
Ahora, algo súper importante que tenemos que mencionar.

95
00:04:23,600 --> 00:04:27,280
La gestión de eventos no existe en aislamiento completo.

96
00:04:27,280 --> 00:04:30,880
Está estrechamente integrada con otros procesos ITIL.

97
00:04:30,880 --> 00:04:34,440
Y entender estas relaciones es absolutamente crucial para el

98
00:04:34,440 --> 00:04:35,040
éxito.

99
00:04:35,040 --> 00:04:37,560
Empecemos con la gestión de incidentes.

100
00:04:37,560 --> 00:04:40,600
Muchos eventos, especialmente eventos de excepción,

101
00:04:40,600 --> 00:04:43,280
van a activar automáticamente procesos de la gestión de

102
00:04:43,280 --> 00:04:44,120
incidentes.

103
00:04:44,120 --> 00:04:47,040
Lo clave aquí es lograr una transición suave y sin

104
00:04:47,040 --> 00:04:47,960
obstáculos.

105
00:04:47,960 --> 00:04:50,680
Cuando un evento se convierte en un incidente,

106
00:04:50,680 --> 00:04:54,000
todo el contexto relevante e información de diagnóstico debe

107
00:04:54,000 --> 00:04:56,600
fluir automáticamente sin problemas.

108
00:04:56,600 --> 00:04:59,640
Nada de empezar la investigación desde cero como si fuera la

109
00:04:59,640 --> 00:05:01,320
primera vez que ven el problema.

110
00:05:01,320 --> 00:05:04,560
El técnico que recibe el incidente debe tener disponible

111
00:05:04,560 --> 00:05:07,000
toda la información sobre el evento original.

112
00:05:07,000 --> 00:05:08,640
¿Qué pasó exactamente?

113
00:05:08,640 --> 00:05:09,560
¿Cuándo pasó?

114
00:05:09,560 --> 00:05:11,480
¿Qué sistemas están afectados?

115
00:05:11,480 --> 00:05:13,400
¿Qué se intentó automáticamente?

116
00:05:13,400 --> 00:05:17,600
Esto acelera significativamente la resolución porque reduce

117
00:05:17,600 --> 00:05:20,480
tiempo de investigación o recopilación manual de

118
00:05:20,480 --> 00:05:22,200
información que ya existe.

119
00:05:22,200 --> 00:05:25,600
Con la gestión de problemas, la relación es un poco diferente,

120
00:05:25,600 --> 00:05:27,360
pero igualmente importante.

121
00:05:27,360 --> 00:05:30,800
Si están viendo eventos recurrentes o patrones claros en

122
00:05:30,800 --> 00:05:32,640
sus datos históricos de eventos,

123
00:05:32,640 --> 00:05:35,880
eso indica problemas subyacentes que necesitan investigación

124
00:05:35,880 --> 00:05:37,640
proactiva.

125
00:05:37,640 --> 00:05:40,560
Una buena gestión de eventos proporciona exactamente los

126
00:05:40,560 --> 00:05:42,960
datos que la gestión de problemas necesita para

127
00:05:42,960 --> 00:05:46,760
identificar causas raíz y tendencias problemáticas antes

128
00:05:46,760 --> 00:05:48,360
de que se conviertan en crisis.

129
00:05:48,360 --> 00:05:51,320
Por ejemplo, si ven consistentemente que cierto

130
00:05:51,320 --> 00:05:54,480
servidor genera eventos de advertencia cada martes a las 3

131
00:05:54,480 --> 00:05:58,480
pm, eso claramente sugiere un problema sistemático que vale

132
00:05:58,480 --> 00:06:00,640
la pena investigar proactivamente.

133
00:06:00,640 --> 00:06:03,960
En lugar de solo reaccionar a cada evento individual como si

134
00:06:03,960 --> 00:06:07,160
fuera independiente, pueden investigar la causa raíz

135
00:06:07,160 --> 00:06:11,080
común y prevenir futuros eventos relacionados.

136
00:06:11,080 --> 00:06:14,600
Estos datos históricos de eventos son literalmente oro

137
00:06:14,600 --> 00:06:17,600
puro para el análisis efectivo de problemas.

138
00:06:17,600 --> 00:06:20,760
Sin esta información, básicamente estás adivinando y

139
00:06:20,760 --> 00:06:22,520
reaccionando ciegamente.

140
00:06:22,520 --> 00:06:24,280
Y con la habilitación del cambio,

141
00:06:24,280 --> 00:06:27,960
los eventos pueden ayudarles tremendamente a entender el

142
00:06:27,960 --> 00:06:30,200
impacto real de los cambios.

143
00:06:30,200 --> 00:06:34,280
¿Ese despliegue del martes pasado causó eventos de error?

144
00:06:34,280 --> 00:06:36,040
Excelente punto, Alex.

145
00:06:36,040 --> 00:06:39,320
La herramienta de monitoreo y gestión de eventos debe ayudar

146
00:06:39,320 --> 00:06:42,160
a responder esa pregunta rápidamente,

147
00:06:42,160 --> 00:06:45,520
con datos concretos, en lugar de especulación o memoria

148
00:06:45,520 --> 00:06:46,440
imperfecta.

149
00:06:46,440 --> 00:06:49,720
Crucial para mejorar continuamente sus procesos de

150
00:06:49,720 --> 00:06:53,800
habilitación del cambio y así prevenir problemas similares en

151
00:06:53,800 --> 00:06:55,880
futuras implementaciones.

152
00:06:55,880 --> 00:06:59,200
Deben identificar específicamente qué tipos de

153
00:06:59,200 --> 00:07:03,200
cambios tienden a causar qué tipos de problemas y así ajustar

154
00:07:03,200 --> 00:07:06,960
sus procedimientos de pruebas, liberaciones y despliegues.

155
00:07:06,960 --> 00:07:11,000
ITIL 4 enfatiza en mejorar continuamente los flujos de

156
00:07:11,000 --> 00:07:14,680
valor, optimizando así la cadena de valor.

157
00:07:14,680 --> 00:07:18,720
Muy bien, ahora hablemos de errores comunes que, bueno,

158
00:07:18,720 --> 00:07:22,640
que veo una y otra vez en organizaciones de todo tipo y

159
00:07:22,640 --> 00:07:23,280
tamaño.

160
00:07:23,280 --> 00:07:27,600
Y créanme, aprender de los errores de otros siempre es más

161
00:07:27,600 --> 00:07:30,200
barato que cometer los propios.

162
00:07:30,200 --> 00:07:33,800
Primer error grande, sobrecarga masiva de alertas.

163
00:07:33,800 --> 00:07:37,680
Este es probablemente el error más común y más destructivo

164
00:07:37,680 --> 00:07:38,360
que veo.

165
00:07:38,360 --> 00:07:41,800
Las organizaciones configuran las alertas con el nivel más

166
00:07:41,800 --> 00:07:43,200
alto posible.

167
00:07:43,200 --> 00:07:45,440
Todo es crítico.

168
00:07:45,440 --> 00:07:46,360
Oh, sí.

169
00:07:46,360 --> 00:07:49,680
Uso del CPU, espacio en disco, tráfico de red,

170
00:07:49,680 --> 00:07:51,760
tiempos de respuesta de aplicaciones,

171
00:07:51,760 --> 00:07:53,400
temperatura del servidor.

172
00:07:53,400 --> 00:07:58,280
Literalmente, todo genera alertas marcadas como urgentes.

173
00:07:58,280 --> 00:08:01,520
El resultado predecible es la fatiga de alertas.

174
00:08:01,520 --> 00:08:04,480
La gente empieza a ignorar sistemáticamente las alertas

175
00:08:04,480 --> 00:08:06,680
porque simplemente hay demasiadas pitando

176
00:08:06,680 --> 00:08:08,560
constantemente.

177
00:08:08,560 --> 00:08:11,840
Es como trabajar en una fábrica donde todas las máquinas están

178
00:08:11,840 --> 00:08:14,720
haciendo ruido todo el tiempo.

179
00:08:14,720 --> 00:08:18,160
Eventualmente, tu cerebro simplemente deja de registrar el

180
00:08:18,160 --> 00:08:19,840
ruido como importante.

181
00:08:19,840 --> 00:08:23,160
Es exactamente como el cuento clásico del niño que gritaba

182
00:08:23,160 --> 00:08:24,960
lobo cuando todo es urgente.

183
00:08:24,960 --> 00:08:27,080
Efectivamente, nada es urgente.

184
00:08:27,080 --> 00:08:29,120
Muy cierto.

185
00:08:29,120 --> 00:08:33,360
Segundo error, falta completa de contexto útil.

186
00:08:33,360 --> 00:08:35,840
Eventos sin contexto apropiado.

187
00:08:35,840 --> 00:08:40,200
Son básicamente solo ruido digital que frustra a todo el

188
00:08:40,200 --> 00:08:42,880
mundo y no ayuda a nadie.

189
00:08:42,880 --> 00:08:44,280
Ruido digital.

190
00:08:44,280 --> 00:08:48,200
Una alerta que dice simplemente uso de CPU alto.

191
00:08:48,200 --> 00:08:51,600
No aporta información útil para tomar acción efectiva.

192
00:08:51,600 --> 00:08:54,400
Es información técnicamente correcta,

193
00:08:54,400 --> 00:08:56,320
pero prácticamente inútil.

194
00:08:56,320 --> 00:08:58,440
¿Cuál servidor específicamente?

195
00:08:58,440 --> 00:09:01,240
¿Qué aplicación o servicio está corriendo ahí?

196
00:09:01,240 --> 00:09:04,160
¿Cuál es el impacto real y potencial de negocio si esta

197
00:09:04,160 --> 00:09:05,680
condición continúa?

198
00:09:05,680 --> 00:09:07,760
¿Cuáles son los próximos pasos?

199
00:09:07,760 --> 00:09:11,000
Denles contexto rico y accionable a todos sus eventos.

200
00:09:11,000 --> 00:09:13,720
Incluyan información específica sobre dependencias,

201
00:09:13,720 --> 00:09:16,440
impacto medible de negocio y cuáles son los pasos de

202
00:09:16,440 --> 00:09:18,920
remediación basados en experiencia previa.

203
00:09:18,920 --> 00:09:21,160
Con contexto apropiado y completo,

204
00:09:21,160 --> 00:09:23,520
un técnico puede empezar a resolver el problema

205
00:09:23,520 --> 00:09:26,360
inmediatamente en lugar de perder tiempo valioso

206
00:09:26,360 --> 00:09:29,480
investigando información básica que debería estar disponible

207
00:09:29,480 --> 00:09:31,200
automáticamente.

208
00:09:31,200 --> 00:09:32,880
Vayamos a otro error común,

209
00:09:32,880 --> 00:09:35,720
falta total de correlación inteligente.

210
00:09:35,720 --> 00:09:37,600
Cuando un componente crítico falla,

211
00:09:37,600 --> 00:09:40,840
puede causar efectos en cascada y generar un volumen alto de

212
00:09:40,840 --> 00:09:44,560
alertas que aparentemente están relacionadas.

213
00:09:44,560 --> 00:09:47,880
Si no se correlacionan estos eventos automáticamente,

214
00:09:47,880 --> 00:09:51,120
se van a inundar con alertas sobre síntomas secundarios en

215
00:09:51,120 --> 00:09:54,600
lugar de enfocarse en la causa raíz del problema.

216
00:09:54,600 --> 00:09:57,480
He visto equipos de operaciones pasar horas persiguiendo

217
00:09:57,480 --> 00:10:00,680
síntomas individuales porque no tenían una correlación

218
00:10:00,680 --> 00:10:03,560
apropiada de eventos debidamente implementada.

219
00:10:03,560 --> 00:10:07,040
Cinco técnicos trabajando simultáneamente en cinco alertas

220
00:10:07,040 --> 00:10:10,800
aparentemente diferentes que en realidad son todas causadas por

221
00:10:10,800 --> 00:10:13,680
exactamente el mismo problema.

222
00:10:13,680 --> 00:10:17,160
Es un desperdicio total de recursos humanos.

223
00:10:17,160 --> 00:10:20,320
La correlación inteligente les permite identificar y atacar

224
00:10:20,320 --> 00:10:22,000
directamente la causa raíz,

225
00:10:22,000 --> 00:10:25,120
resolviendo automáticamente múltiples síntomas que están

226
00:10:25,120 --> 00:10:27,080
relacionados.

227
00:10:27,080 --> 00:10:30,480
Alex, ¿dirías que otro error común es no actualizar las

228
00:10:30,480 --> 00:10:31,520
configuraciones?

229
00:10:31,520 --> 00:10:32,760
Por supuesto.

230
00:10:32,760 --> 00:10:36,200
La mentalidad de configurar y olvidar para siempre.

231
00:10:36,200 --> 00:10:40,160
El monitoreo efectivo definitivamente no es algo de

232
00:10:40,160 --> 00:10:43,040
configúralo una vez y nunca lo toques de nuevo.

233
00:10:43,040 --> 00:10:45,520
La infraestructura cambia constantemente.

234
00:10:45,520 --> 00:10:48,440
Las aplicaciones evolucionan, las prioridades de negocio

235
00:10:48,440 --> 00:10:51,400
cambian, los usuarios tienen nuevas expectativas.

236
00:10:51,400 --> 00:10:54,400
El monitoreo y la gestión de eventos necesitan evolucionar

237
00:10:54,400 --> 00:10:56,600
para adaptarse a estos cambios.

238
00:10:56,600 --> 00:10:59,360
De hecho, recomiendo que revisen detalladamente su

239
00:10:59,360 --> 00:11:02,920
configuración de monitoreo, al menos trimestralmente,

240
00:11:02,920 --> 00:11:05,560
y más frecuentemente si están en una fase de crecimiento

241
00:11:05,560 --> 00:11:07,920
rápido o cambio organizacional.

242
00:11:07,920 --> 00:11:10,840
Lo que era crítico hace seis meses podría no ser tan

243
00:11:10,840 --> 00:11:12,000
importante hoy.

244
00:11:12,000 --> 00:11:15,200
Y muy probablemente existen nuevos servicios críticos que

245
00:11:15,200 --> 00:11:16,840
no se están monitoreando.

246
00:11:16,840 --> 00:11:20,080
Julián, ¿hacia dónde se dirige todo esto?

247
00:11:20,080 --> 00:11:23,160
Estamos viendo tendencias fascinantes en la gestión de

248
00:11:23,160 --> 00:11:23,840
eventos.

249
00:11:23,840 --> 00:11:26,320
La inteligencia artificial, machine learning.

250
00:11:26,320 --> 00:11:30,400
Tecnologías que pueden ayudar con reconocimiento de patrones,

251
00:11:30,400 --> 00:11:34,760
detección de anomalías y análisis predictivo automático.

252
00:11:34,760 --> 00:11:38,400
En lugar de solo reaccionar a eventos después de que ocurren,

253
00:11:38,400 --> 00:11:42,160
podemos empezar a predecirlos antes de que causen problemas.

254
00:11:42,160 --> 00:11:44,600
Por ejemplo, algoritmos de machine learning pueden

255
00:11:44,600 --> 00:11:48,240
analizar datos históricos y predecir cuándo es probable

256
00:11:48,240 --> 00:11:51,960
que un disco se llene o cuándo un servicio puede no estar

257
00:11:51,960 --> 00:11:55,360
disponible, analizando sus patrones de carga y rendimiento

258
00:11:55,360 --> 00:11:56,200
históricos.

259
00:11:56,200 --> 00:12:00,360
Segunda tendencia, observabilidad versus monitoreo.

260
00:12:00,360 --> 00:12:03,120
Un cambio del monitoreo tradicional hacia la

261
00:12:03,120 --> 00:12:04,280
observabilidad.

262
00:12:04,280 --> 00:12:07,320
Son conceptos relacionados, pero diferentes.

263
00:12:07,320 --> 00:12:10,680
El monitoreo tradicional les dice que algo está mal,

264
00:12:10,680 --> 00:12:12,800
como una luz roja en el tablero del carro.

265
00:12:12,800 --> 00:12:17,120
Pero la observabilidad les ayuda a entender por qué está mal.

266
00:12:17,120 --> 00:12:20,240
Como tener acceso completo al motor para diagnosticar el

267
00:12:20,240 --> 00:12:21,600
problema exacto.

268
00:12:21,600 --> 00:12:26,160
Es como tener visibilidad profunda en el estado interno

269
00:12:26,160 --> 00:12:29,720
de los sistemas, basado en todos los datos que producen.

270
00:12:29,720 --> 00:12:34,280
Logs, métricas, rastros y eventos trabajando juntos para

271
00:12:34,280 --> 00:12:39,000
darles una imagen completa y procesable de qué está pasando.

272
00:12:39,000 --> 00:12:42,600
Tercera tendencia, AIOps, inteligencia artificial para

273
00:12:42,600 --> 00:12:43,800
operaciones de TI.

274
00:12:43,800 --> 00:12:47,760
Esto está pasando de ciencia ficción a realidad práctica.

275
00:12:47,760 --> 00:12:51,080
Estas plataformas pueden automáticamente correlacionar

276
00:12:51,080 --> 00:12:53,960
eventos a través de múltiples herramientas,

277
00:12:53,960 --> 00:12:56,800
reducir ruido y sugerir acciones.

278
00:12:56,800 --> 00:12:59,400
Algunas pueden incluso implementar remediación

279
00:12:59,400 --> 00:13:01,720
automática para problemas conocidos,

280
00:13:01,720 --> 00:13:04,720
resolviendo problemas antes de que alguien nos note.

281
00:13:04,720 --> 00:13:09,000
Imagínense un sistema que aprende de cada incidente y se

282
00:13:09,000 --> 00:13:12,600
vuelve mejor en predecir y prevenir problemas similares.

283
00:13:12,600 --> 00:13:16,200
Pero recuerden, la tecnología es solo un habilitador.

284
00:13:16,200 --> 00:13:19,360
Todavía necesitan buenos procesos y personas que

285
00:13:19,360 --> 00:13:21,400
entiendan el contexto de negocio.

286
00:13:21,400 --> 00:13:24,720
Vamos a compartir un caso de estudio rápido para ilustrar

287
00:13:24,720 --> 00:13:26,120
estos conceptos.

288
00:13:26,120 --> 00:13:29,320
Julian y yo trabajamos con una empresa de comercio

289
00:13:29,320 --> 00:13:32,720
electrónico que tenía interrupciones frecuentes.

290
00:13:32,720 --> 00:13:35,560
Tenían monitoreo básico, pero era, bueno,

291
00:13:35,560 --> 00:13:36,880
bastante primitivo.

292
00:13:36,880 --> 00:13:39,520
Solo métricas básicas de servidor sin contexto de

293
00:13:39,520 --> 00:13:40,280
negocio.

294
00:13:40,280 --> 00:13:43,640
Implementamos un sistema completo de monitoreo que

295
00:13:43,640 --> 00:13:47,560
rastrea cada transacción del usuario desde que entra hasta

296
00:13:47,560 --> 00:13:48,960
que completa su compra.

297
00:13:48,960 --> 00:13:52,560
Dejamos de enfocarnos solo en la parte técnica y empezamos a

298
00:13:52,560 --> 00:13:54,720
monitorear lo que realmente importa,

299
00:13:54,720 --> 00:13:58,320
que los usuarios pudieran comprar exitosamente.

300
00:13:58,320 --> 00:14:00,360
El impacto fue tremendo.

301
00:14:00,360 --> 00:14:03,640
Redujimos el tiempo de detección de problemas de 20

302
00:14:03,640 --> 00:14:08,560
minutos a menos de 2 minutos y eso se reflejó directamente en

303
00:14:08,560 --> 00:14:12,000
clientes más contentos y menos quejas.

304
00:14:12,000 --> 00:14:14,240
¿Qué te parece si hablamos de la empresa de servicios

305
00:14:14,240 --> 00:14:17,320
financieros con requerimientos estrictos de cumplimiento?

306
00:14:17,320 --> 00:14:19,360
Necesitaban monitorear rendimiento,

307
00:14:19,360 --> 00:14:21,040
seguridad y cumplimiento.

308
00:14:21,040 --> 00:14:22,280
Buen ejemplo.

309
00:14:22,280 --> 00:14:25,840
Implementamos una plataforma unificada que correlacionaba

310
00:14:25,840 --> 00:14:29,920
eventos de seguridad con eventos de rendimiento y con eventos de

311
00:14:29,920 --> 00:14:30,520
negocio.

312
00:14:30,520 --> 00:14:33,520
Esto les dio una imagen completa de lo que estaba pasando en su

313
00:14:33,520 --> 00:14:35,960
entorno en lugar de tener datos fragmentados.

314
00:14:35,960 --> 00:14:39,680
El gran avance vino cuando nos dimos cuenta de que ciertas

315
00:14:39,680 --> 00:14:43,200
anomalías de rendimiento eran indicadores tempranos de

316
00:14:43,200 --> 00:14:44,480
problemas de seguridad.

317
00:14:44,480 --> 00:14:48,000
Al correlacionar estos eventos aparentemente no relacionados,

318
00:14:48,000 --> 00:14:51,240
pudieron detectar y responder a amenazas mucho más rápido que

319
00:14:51,240 --> 00:14:51,880
antes.

320
00:14:51,880 --> 00:14:55,800
Julián, seguro que nuestros oyentes se están preguntando,

321
00:14:55,800 --> 00:14:57,760
¿por dónde comenzamos?

322
00:14:57,760 --> 00:15:02,000
El primer paso es evaluar honestamente su estado actual.

323
00:15:02,000 --> 00:15:03,520
¿Qué están monitoreando hoy?

324
00:15:03,520 --> 00:15:05,320
¿Cuántas alertas reciben por día?

325
00:15:05,320 --> 00:15:08,040
¿Cuántas de esas son realmente procesables y útiles?

326
00:15:08,040 --> 00:15:10,840
¿Cuál es su tiempo medio para detectar problemas?

327
00:15:10,840 --> 00:15:13,280
¿Cuál es su tiempo medio para resolver?

328
00:15:13,280 --> 00:15:15,360
Estos números les dirán mucho.

329
00:15:15,360 --> 00:15:18,600
Documenten todo y digo todo.

330
00:15:18,600 --> 00:15:21,040
No pueden mejorar lo que no miden con precisión.

331
00:15:21,040 --> 00:15:24,520
Esta evaluación honesta es la base para cualquier mejora

332
00:15:24,520 --> 00:15:25,320
futura.

333
00:15:25,320 --> 00:15:28,720
Sin ella, están construyendo sobre arena.

334
00:15:28,720 --> 00:15:29,600
¿Segundo paso?

335
00:15:29,600 --> 00:15:33,000
Trabajen con sus stakeholders de negocio para identificar qué

336
00:15:33,000 --> 00:15:36,320
servicios son verdaderamente críticos para la organización.

337
00:15:36,320 --> 00:15:37,720
No todo es prioridad uno.

338
00:15:37,720 --> 00:15:41,000
A pesar de lo que todos les van a decir cuando les pregunten,

339
00:15:41,000 --> 00:15:44,360
enfoquen sus esfuerzos iniciales en los servicios que tienen el

340
00:15:44,360 --> 00:15:47,200
mayor impacto de negocio real y medible.

341
00:15:47,200 --> 00:15:50,800
Pregunten, si este servicio se cae por una hora,

342
00:15:50,800 --> 00:15:54,520
¿cuál es el impacto en ingresos, productividad o satisfacción

343
00:15:54,520 --> 00:15:55,360
del cliente?

344
00:15:55,360 --> 00:15:59,320
Las respuestas a esas preguntas les ayudarán a priorizar dónde

345
00:15:59,320 --> 00:16:01,840
invertir su tiempo y recursos limitados.

346
00:16:01,840 --> 00:16:03,200
Tercer paso.

347
00:16:03,200 --> 00:16:06,240
No traten de hervir el océano de una vez.

348
00:16:06,240 --> 00:16:10,720
Escojan un servicio crítico y hagan monitoreo integral para

349
00:16:10,720 --> 00:16:11,640
él primero.

350
00:16:11,640 --> 00:16:13,400
Aprendan de esa experiencia.

351
00:16:13,400 --> 00:16:14,360
¿Qué funciona?

352
00:16:14,360 --> 00:16:15,480
¿Qué no funciona?

353
00:16:15,480 --> 00:16:17,360
¿Qué ajustes necesitan hacer?

354
00:16:17,360 --> 00:16:19,920
Entonces, expándanse gradualmente.

355
00:16:19,920 --> 00:16:23,120
Pero mientras empiezan pequeño, asegúrense de que su

356
00:16:23,120 --> 00:16:27,040
arquitectura y procesos puedan escalar cuando estén listos.

357
00:16:27,040 --> 00:16:29,840
No quieren tener que reconstruir todo desde cero cuando

358
00:16:29,840 --> 00:16:32,000
decidan expandirse a otros servicios.

359
00:16:32,000 --> 00:16:35,440
Piensen en esto como construir un piloto que pueden replicar y

360
00:16:35,440 --> 00:16:38,800
escalar, no como un experimento aislado.

361
00:16:38,800 --> 00:16:41,920
El cuarto paso es definitivamente crucial.

362
00:16:41,920 --> 00:16:45,800
Inviertan significativamente en capacitación continua para

363
00:16:45,800 --> 00:16:47,400
todo su equipo.

364
00:16:47,400 --> 00:16:49,960
Sus herramientas más sofisticadas son solo tan

365
00:16:49,960 --> 00:16:52,800
buenas como las personas que las usan día a día.

366
00:16:52,800 --> 00:16:56,480
Asegúrense de que su equipo entienda no solo cómo usar las

367
00:16:56,480 --> 00:17:00,120
herramientas técnicamente, sino cómo la gestión de eventos

368
00:17:00,120 --> 00:17:04,000
encaja estratégicamente en su organización.

369
00:17:04,000 --> 00:17:06,520
Implementar la gestión de eventos no trata de una

370
00:17:06,520 --> 00:17:08,880
iniciativa puramente técnica.

371
00:17:08,880 --> 00:17:12,360
Necesitan el apoyo genuino de los stakeholders,

372
00:17:12,360 --> 00:17:16,440
procesos claros y documentados y una gobernanza organizacional

373
00:17:16,440 --> 00:17:17,360
sólida.

374
00:17:17,360 --> 00:17:21,440
También necesitan cambiar la cultura organizacional para que

375
00:17:21,440 --> 00:17:25,200
la gente vea el monitoreo como una herramienta valiosa para

376
00:17:25,200 --> 00:17:29,280
mejorar el servicio, no como vigilancia punitiva o

377
00:17:29,280 --> 00:17:30,600
micromanejo.

378
00:17:30,600 --> 00:17:34,600
Los equipos que realmente entienden el por qué estratégico

379
00:17:34,600 --> 00:17:38,040
detrás del monitoreo son mucho más efectivos que los equipos

380
00:17:38,040 --> 00:17:40,720
que solo conocen el cómo técnico.

381
00:17:40,720 --> 00:17:44,640
Julián, ¿te parece que resumamos los puntos clave?

382
00:17:44,640 --> 00:17:48,160
Primero, no todos los eventos son iguales.

383
00:17:48,160 --> 00:17:52,520
Implementen filtrado inteligente y categorización apropiada para

384
00:17:52,520 --> 00:17:55,880
enfocarse en lo que realmente importa.

385
00:17:55,880 --> 00:17:59,800
Segundo, la automatización es definitivamente su amiga y

386
00:17:59,800 --> 00:18:00,640
aliada.

387
00:18:00,640 --> 00:18:04,680
Pero no automaticen ciegamente sin entender.

388
00:18:04,680 --> 00:18:07,360
Asegúrense de entender completamente qué están

389
00:18:07,360 --> 00:18:11,000
automatizando, por qué lo están automatizando y qué podría

390
00:18:11,000 --> 00:18:12,080
salir mal.

391
00:18:12,080 --> 00:18:16,120
Tercero, la integración es crucial para el éxito.

392
00:18:16,120 --> 00:18:20,640
La gestión de eventos funciona significativamente mejor cuando

393
00:18:20,640 --> 00:18:24,320
está realmente integrada con otros procesos de la gestión de

394
00:18:24,320 --> 00:18:25,200
servicios.

395
00:18:25,200 --> 00:18:29,280
Y finalmente, esto es un viaje organizacional continuo.

396
00:18:29,280 --> 00:18:31,480
No solo un destino técnico.

397
00:18:31,480 --> 00:18:35,600
Sus capacidades necesitan evolucionar activamente conforme

398
00:18:35,600 --> 00:18:38,520
evoluciona el negocio y sus necesidades.

399
00:18:38,520 --> 00:18:42,560
Mantengan sus ojos bien abiertos a las oportunidades.

400
00:18:42,560 --> 00:18:46,240
Manténganse genuinamente curiosos sobre nuevas

401
00:18:46,240 --> 00:18:47,520
posibilidades.

402
00:18:47,520 --> 00:18:51,960
Y recuerden que una buena gestión de eventos trata

403
00:18:51,960 --> 00:18:57,000
fundamentalmente de entregar servicios de calidad y que

404
00:18:57,000 --> 00:18:58,440
proporcionen valor.

405
00:18:58,440 --> 00:18:59,600
[RISA]

406
00:18:59,600 --> 00:19:00,680
Muy bien.

407
00:19:00,680 --> 00:19:04,440
Así concluimos este episodio de ITIL 4 sin filtros.

408
00:19:04,440 --> 00:19:07,400
Esperamos que les sea útil para planificar e implementar

409
00:19:07,400 --> 00:19:10,720
monitoreo y gestión de eventos en su entorno de trabajo.

410
00:19:10,720 --> 00:19:14,000
Recuerden siempre que cada organización es diferente y

411
00:19:14,000 --> 00:19:14,840
única.

412
00:19:14,840 --> 00:19:19,120
Así que adapten inteligentemente estos conceptos generales,

413
00:19:19,120 --> 00:19:23,560
teniendo siempre presentes las necesidades de su organización.

414
00:19:23,560 --> 00:19:25,400
Hasta la próxima vez, soy Alex.

415
00:19:25,400 --> 00:19:26,760
Y yo soy Julián.

416
00:19:26,760 --> 00:19:30,440
Y leven consistentemente su estrategia de ITSM.

417
00:19:30,440 --> 00:19:33,200
Manténganse monitoreando inteligentemente.

418
00:19:33,200 --> 00:19:35,240
Y hasta la próxima.

419
00:19:35,240 --> 00:19:38,580
[MÚSICA]