<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>ITIL-es &#187; gestion de problemas</title>
	<atom:link href="http://itil-es.es/tag/gestion-de-problemas/feed/" rel="self" type="application/rss+xml" />
	<link>http://itil-es.es</link>
	<description>ITIL a la Española, tecnología, servicios IT, seguridad, y cualquier cosa que me llame la atención</description>
	<lastBuildDate>Wed, 28 Apr 2010 15:15:43 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>La detección de problemas es asunto de todos</title>
		<link>http://itil-es.es/2010/04/28/la-deteccion-de-problemas-es-asunto-de-todos/</link>
		<comments>http://itil-es.es/2010/04/28/la-deteccion-de-problemas-es-asunto-de-todos/#comments</comments>
		<pubDate>Wed, 28 Apr 2010 15:15:43 +0000</pubDate>
		<dc:creator>jbanez</dc:creator>
				<category><![CDATA[Sin categoría]]></category>
		<category><![CDATA[gestion de problemas]]></category>
		<category><![CDATA[idealismo]]></category>
		<category><![CDATA[itil]]></category>

		<guid isPermaLink="false">http://itil-es.es/?p=199</guid>
		<description><![CDATA[Hace unas semanas preparaba la presentación del proyecto de adopción de la Gestión de Problemas para nuestro cliente; una de las diapositivas hacía referencia a quién podía registrar un problema y cuándo debía hacerse; inicialmente, pensaba incluir los típicos actores, los técnicos del SAU, los de Sistemas, los técnicos de cualquier equipo, desarrolladores&#8230; luego pensé [...]]]></description>
			<content:encoded><![CDATA[<p>Hace unas semanas preparaba la presentación del proyecto de adopción de la Gestión de Problemas para nuestro cliente; una de las diapositivas hacía referencia a quién podía registrar un problema y cuándo debía hacerse; inicialmente, pensaba incluir los típicos actores, los técnicos del SAU, los de Sistemas, los técnicos de cualquier equipo, desarrolladores&#8230; luego pensé que era más conveniente ampliar la lista e incluir a los usuarios. Hasta que al final pensé que no era adecuado hacer una lista de autorizados para la detección de problemas, sino transmitir la necesidad de que cada persona relacionada con la organización debe implicarse en la detección de problemas. </p>
<p>Un departamento de sistemas puede tener un equipo dedicado a la investigación y resolución de problemas (¡bienaventurados aquellos con el presupuesto para tenerlo!), y no es exigible al resto de empleados la resolución de los problemas. Pero la detección sí: cabe esperar de cualquier técnico o usuario que vea un posible problema, un agujero, un fallo, lo que sea, que de inmediato aviso de tal fallo.</p>
<p>Un &#8220;no es mi trabajo&#8221; no es aceptable: los que saben arreglar cosas, deben arreglarlas; los que no saben, deben avisar a alguien que sepa. Y después hacer un seguimiento formal mediante Gestión de Problemas de cada uno de estos problemas para que ninguno se pierda.</p>
<p>Finalmente, concluí la diapositiva con un sucinto &#8220;Todos los implicados con los servicios TI deben involucrarse en la detección de problemas proactivamente y debe premiarse el esfuerzo en la detección y la resolución de problemas&#8221;.</p>
<p>Sobre el cuándo debe abrirse un problema, fui incluso más sucinto, y sólo incluí: &#8220;siempre que sea necesario, útil y que aporte valor&#8221;.</p>
<p>El caso es que aún no sé si la presentación fue del gusto del cliente o no. Quizás debería ser menos idealista y ceñirme al estándar español de generar problemas sólo cuando ITIL dice que es imprescindible&#8230;</p>
]]></content:encoded>
			<wfw:commentRss>http://itil-es.es/2010/04/28/la-deteccion-de-problemas-es-asunto-de-todos/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Gestión de problemas: hila fino en los detonadores y descubre a tu mayor enemigo</title>
		<link>http://itil-es.es/2010/03/15/gestion-de-problemas-detonadores/</link>
		<comments>http://itil-es.es/2010/03/15/gestion-de-problemas-detonadores/#comments</comments>
		<pubDate>Mon, 15 Mar 2010 07:00:16 +0000</pubDate>
		<dc:creator>jbanez</dc:creator>
				<category><![CDATA[Sin categoría]]></category>
		<category><![CDATA[analisis de causa raiz]]></category>
		<category><![CDATA[detonadores]]></category>
		<category><![CDATA[gestion de problemas]]></category>
		<category><![CDATA[mejora continua]]></category>
		<category><![CDATA[rca]]></category>
		<category><![CDATA[root cause analysis]]></category>

		<guid isPermaLink="false">http://itil-es.es/?p=182</guid>
		<description><![CDATA[A la hora de establecer el proceso de Gestión de Problemas en una organización merece la pena dedicar cierto esfuerzo a definir los detonadores que se considerarán para la creación de registros de problemas.
El detonador es aquello que ha provocado que se desencadene el problema, lo que hace que aflore; tener una colección de detonadores [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://itil-es.es/wp-content/uploads/2010/03/usb-bomb.jpg"><img class="alignleft size-medium wp-image-191" title="usb-bomb" src="http://itil-es.es/wp-content/uploads/2010/03/usb-bomb-300x230.jpg" alt="" width="300" height="230" /></a>A la hora de establecer el proceso de Gestión de Problemas en una organización merece la pena dedicar cierto esfuerzo a definir los detonadores que se considerarán para la creación de registros de problemas.</p>
<p>El detonador es aquello que ha provocado que se desencadene el problema, lo que hace que aflore; tener una colección de detonadores bien tipificados y que elegir un detonador sea obligatorio en cada registro de problema gestionado, ayuda a:</p>
<ul>
<li>Identificar cuál es el factor que más frecuentemente desencadena problemas</li>
<li>Tener una visión numérica de los factores de riesgo que amenazan nuestros servicios</li>
<li>Detectar las malas prácticas que pueden ocasionar problemas</li>
<li>Y hacer algo útil con todo esa información después&#8230;</li>
</ul>
<p><span id="more-182"></span></p>
<p>&#8220;Detonador&#8221; no tiene nada que ver con causa raíz; el detonador va a hacer explotar un problema , va a hacer que se manifieste y que aflore; la causa raíz es el error o circunstancia que hace que, al darse ese detonador, el problema se dispare. Es decir, al final, la meta ha de ser erradicar la causa raíz: es lo que realmente evitará la recurrencia del problema; pero el control de los detonadores es importante y como parte del plan de acción que se diseña para solucionar un problema se deben incluir acciones encaminadas al control de los detonadores.</p>
<p>Ejemplos de detonadores que se me ocurren: uso válido. Es el más frecuente y, en realidad, el que más nos debe preocupar si aparece demasiado a menudo. Un ejemplo: que se te llene el disco de sistema porque una aplicación ha agotado el espacio disponible con los logs generados no es un fallo de aplicación, sino que es su comportamiento normal.</p>
<p>El problema que te ha generado es que se ha agotado el espacio en disco; posiblemente esa aplicación se ha detenido, y tambien es probable que todo el sistema que aloja dicha aplicación se detenga. Te has quedado sin servicio.</p>
<p>La causa raíz no es &#8220;los logs de la aplicación han agotado todo el espacio en disco&#8221;; la aplicación genera logs cuando funciona normalmente. Fue diseñada así. Es correcto. Y ese funcionamiento correcto según la norma ha sido el detonador. ¿Cuál sería la causa raíz? Que ese funcionamiento normal no se tuvo en cuenta en la fase de diseño; no se consideraron adecuadamente los requerimientos del servicio, en este caso de espacio en disco para logs, o no se aplicó una política de rotación de logs correcta o la que se aplicó se dimensionó incorrectamente. La raíz de causapodría caer en una categoría como  &#8221;Diseño / fallo de capacidad&#8221;, si el problema fue que el volumen de datos de registros fue inesperado, o en el caso de que la política de rotación de logs fuera inadecuada o no se aplicara, algo como &#8220;Política inadecuada&#8221;, en el sentido de que las políticas para la adopción de servicios quizás no estén correctamente definidas para entregar al negocio servicios resistentes a los detonadores (pero esto,  las clasificaciones de causa raíz, lo hablamos otro día).</p>
<p>Otros posibles detonadores que podrían incluirse:</p>
<ul>
<li>Fallo de un componente: fácil, el servidor se rompió, el switch se quedó lelo&#8230; un componente del servicio, simplemente, falló.</li>
<li>Fallo de infrastructura: como podrían ser problemas de alimentación eléctrica en el CPD (o que se te inunde, o que se incendie&#8230;)</li>
<li>Error humano: este es otro que aparece frecuentemente; un error de operación te la puede liar, y gorda.</li>
<li>Terceros (y aquí cabrían muchas subclasificaciones): bugs de software desarrollado por otros, fallos en comunicaciones, tu ISP&#8230;</li>
<li>Acto deliberado: que un <a href="http://www.youtube.com/watch?v=bSEc-HHTgJg">empleado cabreado te rompa algo</a> es algo que puede pasar&#8230; y un atentado terrorista tambien</li>
</ul>
<p><strong>Cuando ya los tengo clasificados&#8230; ¿qué hago?</strong></p>
<p>Cuando tras un periodo gestionando problemas tienes una muestra significativa de problemas analizados y resueltos, estudia la distribución porcentual de detonadores y elabora planes de acción para acotar su impacto actual y futuro; la gestión de problemas no sólo sirve para reducir el número de incidencias sino también el número de fallos de la plataforma tecnológica, y aquí incluyo todo lo que tenga que ver con el departamento TI: hardware, software y gente. A saber:</p>
<ul>
<li>Si tu detonador principal es &#8220;Uso válido&#8221;: revisa a fondo tus procesos de diseño y cambio, porque se están entregando al negocio servicios poco fiables, mal diseñados, mal dimensionados&#8230;</li>
<li>Si es fallo de componente: revisa la disponibilidad de tus servicios y la capacidad de tu plataforma;  si tus componentes críticos no están redundados, sientate con la dirección y analiza si el negocio lo necesita; puedes <a href="http://itil-es.es/2010/01/20/cfia-o-de-como-meter-el-pie-en-gestion-del-a-disponibilidad-y-la-continuidad-sin-despeinarse/">usar esto</a> para empezar el análisis</li>
<li>Si el error humano encabeza la lista: forma al personal, mejora tus procedimientos  e instrucciones de trabajo, introduce el uso de checklists para las tareas rutinarias, e idealmente, automatizalas.</li>
</ul>
<p>Y así con todos; y tambien sería importante delegar en los procesos de Mejora Contínua el perfilar esta lista de detonadores hasta ajustarla a las necesidades del servicio prestado. Cada organización va a necesitar considerar una colección de detonadores que represente de forma fidedigna qué hace estallar un problema en su negocio; por ejemplo, para un proveedor ISP móvil puede ser interesante incluir &#8220;Meteorología&#8221; como detonador mientras que a un proveedor web no le sirve de nada incluir tal categoría.</p>
<p>Pero así es todo; al fin y al cabo, ITIL no es un modelo pret-a-porter, sino una guía de estilo; no te vende el traje hecho, pero sí te deja bien claro que no combines nunca negro con azul.</p>
]]></content:encoded>
			<wfw:commentRss>http://itil-es.es/2010/03/15/gestion-de-problemas-detonadores/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>CFIA o de cómo meter el pie en Gestión del a Disponibilidad y la Continuidad sin despeinarse</title>
		<link>http://itil-es.es/2010/01/20/cfia-o-de-como-meter-el-pie-en-gestion-del-a-disponibilidad-y-la-continuidad-sin-despeinarse/</link>
		<comments>http://itil-es.es/2010/01/20/cfia-o-de-como-meter-el-pie-en-gestion-del-a-disponibilidad-y-la-continuidad-sin-despeinarse/#comments</comments>
		<pubDate>Wed, 20 Jan 2010 08:41:52 +0000</pubDate>
		<dc:creator>jbanez</dc:creator>
				<category><![CDATA[Sin categoría]]></category>
		<category><![CDATA[CFIA]]></category>
		<category><![CDATA[gestion de incidencias]]></category>
		<category><![CDATA[gestión de la continuidad]]></category>
		<category><![CDATA[gestion de la disponibilidad]]></category>
		<category><![CDATA[gestion de problemas]]></category>
		<category><![CDATA[herramientas]]></category>
		<category><![CDATA[itil]]></category>
		<category><![CDATA[utilidades]]></category>

		<guid isPermaLink="false">http://metodico.wordpress.com/?p=77</guid>
		<description><![CDATA[A primera vista, es fácil ver que el Análisis de Impacto de Fallo de Componente (sus siglas en inglés son CFIA: Component Failure Impact Analysis) está relacionada de algún modo con los procesos de Gestión de Problemas y de Disponibilidad, pero sigue siendo un concepto algo difuso para la mayoría. Aunque CFIA suena guay y [...]]]></description>
			<content:encoded><![CDATA[<div><a href="http://itil-es.es/wp-content/uploads/2010/01/Asteroid-impact-on-Earth.jpg"><img class="alignleft size-medium wp-image-148" title="Asteroid-impact-on-Earth" src="http://itil-es.es/wp-content/uploads/2010/01/Asteroid-impact-on-Earth-300x203.jpg" alt="" width="300" height="203" /></a>A primera vista, es fácil ver que el Análisis de Impacto de Fallo de Componente (sus siglas en inglés son CFIA: Component Failure Impact Analysis) está relacionada de algún modo con los procesos de Gestión de Problemas y de Disponibilidad, pero sigue siendo un concepto algo difuso para la mayoría. Aunque CFIA suena guay y suena grande, es simplemente una forma de evaluar (y predecir) el impacto de fallos y caídas, y tambien ayuda a la localización de puntos únicos de fallo. Y todo lo que hace falta para hacer ese análisis es una hoja de Excel (<a id="wox2" title="o algo aún mejor..." href="http://docs.google.com/" target="_blank">o algo aún mejor&#8230;</a>). Nada de <a id="cx93" title="sumar" href="http://itil-es.es/2009/12/21/implantar-itil-va-de-implantar-procesos-no-de-implantar-mas-herramientas-de-gestion/">sumar</a> al pack de <a id="sl93" title="herramientas de gestión" href="http://itil-es.es/2010/01/12/hay-que-elegir-una-herramienta-de-gestion-para-implantar-itil/">herramientas de gestión</a> otra aplicación carísima.</div>
<div>
<p>El CFIA permite:</p>
</div>
<ul>
<li>Identificar items de configuración (CI) que pueden provocar un corte de servicio</li>
<li>Localizar CIs que no están redundados o que por lo menos no tienen un backup</li>
<li>Evaluar el riesgo de fallo de cada CI</li>
<li>Justificar la demanda de inversiones</li>
<li>Colabora en la creación y <strong>mantenimiento de la CMDB</strong>.</li>
</ul>
<p><span id="more-77"></span></p>
<p>Los 3 pasos clave para realizar el CFIA con éxito serían:</p>
<div>1. Seleccionar un servicio TI, obtener la lista de CIs que lo conforman; si tenemos la suerte de tener Gestión de la Configuración, lo obtendremos de ahí, si no&#8230; toca recopilar la documentación que tenga el departamento de sistemas y sonsacarle lo que podamos a los administradores: tirar de inventarios, de documentos, de manuales de explotación y de lo que se tenga a mano. O sea, lo de siempre.</div>
<div>
<div>2. En una hoja de Excel (o en un folio, o en cualquier papel), listar en la primera fila los servicios que estemos considerando y en una columna los CI que los componen; después, para cada CI bajo cada servicio:</div>
<div>
<ul>
<li>Marca una &#8220;X&#8221; si un fallo del CI provoca una parada de servicio</li>
<li>Marca una &#8220;A&#8221; si el CI tiene backup inmediato (el backup entra en acción inmediatamente tras un fallo del CI)</li>
<li>Marca una &#8220;B&#8221; si el CI tiene backup intermedio (requiere una intervención para activar el backup y supone un corte en el servicio, aunque sea breve).</li>
</ul>
</div>
<div>
<p>    Con esto, se consigue una matriz básica de CFIA. Cada &#8220;X&#8221; y cada &#8220;B&#8221; representa una vulnerabilidad potencial, y el último paso, será generar una petición de cambio (RfC) para erradicarlas:</p>
</div>
<div>3. Evaluamos las &#8220;X&#8221; y las &#8220;B&#8221; de la matriz; las podemos analizar con preguntas del tipo</div>
</div>
<ul>
<li>Es este CI un punto único de fallo?</li>
<li>Qué impacto tiene para el cliente/para el negocio el fallo de este CI? A cuántos usuarios afectará? Cuál será el coste para el negocio?</li>
<li>Cuál es la probabilidad de fallo? Qué puede cambiarse para evitar ese impacto?</li>
<li>Podría prevenirse ese impacto realizando algún cambio de diseño? Sería conveniente dotar ese CI de redundancia o hacerlo más robusto? Y en tal caso, cuánto costaría?</li>
</ul>
<p>Realmente, es un método sencillo y muy resultón para empujar al departamento de TI a meter el pie en Gestión de la Disponibilidad, que no es uno de los procesos más populares ahora mismo; de paso, lo que me pregunto es si podría expandirse la matriz para incluir los procedimientos o instrucciones de trabajo de recuperación de fallo de esos CI, quizás añadiendolo como una fila en la parte inferior de la matriz CFIA, aunque esto requiere primero que el departamento de TI sea lo suficientemente maduro como para tener todo eso por escrito (voy a dar por hecho que sí; en caso contrario, no tiene ningún sentido plantearse ni CFIA ni disponibilidades sin tener lo más básico listo: algo de documentación).</p>
<p>Añadir la documentación a la matriz CFIA podría usarse para evaluar tanto la organización como la infrastructura, analizandolo con preguntas tipo:</p>
<ul>
<li>Cómo se responde cuando ese CI falla?</li>
<li>Qué procedimientos se siguen? ¿Están documentados esos procedimientos?</li>
<li>¿Se pueden mejorar esos procedimientos? ¿Se pueden automatizar?</li>
<li>¿Se podrían mejorar los procedimientos formando al personal o usando nuevas técnicas o herramientas?</li>
<li>¿Se podría haber evitado el problema efectuando mantenimientos preventivos?</li>
</ul>
<p>Si se logara la ejecución metódica y exhaustiva de análisis de impacto de fallo de componentes a todos los niveles (a nivel de infrastructura y de la organización), se generarán RfCs que aporten mejoras reales al negocio pero sin requerir un elevado nivel de madurez en los procesos ni derrochar en software de soporte. Tambien aporta beneficios al departamento TI, porque además de poner un primer pie en Gestión de la Disponibilidad tambien significa meter la cabeza en Gestión de la Continuidad; los datos obtenidos en la preparación de la matriz CFIA sirve como input para Gestión de la Configuración, sobretodo si se añade la documentación de recuperación, que puede aprovechar ese conocimiento para la CMDB. Y por supuesto, Gestión de Incidencias, que usará esos procedimientos de recuperación, y Gestión de Problemas, que recibirá como input el resultado de los análisis efectuados.</p>
]]></content:encoded>
			<wfw:commentRss>http://itil-es.es/2010/01/20/cfia-o-de-como-meter-el-pie-en-gestion-del-a-disponibilidad-y-la-continuidad-sin-despeinarse/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>Gestión de Problemas: tus clientes se merecen una explicación (razonable)</title>
		<link>http://itil-es.es/2009/09/22/gestion-de-problemas-tus-clientes-se-merecen-una-explicacion-razonable/</link>
		<comments>http://itil-es.es/2009/09/22/gestion-de-problemas-tus-clientes-se-merecen-una-explicacion-razonable/#comments</comments>
		<pubDate>Tue, 22 Sep 2009 20:54:00 +0000</pubDate>
		<dc:creator>jbanez</dc:creator>
				<category><![CDATA[analisis de causa raiz]]></category>
		<category><![CDATA[analisis forense]]></category>
		<category><![CDATA[calidad]]></category>
		<category><![CDATA[gestion de la calidad]]></category>
		<category><![CDATA[gestion de la disponibilidad]]></category>
		<category><![CDATA[gestion de problemas]]></category>

		<guid isPermaLink="false">http://metodico.wordpress.com/2009/09/22/gestion-de-problemas-tus-clientes-se-merecen-una-explicacion-razonable</guid>
		<description><![CDATA[Leo en The Opposite of Luck una entrada sobre un informe de análisis forense realizado para determinar la causa raíz de un incidente producido en el Complejo Tecnológico Fisher Plaza de Seattle y que dejó KO las webs de varios clientes alojadas allí.
El informe completo (en inglés) puede leerse aquí.
Como los chicos de The Opposite [...]]]></description>
			<content:encoded><![CDATA[<p>Leo en <a href="http://ooluck.com/">The Opposite of Luck</a> una entrada sobre un informe de <a href="http://ooluck.com/blog/2009/9/19/forensic-analysis-and-problem-management.html">análisis forense</a> realizado para determinar la causa raíz de un incidente producido en el <a href="http://www.fisherplaza.com/">Complejo Tecnológico Fisher Plaza</a> de Seattle y que dejó KO las webs de varios clientes alojadas allí.</p>
<p>El informe completo (en inglés) puede leerse <a href="http://assets.bizjournals.com/cms_media/pdf/070209_Forensic%20Report_Final.pdf?site=techflash.com">aquí</a>.</p>
<p>Como los chicos de The Opposite of Luck, aplaudo la transparencia con la que <a href="http://www.fisherplaza.com/">Fisher Plaza</a> ha manejado este incidente, sobretodo como deferencia a sus clientes, que realmente merecen una explicación; al fin y al cabo, Fisher Plaza provee servicios de housing y hosting, ese es su negocio: el cliente tiene derecho a saber por qué ese servicio ha fallado de forma tan catastrófica.</p>
<p><span class="currency_converter_text">De igual forma, tus usuarios tambien se merecen una explicación cuando un servicio IT de los que prestas se cae; no tienes que redactar un informe de 12 páginas para cada problema que analices, pero lo que es inaceptable es encogerse de hombros y decirle: &#8220;estas cosas pasan&#8230;&#8221;.&nbsp; <br /></span></p>
]]></content:encoded>
			<wfw:commentRss>http://itil-es.es/2009/09/22/gestion-de-problemas-tus-clientes-se-merecen-una-explicacion-razonable/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Gestión de problemas: el terror del registro de problemas en blanco</title>
		<link>http://itil-es.es/2009/06/12/gestion-de-problemas-el-terror-del-registro-de-problemas-en-blanco/</link>
		<comments>http://itil-es.es/2009/06/12/gestion-de-problemas-el-terror-del-registro-de-problemas-en-blanco/#comments</comments>
		<pubDate>Fri, 12 Jun 2009 10:04:00 +0000</pubDate>
		<dc:creator>jbanez</dc:creator>
				<category><![CDATA[rca]]></category>
		<category><![CDATA[analisis de causa raiz]]></category>
		<category><![CDATA[gestion de problemas]]></category>

		<guid isPermaLink="false">http://metodico.wordpress.com/2009/06/12/gestion-de-problemas-el-terror-del-registro-de-problemas-en-blanco</guid>
		<description><![CDATA[El análisis de causa raíz (RCA) es una actividad intuitiva y nos sentimos naturalmente inclinados a hacerlo en nuestra vida cotidiana; disponemos de las técnicas y los métodos para realizar análisis profundos y precisos de nuestros eventos diarios, desde la enumeración de factores causales hasta la generación de recomendaciones y la implementación de cambios para [...]]]></description>
			<content:encoded><![CDATA[<p>El análisis de causa raíz (RCA) es una actividad intuitiva y nos sentimos naturalmente inclinados a hacerlo en nuestra vida cotidiana; disponemos de las técnicas y los métodos para realizar análisis profundos y precisos de nuestros eventos diarios, desde la enumeración de factores causales hasta la generación de recomendaciones y la implementación de cambios para eliminar la causa subyacente.</p>
<p>¿Por qué resulta entonces tan difícil trasladar esa habilidad al entorno laboral?</p>
<p>A nivel de gerencia <span class="misspell">IT</span>, existe una cierta conciencia sobre la necesidad de integrar la gestión de problemas dentro de los procesos de gestión <span class="misspell">IT</span>, pero con muchas reticencias a la hora de implementarla efectivamente, basándose en <a title="un puñado de motivos" href="http://metodistaesceptico.blogspot.com/2009/04/rca-incomprendida-mal-valorada-pero.html" id="db2v">un puñado de motivos</a> poco fundamentados. Es de esperar que si la dirección es resistente a la adopción de la gestión de problemas, más lo serán los técnicos implicados en ejecutarlo, por partida doble:</p>
<ul>
<li>El primer efecto percibido es un aumento en su carga de trabajo: cualquier organización mediana o pequeña evitará la dedicación exclusiva de ningún recurso al análisis de causa raíz porque es caro; de manera inmediata, sin entrar en cálculos de <span class="misspell">ROIs</span> o <span class="misspell">VOIs</span> y otros indicadores aún más etéreos, es cierto que supone un desembolso desde el inicio. Los técnicos han de compaginar en su jornada la prestación rutinaria del servicio y, además, investigar incidencias graves o recurrentes, y una vez hallada la causa raíz, proponer los cambios y mejoras necesarios para erradicarla.</li>
<li>El administrador de sistemas medio no sabe por dónde empezar&#8230; pero tampoco dónde acabar.</li>
</ul>
<p>Ese fue mi caso cuando me vi por primera vez en el brete de hacer un RCA y gestionar un problema: <span style="font-weight:bold;">&#8220;¿cómo hago un análisis de causa raíz?&#8221;</span><br /><span class="summarypost"><br /><a href="http://metodistaesceptico.blogspot.com/2009/06/gestion-de-problemas-el-terror-del.html">Después del salto, intento arrojar algo de luz sobre esto&#8230;</a><br /></span><span class="fullpost"></p>
<p><b>El terror del registro de problema en blanco</p>
<p></b>Imaginemos: el <span class="misspell">ServiceDesk</span> recibe un aluvión de llamadas de usuarios reportando que no les funciona el correo electrónico; se inicia el proceso de Incidente Grave, se desencadena el plan de acción, llega a Sistemas y un administrador lo resuelve; actualiza el registro de incidencia con la información de la resolución y se comunica a los usuarios el restablecimiento del servicio.</p>
<p>En una organización que haya iniciado la adopción de <span class="misspell">ITIL</span>, un incidente grave requiere la apertura de una investigación de problema; y ante la extensión inmaculada del registro de problema recién abierto se encuentra el administrador de sistemas encargado de completarlo. ¿Por dónde empezar?</p>
<p>Lo primero: identificar el servicio y sus componentes afectados por el incidente, algo que ya no es trivial en un departamento que no haya adoptado la Gestión de la Configuración y que tenga un catálogo de servicios incompleto, con poca sustancia, en resumen: más bien flojo. Tener que hacer el ejercicio de determinar los componentes de un servicio afectados por un incidente durante la investigación de problema tiene una ventaja: puede convertir esa información generada en <span class="misspell">input</span> para la Gestión del Catálogo de Servicios para enriquecerlo y así hacerlo más preciso y útil.</p>
<p>Lo siguiente es saber cómo documentar un registro de problema; requiere que contenga una descripción fiel y detallada del desarrollo de los acontecimientos desde la primera notificación del incidente hasta su resolución. La forma más clara: contarlo como si fuera una crónica periodística, en la que se establece primero el marco del suceso (fecha, hora y lugar) y después se detalla la secuencia cronológica de eventos. Una vez realizada esta crónica, comienza el análisis; para realizar esa parte, es conveniente disponer de un cuerpo de preguntas que:</p>
<ul>
<li>vertebre la investigación</li>
<li>prevenga el dejar cabos sueltos o áreas de responsabilidad vacías</li>
<li>nos ayude a identificar y formalizar las mejoras que conformarán la solución permanente al problema, y que es, en definitiva, el producto principal que debe extraerse de la gestión de problemas. </li>
</ul>
<p><b><br />Exponiendo los hechos: la verdad, toda la verdad y nada más que la verdad</p>
<p></b>Un registro típico de problema podría empezar con algo como:</p>
<p>&#8220;A las 10:15 <span class="misspell">am</span>, el usuario Joaquín Báñez contactó al <span class="misspell">Service</span> <span class="misspell">Desk</span> por teléfono y reportó que al abrir <span class="misspell">MS</span> <span class="misspell">Outlook</span> para acceder al correo se producía el siguiente mensaje de error&#8230;&#8221;</p>
<p>El primer paso en la investigación es, por tanto, recopilar todos los registros de incidencias relacionados con el problema que tratamos; el primero de ellos, se convertirá en el cabo del ovillo del que iremos tirando para responder a una colección de preguntas similar a:
<ul>
<li>cuándo fue detectado el incidente?</li>
<li>cómo se detectó?</li>
<li>¿qué se hizo para resolverlo?</li>
<li>¿qué impacto causó a los usuarios?</li>
<li>¿ha pasado antes? ¿es un problema recurrente?</li>
<li>¿se pudo de alguna manera detectar antes este problema?</li>
<li>¿se pudo de alguna manera resolver antes este problema?</li>
<li>¿existía documentación sobre esta incidencia en la base de datos de conocimiento? En tal caso, la instrucción de trabajo era adecuada para la resolución?</li>
<li>¿Debe algún otro equipo o proveedor estar involucrado en la investigación del problema?</li>
</ul>
<p><span style="font-size:85%;"><span style="font-family:Calibri;"><span style="font-family:georgia;font-size:100%;">En siguientes entradas, daré más detalles sobre cómo documentar, argumentar y contestar, de manera metódica y estructurada (y, sobretodo, documentada), todas estas preguntas.  </span></span></span></span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://itil-es.es/2009/06/12/gestion-de-problemas-el-terror-del-registro-de-problemas-en-blanco/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>RCA: incomprendida, mal valorada, pero sobretodo desconocida.</title>
		<link>http://itil-es.es/2009/04/27/rca-incomprendida-mal-valorada-pero-sobretodo-desconocida/</link>
		<comments>http://itil-es.es/2009/04/27/rca-incomprendida-mal-valorada-pero-sobretodo-desconocida/#comments</comments>
		<pubDate>Mon, 27 Apr 2009 15:01:00 +0000</pubDate>
		<dc:creator>jbanez</dc:creator>
				<category><![CDATA[itil]]></category>
		<category><![CDATA[rca]]></category>
		<category><![CDATA[root cause analysis]]></category>
		<category><![CDATA[analisis de causa raiz]]></category>
		<category><![CDATA[deming]]></category>
		<category><![CDATA[gestion de problemas]]></category>
		<category><![CDATA[ingenieria]]></category>
		<category><![CDATA[metodologia]]></category>
		<category><![CDATA[six sigma]]></category>

		<guid isPermaLink="false">http://metodico.wordpress.com/2009/04/27/rca-incomprendida-mal-valorada-pero-sobretodo-desconocida</guid>
		<description><![CDATA[Llevo unos 8 años trabajando en el sector informático, siempre en equipos de soporte (menos una temporada en que el equipo de soporte era sólo yo). En los últimos 2 años, más allá de la explosión del hype de ITIL como receta dorada para convertir los departamentos de sistemas en máquinas perfectas (como si eso [...]]]></description>
			<content:encoded><![CDATA[<p>Llevo unos 8 años trabajando en el sector informático, siempre en equipos de soporte (menos una temporada en que <a href="http://es.wikipedia.org/wiki/Averno_astral">el equipo de soporte era sólo yo</a>). En los últimos 2 años, más allá de la explosión del hype de ITIL como receta dorada para convertir los departamentos de sistemas en máquinas perfectas (como si eso bastara), una de las expresiones más utilizadas para vender y comprar servicios de soporte IT es “mejora contínua”.<br /><span class="summarypost"><br /><a href="http://metodistaesceptico.blogspot.com/2009/04/rca-incomprendida-mal-valorada-pero.html">Seguir leyendo&#8230; </a></p>
<p></span><span class="fullpost">En enero de 2008 me incorporé en un equipo de soporte IT formado por 5 personas, donde desempeñé el rol de administrador de sistemas; el cliente era un grupo empresarial privado al que mi empresa vendió un servicio de soporte gestionado y la implantación de algunos procesos ITIL: gestión de incidentes, gestión de problemas y gestión de cambios.<br />Yo nunca conocí nada parecido, en el mundo de la administración de sistemas, a la gestión de problemas, cuya misión es encontrar la causa raíz que subyace bajo los incidentes graves o recurrentes, y una vez encontrada, proponer un cambio (en la infrastructura, en los procedimientos de operación, en la documentación o donde haga falta) para erradicar esa causa y, por tanto, erradicar la recurrencia de esos incidentes.<br />Estos procesos son comunes en cadenas de producción industrial, descritos desde hace años en estándares como <a href="http://es.wikipedia.org/wiki/Seis_Sigma">Six Sigma</a> y otras tambien basadas en <a href="http://en.wikipedia.org/wiki/PDCA">el ciclo de Deming</a>, pero descubrí que en el entorno IT resulta muy complejo implantarlos con éxito; pensé que sería debido a la idiosincrasia particular de la empresa en la que intentábamos implantarla, pero tras varias charlas con colegas y algunas búsquedas en Google descubrí que el mayor obstáculo es que clientes, proveedores y técnicos no comprenden adecuadamente el análisis de causa raíz (RCA en adelante, siglas en inglés de la expresión Root Cause Análisis).<br />Entienden, en la mayoría de casos, la importancia que puede tener para la mejora de la infrastructura, del servicio ofrecido por el departamento IT, incluso alguno es capaz de medir esa importancia con conceptos avanzados como TCO y ROI (y la ventaja que el uso de esos datos frente a la Dirección aporta), pero en pocos casos se entrevé un conocimiento profundo del RCA, de la visión necesaria para afrontarla, de qué información relevante debe desprenderse de un RCA, qué output esperar y cómo usar esa información.<br />Esto provoca que una implantación de ITIL en una organización sea incapaz de completar los 4 pasos del ciclo de Deming, convirtiendo el ciclo “Plan, Do, Check, Act” en “Plan, Do, Stop”.<br />Algunos de los obstáculos principales que se pueden encontrar en una organización (y más que obstáculos, frecuentemente, es resistencia del propio departamento IT), incluyen excusas como:</p>
<ul>
<li>No hay tiempo: los técnicos no disponen de tiempo para efectuar RCA, porque casi todo su tiempo lo invierten en apagar fuegos; no implementar la gestión de problemas o cualquier otro método de RCA, y obviamente ejecutar los cambios que se extraigan como solución para extirpar la causa raíz de dichos incidentes, alimenta esos fuegos y las tareas de extinción consumen cada vez más tiempo, más recursos… y consumen tambien la imagen de profesionalidad que pueda quedarle al equipo IT en la organización.</li>
</ul>
<p>
<ul>
<li>No hay dinero: un cambio, casi siempre, requiere una inversión; si de un RCA se espera como salida una propuesta de cambio, se debe contar con la necesidad de realizar un gasto (gasto, por otro lado, justificable simplemente con el contenido del RCA, si es correcto, profundo y bien documentado). La realidad es: pueden los jefes de unidades IT conseguir ese dinero? Están dispuestos a partidas ya asignadas, por ejemplo, a la renovación de la electrónica de red, solicitada, sin embargo, con muchos menos argumentos que la petición de cambio extraída de un RCA? Tienen estos responsables una visión clara y realista del coste que tienen, para su departamento y para toda la organización, los incidentes IT (el descenso en la productividad de los usuarios afectados o las horas invertidas por el personal IT en solventar esos incidentes?)</li>
</ul>
<p>
<ul>
<li>No se sabe a ciencia cierta de qué incidentes se trata: los técnicos de un Service Desk están más preocupados por resolver las incidencias que reciben que por recoger todo tipo de detalles relativos a las circunstancias en que se ha producido el incidente; asimismo, suele ser frecuente el desinterés a la hora de relatar las acciones seguidas para solventarlo, si resuelven el incidente. Por último, los service desks suelen contar con un sistema manual de clasificación y calificación de incidentes; esto hace que la relación de incidentes atribuibles a una causa raíz común sea generalmente incompleta, parcial y pobre, y dificulta cuantizar tanto el impacto que tendría sobre la organización no erradicar el problema que se está analizando como el beneficio de implementar el cambio propuesto para erradicarlo. </li>
</ul>
<p>Todo lo anteriormente expuesto, cristaliza, en el mundo real, en una pregunta que directivos, responsables IT y técnicos lanzan al que defiende la imperiosa necesidad de implantar la gestión de problemas y los RCA: “<span style="font-weight:bold;">¿para qué?</span>”.</p>
<p>Y eso demuestra que no sólo no comprenden la importancia de conocer la causa raíz que detona los incidentes graves en su organización, sino que tampoco tienen una visión clara del impacto que incidentes graves o menos graves tienen sobre la productividad de su organización y, aún peor: de su departamento.</p>
<p>Sobre esto último tengo que hablar largo y tendido, porque otra de las actitudes que más detesto en el mundo de la informática es la incentivar el comportamiento de bombero entre los técnicos, el considerar héroes a los resolutores veloces de incidencias graves y fomentar la actitud cowboy de cabalgar a lo loco sobre la administración de sistemas. Este es el rollo en el equipo donde trabajo ahora, y la verdad es que se tiene que acabar, es demasiado 90&#8217;s&#8230;</span><br /></span></p>
]]></content:encoded>
			<wfw:commentRss>http://itil-es.es/2009/04/27/rca-incomprendida-mal-valorada-pero-sobretodo-desconocida/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
