Capítulo 6
Fundamentos de inteligencia de negocios: bases
de datos y administración de la información
ORGANIZACIÓN DE LOS DATOS EN UN ENTORNODE
ARCHIVOS TRADICIONAL
TÉRMINOS Y CONCEPTOS DE ORGANIZACIÓNDE
ARCHIVOS
Un sistema computacional organiza
los datos en una jerarquía que empieza con bits y bytes, y progresa hasta
llegar a los campos, registros, archivos y bases de datos. Un bit representa la
unidad más pequeña de datos que una computadora puede manejar. Un grupo de
bits, denominado byte, representa a un solo carácter. Un agrupamiento de
caracteres se denomina campo. Un grupo de campos relacionados, representan un
registro; un grupo de registros del mismo tipo se denomina archivo. Un grupo de
archivos relacionados constituye una base de datos.
ROBLEMAS CON EL ENTORNO DE ARCHIVOS TRADICIONAL
Redundancia e inconsistencia de los datos
Es la presencia de datos
duplicados en varios archivos, de modo que se almacenen los mismos datos en
más de un lugar o ubicación. La redundancia ocurre cuando distintos grupos en
una organización recolectan por separado la misma pieza de datos y la
almacenan de manera independiente unos de otros. Desperdicia recursos de
almacenamiento y también conduce a la inconsistencia de los datos, en donde el
mismo atributo puede tener distintos valores.
Dependencia programa-datos
Se refiere al acoplamiento de los
datos almacenados en archivos y los programas específicos requeridos para
actualizar y dar mantenimiento a esos archivos, de tal forma que los cambios en
los programas requieran cambios en los datos.
Falta de flexibilidad
Un sistema de archivos
tradicional puede entregar informes programados de rutina después de cierto
esfuerzo extenso de programación, pero no puede entregar informes ad hoc ni
responder de manera oportuna a los requerimientos de información no
anticipados.
Seguridad defectuosa
Como hay poco control o poca
administración de los datos, el acceso a la información, así como su
diseminación, pueden estar fuera de control. La gerencia tal vez no tenga
forma de saber quién está accediendo a los datos de la organización, o
incluso modificándolos.
Falta de compartición y disponibilidad de los
datos
Como las piezas de información
en los distintos archivos y las diferentes partes de la organización no se
pueden relacionar entre sí, es casi imposible compartir o acceder a la
información de una manera oportuna. La información no puede fluir con
libertad entre áreas funcionales o partes de la organización distintas.
LA METODOLOGÍA DE LAS BASES DE DATOS PARA LA
ADMINISTRACIÓN DE DATOS
La tecnología de las bases de
datos resuelve muchos de los problemas de la organización de los archivos
tradicionales. Una definición más rigurosa de una base de datos es la de una
colección de datos organizados para dar servicio a muchas aplicaciones de
manera eficiente, al centralizar los datos y controlar los que son redundantes.
SISTEMAS DE ADMINISTRACIÓN DE BASES DE DATOS
(DBMS)
Es software que permite a una
organización centralizar los datos, administrarlos en forma eficiente y
proveer acceso a los datos almacenados mediante programas de aplicación. El
DBMS actúa como una interfaz entre los programas de aplicación y los archivos
de datos físicos.
Cómo resuelve un DBMS los problemas del entorno
de archivos tradicionales
Un DBMS reduce la redundancia e
inconsistencia de los datos al minimizar los archivos aislados en los que se
repiten los mismos datos.
El DBMS desacopla los programas y
los datos, con lo cual estos últimos se pueden independizar.
El DBMS permite a la
organización administrar los datos, su uso y su seguridad en forma central.
DBMS relacional
Los DBMS contemporáneos utilizan
distintos modelos de bases de datos para llevar el registro de las entidades,
atributos y relaciones. El tipo más popular de sistemas DBMS en la actualidad
para las PCs, así como para computadoras más grandes y mainframes, es el DBMS
relacional. Las bases de datos relacionales representan los datos como tablas
bidimensionales (llamadas relaciones), a las cuales se puede hacer referencia
como si fueran archivos.
Operaciones de un DBMS
relacional
Las tablas de bases de datos
relacionales se pueden combinar con facilidad para ofrecer los datos requeridos
por los usuarios, siempre y cuando dos tablas cualesquiera compartan un
elemento de datos común.
En una base de datos relacional
se utilizan tres operaciones básicas, para desarrollar conjuntos útiles de datos:
seleccionar, unir y proyectar.
DBMS orientado a objetos
Almacena los datos y los
procedimientos que actúan sobre esos datos como objetos que se pueden
recuperar y compartir de manera automática.
Aunque las bases de datos
orientadas a objetos pueden almacenar tipos más complejos de información que
los DBMS relacionales, son lentos en comparación con los DBMS relacionales
para procesar grandes números de transacciones. Ahora hay sistemas DBMS
objeto-relacional híbridos, que ofrecen las capacidades de los sistemas DBMS
tanto orientados a objetos como relacionales.
Bases de datos en la nube
Los proveedores de computación
en la nube ofrecen servicios de administración de bases de datos, pero por lo
general estos servicios tienen menos funcionalidad que sus contrapartes dentro
de las premisas de la empresa. Por el momento, la base de clientes primordial
para la administración de datos basados en la nube consiste en empresas
iníciales enfocadas en Web o negocios desde pequeños hasta medianos que
buscan capacidades de bases de datos a un menor precio que el de un DBMS
relacional estándar.
CAPACIDADES DE LOS SISTEMAS DE ADMINISTRACIÓN
DE BASES DE DATOS
Un DBMS incluye capacidades y
herramientas para organizar, administrar y acceder a los datos en la base de
datos. Las más importantes son: su lenguaje de definición de datos, el
diccionario de datos y el lenguaje de manipulación de datos.
Los DBMS tienen una capacidad de
definición de datos para especificar la estruc- tura del contenido de la base
de datos. Podría usarse para crear tablas de bases de datos y definir las
características de los campos en cada tabla. Esta información sobre la base
de datos se puede documentar en un diccionario de datos, el cual es un archivo
automatizado o manual que almacena las definiciones de los elementos de datos y
sus características.
Consultas e informes
Un DBMS contiene herramientas
para acceder a la información en las bases de datos y manipularla. La mayoría
de los DBMS tienen un lenguaje especializado conocido como lenguaje de
manipulación de datos el cual se utiliza para agregar, modificar, eliminar y
recuperar los datos en la base. El lenguaje de manipulación de datos más
prominente en la actualidad es el lenguaje de consulta estructurado, o SQL.
DISEÑO DE BASES DE DATOS
Para crear una base de datos hay
que comprender las relaciones entre la información, el tipo de datos que se
mantendrán en la base, cómo se utilizarán y la forma en que tendrá que
cambiar la organización para administrarlos desde una perspectiva a nivel de
toda la compañía. La base de datos requiere tanto un diseño conceptual como
uno físico.
Diagramas de normalización y de entidad-relación
Para usar un modelo de base de
datos relacional en forma efectiva, hay que optimi- zar los agrupamientos
complejos de datos para minimizar los elementos de datos redundantes y las
incómodas relaciones de varios a varios. El proceso de crear estruc- turas de
datos pequeñas y estables pero a la vez flexibles y adaptivas a partir de
grupos complejos de datos se denomina normalización.
Los sistemas de bases de datos
relacionales tratan de cumplir reglas de integridad referencial para asegurar
que las relaciones entre las tablas acopladas permanezcan consistentes.
Los diseñadores de bases de
datos documentan su modelo de datos con un diagrama entidad-relación, el cual
muestra la relación entre las entidades.
USO DE BASES DE DATOS PARA MEJORAR EL DESEMPEÑO
DE NEGOCIOS Y LA TOMA DE DECISIONES
Las empresas utilizan sus bases
de datos para llevar el registro de las transacciones básicas, como pagar a
los proveedores, procesar pedidos, llevar el registro de los clientes y pagar a
los empleados. Pero también se necesitan bases de datos para proveer información
que ayude a la compañía a operar sus negocios con más eficiencia, y ayudar a
los gerentes y empleados a tomar mejores decisiones.
ALMACENES DE DATOS
Un almacén de datos es una base
de datos que almacena la información actual e histórica de interés potencial
para los encargados de tomar decisiones en la compañía. Los datos se originan
en muchos sistemas de transacciones operacionales básicos, como los sistemas
de ventas, las cuentas de clientes, la manufactura, y pueden incluir datos de
transacciones de sitios Web. El almacén de datos consolida y estandariza la
información de distintas bases de datos operacionales, de modo que se pueda
utilizar en toda la empresa para el análisis gerencial y la toma de
decisiones.
Mercados de datos
Un mercado de datos es un
subconjunto de un almacén de datos, en el cual se coloca una porción con alto
grado de enfoque en los datos de la organización en una base de datos separada
para una población específica de usuarios.
HERRAMIENTAS PARA LA INTELIGENCIA DE NEGOCIOS:
ANÁLISIS DE DATOS MULTIDIMENSIONAL Y MINERÍA DE DATOS
Las herramientas de inteligencia
de negocios permiten a los usuarios analizar datos para ver nuevos patrones,
relaciones y perspectivas que son útiles para guiar la toma de decisiones.
Procesamiento analítico en línea (OLAP)
OLAP soporta el análisis de
datos multidimensional, el cual permite a los usuarios ver los mismos datos de
distintas formas mediante el uso de varias dimensiones. Cada aspecto de
información representa una dimensión distinta.
Minería de datos
La minería de datos está más
orientada al descubrimiento, ya que provee perspectivas hacia los datos
corporativos que no se pueden obtener mediante OLAP, al encontrar patrones y
relaciones ocultas en las bases de datos grandes e inferir reglas a partir de
estos patrones y relaciones, para predecir el comportamiento a futuro. Los
patrones y reglas se utilizan para guiar la toma de decisiones y pronosticar el
efecto de esas decisiones. Los tipos de información que se pueden obtener de
la minería de datos son:
• Las asociaciones son
ocurrencias vinculadas a un solo evento.
• En las secuencias, los eventos
se vinculan en el transcurso del tiempo.
• La clasificación reconoce los
patrones que describen el grupo al que pertenece un elemento, para lo cual se
examinan los elementos existentes que hayan sido clasificados y se infiere un
conjunto de reglas.
• El agrupamiento funciona de una
manera similar a la clasificación cuando aún no se han definido grupos.
• Aunque estas aplicaciones
implican predicciones, el pronóstico utiliza las predicciones de una manera
distinta. Se basa en una serie de valores existentes para pronosticar cuáles
serán los otros valores.
El análisis predictivo utiliza
las técnicas de minería de datos, los datos históricos y las suposiciones
sobre las condiciones futuras para predecir los resultados de los eventos, como
la probabilidad de que un cliente responda a una oferta o que compre un
producto específico.
Minería de datos y minería Web
En la actualidad hay herramientas
de minería de texto disponibles para ayudar a las empresas a analizar estos
datos. Estas herramientas pueden extraer elementos clave de los conjuntos de
datos ex- tensos no estructurados, descubrir patrones y relaciones, así como
sintetizar la información.
El descubrimiento y análisis de
los patrones útiles y la información pro- veniente de World Wide Web se
denominan minería Web. Las empresas podrían recurrir a la minería Web para
que les ayude a comprender el comportamiento de los clientes, evaluar la efectividad
de un sitio Web específico o cuantificar el éxito de una campaña de
marketing. La minería Web busca patrones en los datos a través de la minería
de contenido, la minería de estructura y la minería de uso.
LAS BASES DE DATOS Y WEB
Hay varias ventajas en cuanto al
uso de Web para acceder a las bases de datos internas de una organización. En
primer lugar, el software de navegador Web es mucho más fácil de usar que las
herramientas de consulta propietarias. En segundo lugar, la interfaz Web requiere
pocos o ningún cambio en la base de datos interna. Es mucho menos costoso
agregar una interfaz Web frente a un sistema heredado que rediseñar y
reconstruir el sistema para mejorar el acceso de los usuarios.
El acceso a las bases de datos
corporativas por medio de Web está creando nuevas eficiencias, oportunidades y
modelos de negocios.
ADMINISTRACIÓN DE LOS RECURSOS DE DATOS
ESTABLECIMIENTO DE UNA POLÍTICA DE INFORMACIÓN
Una política de información es
la que especifica las reglas de la organización para compartir, diseminar,
adquirir, estandarizar, clasificar e inventariar la información. La política
de información establece procedimientos y rendiciones de cuentas específicos,
identifica qué usuarios y unidades organizacionales pueden compartir
información, en dónde distribuirla y quién es responsable de actualizarla y
mantenerla.
La administración de datos es
responsable de las políticas y procedimientos específicos a través de los
cuales se pueden administrar los datos como un recurso organizacional. Estas
responsabilida- des abarcan el desarrollo de la política de información, la
planificación de los datos, la supervisión del diseño lógico de la base de
datos, y el desarrollo del diccionario de datos, así como el proceso de
monitorear la forma en que los especialistas de sistemas de infor- mación y
los grupos de usuarios finales utilizan los datos.
ASEGURAMIENTO DE LA CALIDAD DE LOS DATOS
Si una base de datos está
diseñada en forma apropiada y hay estándares de datos esta- blecidos a nivel
empresarial, los elementos de datos duplicados o inconsistentes deben reducirse
al mínimo. Sin embargo, la mayoría de los problemas de calidad de los datos,
como los nombres mal escritos, los números transpuestos y los códigos
incorrectos o faltantes, se derivan de los errores durante la captura de los
datos. La incidencia de dichos errores aumenta a medida que las compañías
pasan sus negocios a Web y permi- ten que los clientes y proveedores
introduzcan datos en sus sitios Web para actualizar de manera directa los
sistemas internos.
Antes de implementar una nueva
base de datos, las organizaciones necesitan identificar y corregir sus datos
incorrectos y establecer mejores rutinas para editar los datos una vez que su
base esté en operación. Con frecuencia, el análisis de la calidad de los
datos empieza con una auditoría de calidad de los datos, la cual es una
encuesta estructurada de la precisión y el nivel de su integridad en un
sistema de información.
La limpieza de datos, conocida
también en inglés como data scrubbing, consiste en actividades para detectar
y corregir datos en una base que sean incorrectos, incompletos, que tengan un
formato inapropiado o que sean redundantes. La limpieza de datos no sólo
corrige los errores, sino que también impone la consistencia entre los distintos
conjuntos de datos que se originan en sistemas de información separados.
No hay comentarios:
Publicar un comentario