martes, 19 de junio de 2012

DataMining




Minería de datos

1.- Conceptos:

En general, la minería de datos (a veces llamada de datos o descubrimiento de conocimiento) es el proceso de análisis de los datos desde diferentes perspectivas y resumirla en información útil - información que puede ser utilizado para aumentar los ingresos, reduce los costes, o ambas cosas. Software de minería de datos es una de una serie de instrumentos analíticos para analizar los datos. Permite a los usuarios analizar los datos de diferentes dimensiones o ángulos, clasificar, y resumir las relaciones identificadas. Técnicamente, la minería de datos es el proceso de encontrar correlaciones o patrones entre las docenas de campos en grandes bases de datos relacionales.

Innovación continua

Si bien la minería de datos es un término relativamente nuevo, la tecnología no lo es. Las empresas han utilizado las computadoras de gran alcance para tamizar a través de volúmenes de datos de escáner del supermercado y analizar los informes de investigación de mercado durante años. Sin embargo, las innovaciones continuas en la capacidad de procesamiento, el almacenamiento en disco, y el software de estadística están aumentando drásticamente la precisión del análisis al tiempo que reduce el costo.

Ejemplo

Por ejemplo, una cadena de supermercados del Medio Oeste utiliza la capacidad de extracción de datos de Oracle de software para analizar los patrones locales de compra. Descubrieron que cuando los hombres han comprado los pañales, los jueves y sábados, también tendían a comprar cerveza. Un análisis posterior mostró que estos compradores normalmente hacían sus compras de comestibles por semana los sábados. Los jueves, sin embargo, que sólo compró algunos artículos. La minorista llegó a la conclusión de que comprar la cerveza para tenerlo disponible para el próximo fin de semana. La cadena de supermercados podría utilizar esta información recién descubierto de varias maneras para aumentar los ingresos. Por ejemplo, se podría mover la pantalla cerveza más cerca de la pantalla del pañal. Y, se podría hacer la cerveza y los pañales que se vendían a precio completo de los jueves. 

2.- Características:

Datos, Información y el Conocimiento

Datos

Los datos son los hechos, números o texto que pueden ser procesados ​​por un ordenador. Hoy en día, las organizaciones se están acumulando grandes cantidades y cada vez mayor de datos en diferentes formatos y bases de datos diferentes. Esto incluye:
  • datos operativos o transaccionales, tales como, ventas, costos, inventarios, nómina y contabilidad
  • los datos no operacionales, tales como ventas de la industria, los datos de pronóstico, y los datos económicos macro
  • datos de meta-datos acerca de los datos en sí, como el diseño de base de datos lógica o las definiciones del diccionario de datos

Información

Los patrones, asociaciones, o las relaciones entre todos estos datos puede proporcionar la información . Por ejemplo, el análisis de punto de venta de datos de transacciones de venta puede dar información sobre los productos que se venden y cuándo.

Conocimiento

La información se puede convertir en el conocimiento acerca de los patrones históricos y las tendencias futuras. Por ejemplo, información resumida sobre las ventas de supermercados al por menor pueden ser analizados a la luz de los esfuerzos de promoción para fomentar el conocimiento del comportamiento del consumidor de comprar. Por lo tanto, un fabricante o distribuidor puede determinar qué elementos son más susceptibles a los esfuerzos de promoción.

Almacenes de datos

Los espectaculares avances de la captura de datos, potencia de procesamiento, transmisión de datos y capacidades de almacenamiento permiten a las organizaciones a integrar sus diversas bases de datos en los almacenes de datos . El almacenamiento de datos se define como un proceso de gestión de datos centralizada y la recuperación. El almacenamiento de datos, como la minería de datos, es un término relativamente nuevo, aunque el propio concepto ha existido durante años. El almacenamiento de datos representa una visión ideal de mantener un repositorio central de todos los datos de la organización. La centralización de los datos es necesaria para maximizar el acceso de los usuarios y el análisis. Espectaculares avances tecnológicos hacen que esta visión sea una realidad para muchas empresas. Y, los avances igualmente dramáticos en el software de análisis de datos están permitiendo a los usuarios acceder a estos datos libremente. El software de análisis de datos es lo que apoya la minería de datos. 

¿Cómo funciona la minería de datos?

Si bien en gran escala la tecnología de la información ha ido evolucionando transacción separada y sistemas de análisis, minería de datos proporciona el enlace entre los dos. Software de minería de datos se analizan las relaciones y los patrones en los datos almacenados de las transacciones sobre la base de consultas de los usuarios de composición abierta. Existen varios tipos de software de análisis están disponibles: el aprendizaje estadístico, máquinas y redes neuronales. En general, cualquiera de los cuatro tipos de relaciones se buscan:
  • Clases : Los datos almacenados se utiliza para localizar los datos de los grupos predeterminados. Por ejemplo, una cadena de restaurantes podría extraer los datos de compra de los clientes para determinar cuando los clientes visitan y lo que suelen pedir. Esta información podría utilizarse para aumentar el tráfico al tener especiales del día.
  • Clusters : Los elementos de datos se agrupan de acuerdo a las relaciones lógicas o preferencias de los consumidores. Por ejemplo, los datos pueden ser extraídos para identificar los segmentos de mercado o afinidades de los consumidores.
  • Asociaciones : Los datos pueden ser extraídos para identificar asociaciones. En el ejemplo de la cerveza del pañal es un ejemplo de la minería asociativa.
  • El modelo secuencial : Los datos se extrae de anticipar los patrones de comportamiento y las tendencias. Por ejemplo, un minorista de equipo al aire libre podría predecir la probabilidad de una mochila que se compra basado en la compra de un consumidor de los sacos de dormir y zapatos para caminar.
La minería de datos se compone de cinco elementos principales:
  • Extraer, transformar y cargar datos de transacción en el sistema de almacenamiento de datos.
  • Almacenar y gestionar los datos en un sistema de base de datos multidimensional.
  • Proporcionar acceso a datos para los analistas de negocios y profesionales de tecnología de información.
  • Analizar los datos por el software de aplicación.
  • Presentar los datos en un formato útil, tal como un gráfico o tabla.
Los diferentes niveles de análisis están disponibles:
  • Las redes neuronales artificiales : modelos no lineales de predicción que se aprenden a través de la formación y se asemejan a redes neuronales biológicas en la estructura.
  • Algoritmos genéticos : técnicas de optimización que usan procesos tales como combinación genética, mutación y selección natural en un diseño basado en los conceptos de evolución natural.
  • Los árboles de decisión : en forma de árbol que representan conjuntos de estructuras de toma de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos específicos de árboles de decisión incluyen árboles de clasificación y regresión (CART) y Chi Cuadrado de detección automática de Interacción (CHAID). CART y CHAID son técnicas de árboles de decisión utilizados para la clasificación de un conjunto de datos. Constituyen un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un resultado determinado. Segmentos CART un conjunto de datos mediante la creación de dos vías mientras que los segmentos se divide CHAID utilizando pruebas de chi cuadrado para crear múltiples divisiones. Carro normalmente requiere menos preparación de datos que CHAID.
  • El método del vecino más cercano : una técnica que clasifica cada registro de un conjunto de datos basado en una combinación de las clases de la k registro (s) más similar a él en un conjunto de datos históricos (donde k 1). A veces llamado el k -vecino más cercano técnica.
  • Regla de inducción : La extracción de los útiles reglas if-then de datos basados ​​en la significación estadística.
  • Visualización de datos : La interpretación visual de las relaciones complejas en datos multidimensionales. Herramientas de gráficos se utilizan para ilustrar las relaciones de datos.

3.- Herramientas:

Software de Minería de Datos:

El proceso de extracción de patrones de datos se denomina extracción de datos. Se reconoce como una herramienta esencial por las empresas modernas, ya que es capaz de convertir los datos en inteligencia de negocios dando así una ventaja de información. En la actualidad, es ampliamente utilizado en las prácticas de creación de perfiles, como la vigilancia, la comercialización, el descubrimiento científico, y la detección de fraudes. 

Hay cuatro tipos de tareas que normalmente se involucran en la minería de datos: 

* Clasificación - la tarea de generalizar la estructura familiar para emplear a los nuevos datos 
* Clustering - la tarea de encontrar grupos y estructuras en los datos que son de alguna manera u otra la misma, sin necesidad de utilizar las estructuras observadas en los datos.
* Asociación de regla de aprendizaje - Busca relaciones entre las variables. 
* Regresión - Su objetivo es encontrar una función que modele los datos con el menor error. 

Para aquellos de ustedes que están buscando algunas herramientas de minería de datos, aquí están cinco de los mejores software de código abierto minería de datos que puede obtener de forma gratuita: 

Orange
Orange es una compañía minera basada en componentes de datos y aprendizaje automático suite de software que cuenta con programación visual amigable y potente, rápido y versátil front-end para el análisis de los datos de exploración y visualización, y los enlaces de Python y las bibliotecas de secuencias de comandos. Contiene conjunto completo de componentes para el procesamiento de datos, función de la puntuación y filtrado, modelado, evaluación del modelo, y las técnicas de exploración. Está escrito en C + + y Python, y su interfaz gráfica de usuario se basa en multiplataforma Qt framework. 



RapidMiner
RapidMiner, antes llamado YALE (Sin embargo, otro ambiente de aprendizaje), es un entorno para el aprendizaje de la máquina y los experimentos de minería de datos que es utilizado para la investigación y tareas del mundo real de minería de datos. Permite a los experimentos que se compone de un gran número de operadores arbitrariamente encajables, que se detallan en archivos XML y se hacen con la interfaz gráfica de usuario de RapidMiner. RapidMiner ofrece más de 500 operadores de todos los procedimientos principales de aprendizaje de máquina, y también combina esquemas de aprendizaje y los evaluadores de los atributos del entorno Weka aprendizaje.Está disponible como una herramienta independiente para el análisis de datos y como un motor de extracción de datos que pueden ser integrados en sus propios productos. 


Weka
Escrito en Java, Weka (Waikato Medio Ambiente para el Análisis del Conocimiento) es un conjunto bien conocido de software de la máquina de aprendizaje que soporta varias tareas típicas de minería de datos, en particular, procesamiento de datos, clustering, clasificación, regresión, visualización y selección de características. Sus técnicas están basadas en la hipótesis de que los datos están disponibles como un único archivo plano o relación, en donde se etiqueta cada punto de datos por un número fijo de atributos. Weka proporciona acceso a bases de datos SQL utilizando Java Database Connectivity y puede procesar el resultado devuelto por una consulta de base de datos. Su interfaz de usuario principal es el Explorer, pero la misma funcionalidad que se puede acceder desde la línea de comandos oa través de la interfaz del Conocimiento basado en componentes de flujo.  


JHepWork
Diseñado para científicos, ingenieros y estudiantes, jHepWork es un país libre y de código abierto de análisis de datos marco en el que se crea como un intento de crear un ambiente de análisis de datos usando paquetes de código abierto con una interfaz de usuario comprensible y para crear una herramienta competitiva para programas comerciales. Está especialmente hecho para las parcelas científicas interactivas en 2D y 3D y contiene bibliotecas científicas numéricos implementados en Java para funciones matemáticas, números aleatorios, y otros algoritmos de minería de datos.jHepWork se basa en una programación Jython lenguaje de alto nivel, pero la codificación Java también se pueden utilizar para llamar a las bibliotecas jHepWork numéricos y gráficos. 

KNIME
KNIME (Constanza de Información Minero) es un fácil de usar, inteligible y completa de código abierto de integración de datos, procesamiento, análisis, y la plataforma de exploración. Se ofrece a los usuarios la capacidad de crear de forma visual los flujos de datos o tuberías, de forma selectiva ejecutar algunos o todos los pasos de análisis, y luego estudiar los resultados, modelos y vistas interactivas. KNIME está escrito en Java y está basado en Eclipse y hace uso de su método de extensión para soportar plugins proporcionando así una funcionalidad adicional.A través de plugins, los usuarios pueden añadir módulos para texto, imágenes, y el procesamiento de series de tiempo y la integración de varios otros proyectos de código abierto, tales como lenguaje de programación R, WEKA, el Kit de Desarrollo de la Química, y LIBSVM.  


No hay comentarios:

Publicar un comentario