Ceci est une ancienne révision du document !



Business Intelligence (BI) - L'Informatique décisionnelle libre

Business Intelligence - ou Informatique décisionnelle désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une entité en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée. On peut considérer que ce sont des outils qui permettent d'analyser des systèmes complexes.

Solutions généralistes

  • Wabit et SQL Power Architect : design des données (en video )
  • Community Edition RapidMiner (anciennement YALE) est un logiciel open-source pour l'analyse des données, la découverte de connaissances, la fouille de données (data mining), d'analyse prédictive et l'apprentissage machine. Une édition commerciale est également disponible avec plus de fonctionnalités.
  • SpagoBI: outils Open Source pour fournir une plate-forme unifiée et libre pour le développement de solutions de Business Intelligence au niveau de l'entreprise.
  • Vanilla
  • SWING Dashboard
  • OpenErp 5 a un module de business intelligence utilisant une base OLAP.

Solutions de reporting

  • JasperSoft iReport : propose une version de JasperReports appelé JasperReports community qui a les fonctionnalités complètes de reporting de base. Une édition commerciale est également disponible avec plus de fonctionnalités.
  • Marvelit Dash Community Edition
  • Eclipse BIRT(Actuate) : basé sur Eclipse, permet de crée des rapports pour les applications web, notamment celles fondées sur Java EE.

Les Outils d'analyse multidimensionnelle (OLAP)

Solutions de Data mining - Exploration de données

Le processus d'extraction de motifs à partir de données est appelée data mining. Il est reconnu comme un outil essentiel par les entreprises modernes, car il est capable de convertir les données en intelligence d'affaires donnant ainsi un avantage informationnel. À l'heure actuelle, il est largement utilisé dans les pratiques de profilage, comme la surveillance, le marketing, la découverte scientifique, et la détection des fraudes.

Il existe quatre types de tâches qui sont normalement intervenir dans les mines de données:

  • La classification - la tâche de généraliser structure familière à employer de nouvelles données
  • Clustering - la tâche de trouver des groupes et des structures dans les données qui sont en quelque sorte ou d'une autre de même, sans l'aide de noter structures dans les données.
  • règle d'apprentissage d'Association - Cherche relations entre les variables.
  • Régression - vise à trouver une fonction qui modélise les données avec la moindre erreur.

Liste de logiciel libre :

  • R
  • Weka (site), (Waikato Environnement pour savoir Analysis) est une suite bien connue des logiciels d'apprentissage automatique qui prend en charge plusieurs tâches typiques d'exploration de données, notamment le prétraitement des données, clustering, de classification, de régression, la visualisation et la sélection des fonctionnalités. Ses techniques sont basées sur l'hypothèse que les données sont disponibles en un seul fichier plat ou une relation, où chaque point de données est marquée par un nombre fixe d'attributs. Weka fournit un accès aux bases de données SQL en utilisant Java Database Connectivity et peut traiter le résultat retourné par une requête de base de données. Son interface utilisateur principal est l'Explorer, mais la même fonctionnalité peut être consulté à partir de la ligne de commande ou par l'intermédiaire de l'interface à base de composants de connaissances Flow.
  • KNIME (site) (Konstanz Information Miner) est un outil convivial, intelligible et complète open-source d'intégration de données, traitement, analyse, et la plate-forme d'exploration. Il donne aux utilisateurs la possibilité de créer visuellement les flux de données ou de pipelines, de manière sélective exécuter une partie ou toutes les étapes de l'analyse, et plus tard l'étude des résultats, des modèles et des vues interactives. KNIME est écrit en Java, et il est basé sur Eclipse et fait usage de sa méthode de vulgarisation à l'appui plugins offrant ainsi des fonctionnalités supplémentaires. Grâce à des plugins, les utilisateurs peuvent ajouter des modules pour le texte, image, et le traitement des séries chronologiques et l'intégration de divers autres projets open source, tels que le langage de programmation R, Weka, le kit de développement de la chimie, et libsvm.

Ces trois premiers de ces systèmes sont capables d'importer et d'exporter les modèles dans PMML (Predictive Model Markup Language), qui fournit une méthode standard pour représenter des modèles d'exploration de données afin que celles-ci peuvent être partagés entre différentes applications statistiques.

  • Orange(bi) (site) est une exploration de données à base de composants et d'apprentissage machine qui offre une vision amicale mais puissante, rapide et polyvalente, et avec de la programmation visuelle pour l'analyse de données exploratoire et de visualisation. Il est écrit en Python et avec des bibliothèques de scripts. Il contient un ensemble complet de composants pour le prétraitement des données, fonctionnalité de pointage et de filtrage, de modélisation, l'évaluation des modèles et techniques d'exploration. Il est écrit en C + + et Python, et son interface utilisateur graphique est basé sur Qt un framework multi-plateforme.
  • RapidMiner (site) anciennement appelé Yale (Yet Another Learning Environment), est un environnement pour l'apprentissage machine et les données des expériences minière qui est utilisé pour les tâches du monde réel à la fois de recherche et d'exploration de données. Il permet des expériences pour être composé d'un grand nombre d'opérateurs arbitrairement emboîtables, qui sont détaillées dans les fichiers XML et sont réalisés avec l'interface utilisateur graphique de RapidMiner. RapidMiner fournit plus de 500 opérateurs pour toutes les machines principales procédures d'apprentissage, et il associe également l'apprentissage régimes et les évaluateurs d'attributs de l'environnement d'apprentissage Weka. Il est disponible comme un outil autonome pour l'analyse des données et comme un moteur d'exploration de données qui peuvent être intégrés dans vos propres produits.
  • JHepWork(site) un logiciel libre et open-source d'analyse de données qui est créé comme une tentative de faire un environnement d'analyse de données utilisant des paquets open-source avec une interface utilisateur à comprendre et permettant de créer un instrument de haute-concurrence pour des programmes commerciaux. Il est spécialement conçu pour des applications interactives a visé scientifiques en 2D et 3D et contient les bibliothèques scientifiques numériques implémentés en Java pour les fonctions mathématiques, les nombres aléatoires, et d'autres algorithmes de data mining. jHepWork est basé sur un langage de programmation de haut niveau Jython, mais de codage Java peut aussi être utilisé pour appeler des bibliothèques jHepWork numérique et graphique.
  • Google Refine (site )est un outil puissant pour travailler avec des ensembles de données en désordre, y compris le nettoyage des incohérences, de les transformer d'un format à un autre, et de les étendre à de nouvelles données provenant des services Web externes ou autres bases de données.

Solution pour donnée spatiale

  • GEO ANALYSIS TOOL (G.A.T.), un serveur web open source pour l’analyse multidimensionnelle spatiale, également connue sous l’appellation GEOSBI ou encore SOLAP (« Spatial OLAP »). GEO ANALYSIS TOOL va permettre aux sociétés et organisations qui possèdent des données au format spatial d’exploiter celles-ci afin d’effectuer des analyses OLAP puissantes et intuitives au travers de clients web (en video )

Voir aussi cartographie , gps

Et spatial DSS sur "Decision Support" sur sourceforge

Modéliseur de flux

Extract Transform Load (ETL) - intergiciel de Synchronisation entre bdd

Les ETL (Extract - Transform - Load) sont les outils les plus couramment utilisés pour la construction et l'alimentation des datawarehouse (entrepôts de données).

Il existe plusieurs ETL Open Source. Les plus complets et reconnus sont les suivants :

  • Pentaho Data Integration (Kettle)
  • Talend Open Studio
  • CloverETL (seul le moteur est Open source)

Les SGBD relationnels d'analyse

Solutions open source - commerciale

  • Palo (base de données OLAP): OLAP Server, Server Feuille et ETL Server
  • Pentaho: reporting, analyse, tableau de bord, data mining et capacités de workflow

Solution en ligne


Contributeurs : Psychederic, …


1)
compatible pentaho
2)
The Prediction API enables access to Google’s machine learning algorithms to analyze your historic data and predict likely future outcomes. Upload your data to Google Storage for Developers, then use the Prediction API to make real-time decisions in your applications. The Prediction API implements supervised learning algorithms as a RESTful web service to let you leverage patterns in your data, providing more relevant information to your users. Run your predictions on Google’s infrastructure and scale effortlessly as your data grows in size and complexity.
  • utilisateurs/psychederic/bi.1293661067.txt.gz
  • Dernière modification: Le 18/04/2011, 14:42
  • (modification externe)