Friday, 18. January 2008
"Was nichts kostet, ist auch nichts wert" - dieser Glaubenssatz ist glücklicherweise nicht immer wahr.
"Darüberhinaus kann man jetzt auch das neue und kostenlose IBM Data Studio, dass neben DB2 auch IDS unterstützt, downloaden: ...". Diese Ankündigung flatterte mir noch vor Weihnachten per E-Mail in meine Inbox. Kurzentschlossen, da neugierig, habe ich also die 600 MB " IBM Data Studio Version 1.1.1" heruntergeladen und installiert, bevor sich IBM vielleicht doch noch einen Preis einfallen lässt. Denn vorweg genommen: Diese Software ist was wert!
Wer das Design Studio der inzwischen schon guten, alten DB2 Data Warehouse Edition kennt, wird mit dem Data Studios sehr gut klarkommen. Das gleiche Look-and-Feel, nahezu die gleichen "Perspektiven": Datenbankexplorer, Datenprojektexplorer, Eigenschaftenfenster usw. Kein Wunder eigentlich, denn beide Anwendungen basieren auf Eclispe, und von der Aufgabenstellung her sind sie sich recht ähnlich. Auch IBM Softwareentwickler müssen nicht stets das Rad von Neuem erfinden.
"Wertvoll, obwohl kostenlos" vollständig lesen
Sunday, 15. April 2007
Lateinisch "ignorare" bedeutet "nicht wissen“ oder "nicht kennen“. Ignoranz kann mit Unwissenheit übersetzt werden, aber auch mt "Dummheit". Aber soweit will ich hier nicht gehen.
Was der Autor des CW-Artikels " Was Unternehmen wirklich brauchen" offensichtlich nicht weiß oder kennt, ist die lange Liste der BI-Hersteller. Das ist nicht verwerflich, denn wer kennt die schon alle. Aber die großen Player im Markt sollte man schon kennen. Dies vorausgesetzt ist die diesem Artikel beigelegte Liste "BI-Aussteller auf der CeBIT" schon befremdlich.
Denn der Autor war nachweislich auf besagtem CeBIT-Forum "Business Intelligence und Enterprise Information Integration", schließlich war er dort Moderator einer Podiumsdiskussion. Noch schlimmer: einer seiner Teilnehmer war Roland Grund, Data Mining Spezialist bei IBM. Und jeder Anwesende verstand, dass IBM Data Mining-Software im Portfolio hat.
Und Data Mining gehört zur Business Intelligence, einige sagen gar: Data Mining ist die Königsdisziplin der Business Intelligence. Also ist IBM bereits in dieser Hinsicht Anbieter von BI-Software.
"Ignoranz" vollständig lesen
Sunday, 18. March 2007
Was sind wohl die Kosten, die ein Unternehmen für Data Mining Software kalkulieren muss. Die Antwort von Kennern der Data Mining-Szene: Data Mining gibt es bereits für lau, denn entweder kommt es im Bundle mit Datenbank-Software, oder es kommt als Open Source. Open Source scheint immer noch ein Synonym für kostenlos zu sein. Das alles ist ein großer Irrtum und dazu noch gefährlich.
An dieser Erkenntnis durfte ich am Freitag als Zuhörer einer Diskussion unter dem Titel "Zweiter Frühling für Data-Mining?" auf der CeBIT teilhaben. Sie wurden von den ausgewiesenen Data Mining Experten Wolfgang Martin und Peter Gentzsch zum Besten gegeben. Auch wenn beide viel Richtiges, aber auch nicht viel Neues zur Diskussion beitrugen, halte ich diese Einschätzung zu den Kosten von DM-Software für ziemlich daneben.
Denn das Martinsche Argument, dass DM-Software eingeschweißt in Datenbank-Pakete nichts oder nur wenig kostet ist nichts anderes als Schönrechnerei. Er meinte damit wohl die BI-Suites von IBM oder Microsoft. Offensichtlich wird Data Mining durch solche Bundles günstiger. Doch wie man es auch rechnet, die Kosten bewegen sich pro Prozessor komfortabel im fünfstelligen Bereich. Man sehe sich hierzu im Vergleich die reinen Kosten für die Datenbanken DB2 oder MS SQL Server an.
"Data Mining für lau?" vollständig lesen
Sunday, 18. February 2007
Bisher stand Data Mining nur für einen kleinen Kreis von Experten offen. Das wird sich ändern. Seit einiger Zeit arbeiten verschiedene Hersteller von Data Mining-Suites daran, diese Analyse-Software einem größeren Anwenderkreis zu öffnen. Am besten allen möglichen Anwendern - zumindest in jedem Unternehmen: " Data Mining for the masses".
Glücklicherweise gehörte ich auch zu dem erlauchten Kreis von Auserwählten, die Data Mining-Software auf ihrem Rechner installieren und nutzen konnten. Das waren und sind recht teure Einzelplatzlösungen, die -wenn überhaupt - nur durch sehr viel mühsame API-Programmierung einem größerem Kreis von Anwendern zugänglich gemacht werden konnten.
Die DB2 Data Warehouse Edition und hier insbesondere die Miningblox machen dem ein grausames Ende. Sie zerren Data Mining aus den Elfenbeintürmen der Analytiker und machen es für die staunenden Massen nutzbar. Und da die Miningblox auf einem Web Application Server laufen, also eine einfacher Browser als Frontend fungiert, sind dies nicht nur die Massen a la Microsoft - Systemvoraussetzung MS Windows -, sondern es kann wahrlich jedermann / jederfrau Mining-Analysen durchführen.
"Data Mining für jedermann" vollständig lesen
Saturday, 10. February 2007
Wer wagt, der gewinnt nicht immer. Ich habe es immerhin versucht und habe erfahren:
Die Minimalvoraussetzungen für die Installationen der Datawarehouse Edition auf einem Rechner sollte man nicht drastisch unterschreiten. Bei zu wenig RAM legt sich nach erfolgter Installation die Konfiguration der DWE-Komponenten schlafen. Der Versuch den WAS zu starten stößt an die Grenzen des physikalischen Arbeitsspeichers.
Der DWE 9.1.1 Installation Guide verrät unter "Installation Requirements" die Hardware-Anforderungen der DWE-Komponenten:
"Anspruchsvoll" vollständig lesen
Sunday, 4. February 2007
Nach dem ich mich schon hinreichend über die neuen Algorithmen für das Data Mining in der Data Warehouse Edition gefreut habe, gibt es mit den "Miningblox" als weitere herausragenden Neuerung einen weiteren Anlass zu froher Erwartung.
"Miningblox: Miningblox tags extend Alphablox functionality with data mining. IBM provides a toolkit and a framework for BI developers so they can easily create custom mining solutions for their business users by using Web applications. The complexity of mining is hidden behind a common Web interface that empowers business users to use data mining without needing to install a database on their own systems."
Mit Miningblox wird also die Erstellung von Data Mining-Anwendungen erleichtert, die auf einem Application Server unternehmensweit zur Verfügung gestellt werden können. Das klingt nach wahrhaftigem "Data Mining for the masses", keine komplexen Software-Installationen auf allen Rechnern, die auf Mining-Analysen zugreifen sollen. Als Frontend genügt ein Browser.
Die Mining-Analysen laufen weiterhin in der Datenbank, hier unter Kontrolle eines Application Servers, der mittels Alphablox die Mining-Ergebnisse dem Anwender zur Verfügung stellt.
Aber bis dahin muss ich noch einige Steine aus dem Weg räumen:
"On the DWE WebSphere application server, you must manually deploy the Miningblox Framework. For more information, see the file readme.txt in the \mbx\install directory." (Miningblox: Administration and Programming Guide, S.5)
Das klingt nach zusätzlicher Arbeit.
Friday, 26. January 2007
Die Empfehlung, alle Design Studio Workspaces von DWE 9.1 nach 9.1.1 zu migrieren macht schon Sinn. Auch wenn ich bisher fast ohne Probleme 9.1 Workspaces öffnen konnte, häufen sich nun Meldungen über Inkompatibiliäten.
Tatsächlich habe ich bisher in den mit 9.1 erstellten Projekten keine Änderungen vorgenommen, die ich hätte speichern wollen oder müssen. Ich bin also bisher gut ohne Speichern oder auch das angemahnte Migrieren von Projekten ausgekommen.
Es war schon irritierend, das im Datenbank-Explorer immer noch Verbindungen mit Datenbanken der DB2-Version 8.2 gelistet wurden, obwohl ich diese längst nach DB2 9.1 migriert hatte. Aber diese Kleinigkeit lässt sich durch ein wenig Handarbeit bereinigen.
Die Meldungen "Fehler beim Speichern" allerdings, die bei Änderungen an Mining-Flows erscheinen, sind nun der mehr oder weniger freundliche Hinweise, sich der letzten verbliebenen Nach-Installationsaufgabe zu widmen:
"Migrating Design Studio workspace projects from DWE 9.1 to DWE 9.1.1"
Einfach unter "Datei" "Arbeitsbereich wechseln ..." auswählen und in der folgenden Eingabeaufforderung das Stammverzeichnis für den neu anzulegenden Workspace eintragen. Danach wird das Design Studio mit dem neuen Arbeitsbereich gestartet.
"Post Migration Task" vollständig lesen
Thursday, 25. January 2007
Der "mittelpunktbasierte" Clusteralgorithmus mit einer Kohonen-Karte lässt sich durch verschiedene Parameter beeinflussen. In den Mining-Einstellungen des Clusterer-Operators wird nach Auswahl von "Kohonen" als Algorithmus "Anzahl Durchgänge" angeboten. Die maximale Anzahl Cluster ist als Vorgabe für beide Segementierungsverfahren vorgesehen.
Bleiben noch die beiden Größen für die Bestimmung des "Zuordnungslayout": LayoutNumRows und LayoutNumColumns. Hierfür bietet der Clusterer-Operator keine eigenen Eingabefelder an. Es bleibt also nur die Spezifikation der Layoutwerte mittels "Optionale Parameter".
Und das ist nicht trivial, da sollte man schon mal die Online-Hilfe zu Rate ziehen. Die rät einem mehr oder weniger verklausoliert zu
DM_setAlgorithm('Kohonen','<LayoutNumRows>4</LayoutNumRows><LayoutNumColumns>5</LayoutNumColumns>').
Zumindest habe ich keine bessere Variante gefunden.
"Die Wiederkehr der Kohonenkarte" vollständig lesen
Saturday, 20. January 2007
Neural Networks are back!
"Kohonen Clustering: The Clusterer operator now provides the neural Kohonen Clustering algorithm." Dies ist ja eigentlich kein neuer Algorithmus: Das Clustern mit der Kohonen Karte kannte schon der gute, alte Intelligent Miner for Data. Ich habe dieses Verfahren oft als Alternative zur demographischen Segmentierung benutzt, die jeweils gebildeten Gruppen verglichen und mich dann doch meistens für das Ergebnis des demographischen Algorithmus entschieden.
Aber eben nur meistens. Es kann nicht falsch sein, zu einer Mining-Aufgabe verschiedene Verfahren zur Verfügung zu haben. So kann man sich einen besseren Überblick über das Problemfeld verschaffen.
Ich habe als Alternative zu einer Baumklassifikation, die die vor einigen Wochen erstellt hatte, testweise eine Naive Bayes-Klassifikation durchgeführt. In diesem Falle war ich mit dem neuen Ergebnis nicht sonderlich zufrieden, obwohl der Visualizer durchweg bessere Qualitätswerte ausweist. Denn die im Feldbedeutungsdiagramm angegebenen Einflüsse der Variablen waren und sind im Falle der Baumklassifikation realistischer.
"Was gibt's Neues in DWE 9.1.1 (# 17)" vollständig lesen
Friday, 19. January 2007
Und nun zum Höhepunkt des DWE Refresh - zumindest aus meiner Sicht: die neuen " Data mining features". Ich meine damit nicht, dass die anderen Neuerungen marginal sind. Im Gegenteil, schon alleine die bisher beschriebenen Erweiterungen sind mehr als ich von einem "Refresh" erwarte. Von einem hunderstel Upgrade kann man höchstens etwas mehr als nur Fehlerkorrekturen erwarten.
Neue Mining-Algorithmen berechtigen eigentlich zu mehr als nur einem Hunderstel, z.B. zu 9.2 oder 9.5 oder gar zu 10.0. Dieses Refresh bring für mich mehr als eine komplette neue Windows-Version. Vista bringt die Menschheit nicht voran, wenn man mal von Intel oder AMD absieht. Lieber ein neuer Mining-Algorithmus als Tausend angeblicher Verbesserungen am GUI. MS ist doch inzwischen mehr damit beschäftigt, selbst aufgerissene Löcher zu stopfen als wirkliche Innovationen zu auszuliefern.
Aber das ist ein weites Feld. Ich komme lieber zurück zu den wichtigen und interessanten Dingen im IT-Leben, hier zu der Naive Bayes Klassifikation in der Data Warehouse Edition:
"Naive Bayes classification: The classification of information that is gathered from non-structured documents is a key element of structured and unstructured mining analysis. This algorithm provides this functionality with best acceptance throughout the industry. Naive Bayes classification is supported in the predictor operator."
Das ist eine Bereicherung für die Vorhersage kategorialer Variablen. Hier gab es bisher nur die Baum-Klassifikation, während zur Vorhersage kontinuierlicher Attribute sich gleich drei Verfahren anbieten. Es ist immer gut, eine Alternative zu haben. Trotz "naiver" Unabhängigkeitsannahmen liefert Naive Bayes häufig gute Ergebnisse.
Das ist aber noch nicht alles:
"Was gibt's Neues in DWE 9.1.1 (# 15 und 16)" vollständig lesen
Sunday, 7. January 2007
Der DWE Data Miner war schon zu Zeiten des Intelligent Miners for Data ein Weltklasse Mining-Werkzeug. Allerdings gab es seit der Version 6.x des IM im Bezug auf Analyse-Funktionalität keine Neuigkeiten mehr. Statt dessen wurden die Mining-Methoden in DB2 als Intelligent Miner for Modelling und Scoring integriert.
In dieser Zeit - und die begann spätesten im Jahre 2000 - behaupteten andere Hersteller von Data-Mining-Software, dass IBM die Entwicklung eines eigenen Werkzeuges ausgegeben habe. Ich erinnere mich, dass in diesem Zusammenhang häufig SAS genannt wurde. Ich war zu der Zeit und bin auch noch der Ansicht, dass IBM dem hätte offensiver entgegentreten müssen. Denn die, wie sich herausstellen wird, haltlosen Behauptungen mancher Wettbewerber wie SAS, SPSS, Oracle und neuerdings Microsoft grenzten schon an wettbewerbsschädigendem Verhalten.
Doch die DWE 9.1 und vor allem das Refresh sprechen eine deutliche Sprache. Die Integration von Mining-Technologie in das Data Warehouse-Umfeld ist aus meiner Sicht mehr als gelungen. Ich vermisse den Intelligent Miner for Data fast überhaupt nicht mehr. Die Abbildung des gesamten Data Mining-Prozesses, angefangen bei der Datenakquisition bis hin zur Darstellung der Ergebnisse, ist im Design Studio wesentlich einfacher und transparenter zu gestalten, als es vor der Version 9.1 der Fall war.
Mit DWE Version 9.1 habe selbst ich eingesehen: Die Mining Work Bench a la Intelligent Miner for Data ist tot, es lebe die Integration von mathematischer Intelligenz ins Data Warehousing.
Der Refresh bringt nun drei neue Mining-Algorithmen. Das gab es schon seit langem nicht mehr, dass die Kernfunktionalität des Miners erweitert wurde. Dazu kommen noch mit den Miningblox eine Neuerung, die die Darstellung von Mining-Ergebnissen ins Reporting-Umfeld integriert.
Das ist doch nicht normal für einen Refresh.
"Was gibt's Neues in DWE 9.1.1 (Data Mining Prolog)" vollständig lesen
Bevor ich zu den mit Spannung erwarteten neuen "Data mining features" komme, werden hier noch die letzten Neuerungen im "SQL Warehousing Tool" zitiert. Es handelt sich hierbei um acht neue Operatoren für Steuerungsflüsse.
"Stored procedure: This operator runs a specified DB2 stored procedure."
Klingt sinnvoll, das haben sicher einige 9.1-Anwender vermisst.
"Variable comparison: This operator performs compares an input variable with another value to determine conditional processing behavior in the flow."
Das erscheint geradezu selbstverständlich, wenn man schon in den Operatoren eines Steuerungsflusses mit Variablen arbeiten kann.
"Break, continue, and fail: These operators emulate Java programming semantics to perform conditional processing."
Das haben sich wohl viele DWE-Entwickler gewünscht.
"Reorg and runstats: These operators run the DB2 REORG and RUNSTATS commands on specified tables and indexes."
Was kann man neuerdings mit einem Reorg anstellen? Tabellen zeilenkomprimieren!
"Period row generator: This operator generates rows that contain specified datetime columns and appends them to a time dimension table"
Mal sehen, was man damit so alles anstellen kann.
Saturday, 6. January 2007
Auf das Kapitel "What's new in DWE 9.1.1" folgt die Überschrift "Migrating Design Studio workspace projects from DWE 9.1 to DWE 9.1.1". Das klingt nach mehr " Post-Installation"-Arbeit.
Nun war ich allzu neugierig herauszufinden, was seit der Version 9.1 so alles hinzugekommen ist. Dazu habe ich natürlich im Design Studio das eine oder andere Projekt geöffnet. Das war wohl etwas voreilig. Denn gleich im ersten Satz unter besagtem Titel heißt es: "Do not try to open a Version 9.1 workspace directly in Version 9.1.1 of the Design Studio."
Warum nicht? Was passiert, wenn doch? Ich wüsste doch gerne, welche Veränderungen die Ursache für diese Warnung sind.
Und es kommt noch schlimmer:
1. Export all of the projects from the Version 9.1 workspace, including referenced projects, before installing Version 9.1.1 of the Design Studio.
Tatsächlich habe ich meine Version 9.1 komplett nach 9.1.1 migriert ohne auch nur einen Worspace vorher zu exportieren.
Danach habe ich auch noch mindestens zwei Projekte geöffnet. In einem wurde anstatt des Diagramms zu einem Datenfluss das dazugehörige xml-Dokument auf der Arbeitsfläche angezeigt. Die Ursache hierfür hatte ich allerdings nicht auf die Migration zurückgeführt.
"Oops" vollständig lesen
Friday, 5. January 2007
Hier die letzten beiden Punkte aus der Liste der " Data flow enhancements":
"Sampling data: For operators that provide table properties, you can view sample data directly from the data flow editor."
Auch dieses Feature ist dem Mining-Fluss-Editor entlehnt, und das zu recht. In einem Mining-Fluss findet man es in Kontext-Menü eines geeigneten Operators unter "Daten" und "Beispielinhalt ...". Im Datenfluss-Editor heißt der Eintrag "Stichprobe des Datenbanktabelleninhalts entnehmen".
"Background flow execution in the Design Studio: You can run data flows and control flows in the background, and you can cancel control flows between operators. The new Execute Status view displays execution results." Dies ist neu für Datenflüsse, für Mining-Flüsse konnte und musste ich diese Option bereits nutzen, da Mining manchmal etwas länger braucht.
Bei letzten drei Erweiterungen für Datenflüsse wurden Funktionalitäten aus den Mining Flows übernommen. Das sollte aber nicht das Ende sein: Ich vermisse auf jeden Fall noch "Bis zu diesem Schritt ausführen ...".
Dies ist die Nummer 7 in der Liste der " Data flow enhancements":
"Creating suitable tables: Like the mining flow editor, the data flow editor now allows you to automatically create a suitable table for the data that is passing through operator output ports."
Das ist eine der Besonderheiten, die das Arbeiten mit Mining-Fluss-Editor so bequem machen. Nach rechtem Mausklick auf den Ausgabeport eines geeigneten Operators und Auswahl von "Geeignete Tabelle erstellen ..." erscheint der bekannte hilfreiche Assistent.
Auch wenn das Vorgehen für beide Flüsse auf den ersten Blick gleich aussieht, gibt es doch kleine, aber feine Unterschiede. Das geht gleich auf der ersten Seite des Dialogs los:
Aus einem Mining-Fluss aufgerufen findet man dort die Check-Box "Tabellenzieloperator automatisch erstellen und verbinden", in einem Datenfluss erscheint dort "Wählen Sie diese Option, um die Tabelle im Datenmodell und in der Ausführungsdatenbank zu erstellen. Nehmen Sie".
Ich wüsste gerne, was ich nehmen soll oder kann. Da hilft sicher ein Blick in die englische Version, die Online-Hilfe tut's nicht.
"Was gibt's Neues in DWE 9.1.1 (# 7)" vollständig lesen
|