RapidMiner von Rapid-I auf der CeBIT 2010

RapidMiner ist ein tausendfach verbreitetes Open-Source Data Mining Tool der Firma Rapid-I GmbH aus Dortmund. Auf der CeBIT hatte ich Gelegenheit mich bei dem Co-Founder Ralf Klinkenberg über RapidMiner zu informieren und ein paar interessante Details zu erfahren, z.B. ob sich mit dem RapidMiner Cloud Mining realisieren läßt. Hier ein kurzer Überblick über den RapidMiner und die Firma Rapid-I dahinter.

Rapidminer 190 in RapidMiner von Rapid-I auf der CeBIT 2010

RapidMiner auf der CeBIT 2010

RapidMiner, vielen Data Minern noch unter dem Namen YALE bekannt, wurde ab 2001 an der Universtät Dortmund entwickelt. Seit dem hat es seine Leistungsfähigkeit oft unter Beweis stellen können – ich selbst habe es damals das erste Mal beim Data Mining Cup 2006 ausprobiert. Mittlerweile wird es bei der Open-Source Plattform sourceforge gehostet und dort auch weiterentwickelt. Zur Zeit ist bereits die 5. Version der Software im Einsatz.

Die Firma Rapid-I GmbH bietet Enterprise Editionen

Aus dem Bedürfnis vieler Unternehmen, das Open-Source „Risiko“ ein wenig abzuschwächen und einen „Geschäftspartner“ zu haben, der auch Support bietet, wurde die Firma Rapid-I GmbH gegründet. Hier vertreiben CEO Dr. Ingo Mierswa und CBDO Ralf Klinkenberg und ihre Mitarbeiter drei kostenpflichtige Enterprise Editionen von RapidMiner an; die SMALL, STANDART und die DEVELOPER Edition. Diese zertifizierten Versionen des Open Source Produktes geben Unternehmen die benötigte Sicherheit, die Software in der Unternehmens Infrastruktur zu betreiben. Auch hier fand der Rollout der Version 5 bereits statt.

Rapidminerteam in RapidMiner von Rapid-I auf der CeBIT 2010

Rapid-I Co-Founder und CBDO Ralf Klinkenberg mit Mitarbeitern Anna Szot und Dr. Simon Fischer (v.l.)

Data Mining mit RapidMiner

RapidMiner ist eine vollständige Data Mining Suite. Das bedeutet, von der Anbindung zur Datenbank über den benötigten ETL bis zur Analyse und dem Reporting werden alle Prozessschritte der KDD abgedeckt. Das Tool unterstützt mehr als schwindelerregende 500 Data Mining Methoden, und hat sich bei diversen Tests (z.B. von BARC als bestes Open Source Tool) behauptet. Eine intuitive und sehr weit fortgeschrittene Benutzerführung ermöglicht dem Data Mining Experten das Lösen von so ziemlich allen Problemen, die in der Praxis anfallen. Die Software arbeitet mit Repositories, also virtuellen Speicherorten für die Daten. So können z.B. die Metadaten in jedem Prozessschritt abgerufen werden. Auch ein bemerkenswertes Feature ist die Echtzeit Validation; schon zum Zeitpunkt des Designs sind Teilergebnisse erkennbar, die oft bei Data Mining Verfahren anfallenden „Trial-and-Error“ Aufgaben werden merklich reduziert. Auf der RapidMiner Website sind einige interessante Video-Tutorials vorgestellt.

Mehr als Data Mining

RapidMiner hat im Laufe der Jahre einiges an Funktionsumfang dazugewonnen. Wo früher nur das Datenanalysetool YALE stand, gibt es jetzt für viele Teilprobleme eigene Lösungen:

  • RapidAnalytics: die Enterprise Server Architektur
  • RapidDoc: Text Mining und Dokumentenklassifkation
  • RapidSentilyser: Market Insight (wie oft und in welchem Kontext wird der Firmenname erwähnt?)
  • RapidNet: Explorer um Verbindungen zwischen Komponenten in Netzwerken aufzudecken und zu gewichten
Buzz in RapidMiner von Rapid-I auf der CeBIT 2010

Das BuzzBoard im RapidSentilyser

Das BuzzBoard ist ein Dashboard für RapidSentilyser, das Echtzeit-Feedback über die Publicity-Situation eines Unternehmens übersichtlich darstellt. Ich habe ein beeindruckendes Beispiel gezeigt bekommen; hier wurden die Finanz-Nachrichten der letzten Jahre für einen Konzern analysiert und mit aktuellen Entwicklungen der letzten Woche in Kontext gebracht. Das Fokus lag hier darauf, ob der Konzern in „positiven“ oder „negativen“ Sinn-zusammenhängen genannt wurde. So konnte man die Auswirkungen von Publicity-Maßnahmen direkt in Form einer aktuellen Kennzahl ablesen.

Cloud Mining mit dem RapidMiner

Durch die Client-Server Architektur von RapidAnalytics kann das Repository überall liegen; auch in der Cloud. Prinzipiell ist also ein Einsatz des RapidMiner für Cloud Mining möglich. Die Kernkompetenz einer Cloud Mining Lösung, nämlich die Parallelisierung der Algorithmen oder des Scorings, wurde aber nicht ausdrücklich fokussiert. Der RapidMiner mit RapidAnalytics ist also im Moment in großen etablierten Unternehmens-Infrastrukturen am besten aufgehoben.

1 Kommentar zu RapidMiner von Rapid-I auf der CeBIT 2010

  • Salut, Merci pour le tuto. J’ai une question concernant le nettoyage après décapsulage. Vous avez utilisé un produit spécial ou juste de l&-isuo;essuqertout (Sopalin).

Antwort verfassen

 

 

 

Diese HTML Tags sind erlaubt

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>