SEO-Blog Eintrag

8
JUN
2009
Avatar von SEOnaldo
Markus Heller (relix)

Markus Heller (relix)

Markus Heller von der Firma relix beschäftigt sich mit seit Jahren mit dem Thema Enterprise-Search und sorgt dafür, dass in (großen) Unternehmen die Mitarbeiter all das finden können, was anderswo schon einmal hinterlegt wurde.

SEOnaldo: Du bist ja im Gegensatz zu mir wirklich ein “Suchmaschinen-Optimierer” im eigentlichen Sinne und nicht nur ein “Website-Ranking-Optimierer”. Beschreibe doch bitte kurz deine Tätigkeit.

Markus Heller: In großen Unternehmen besteht eine sehr verteilte Landschaft an Repositories. Ein CRM-System hier, ein Wiki da, ein Intranetserver dort. Je größer Unternehmen werden, desto schwieriger ist es für die Mitarbeiter, den Überblick zu behalten, wer was weiß und wo man eine bestimmte Information finden kann. Daher braucht man Suchmaschinen, die für ein Unternehmen dieselbe Rolle übernehmen wie Google für das WWW. Meine Arbeit besteht in erster Linie darin, Repositories anzubinden und die Dokumentenverarbeitung an die Eigenschaften der Dokumente anzupassen, damit ein vernünftiges Ranking entstehen kann.

SEOnaldo: Was sind die größten Herausforderungen aus Sicht einer Suchmaschine?

Markus Heller: Im Suchmaschinenhimmel findet der User alle gesuchten Dokumente innerhalb der ersten zehn Treffer. Irrelevante Dokumente tauchen möglichst gar nicht auf, die Precision ist maximal. Allerdings sind wir auf der Erde… Um ein möglichst optimales Ranking zu ermöglichen, muß eine Suchmaschine die wichtigsten Terme und Phrasen in einem Dokument automatisch erkennen können: Ein Titel ist wichtiger als ein Text im Body. Und ein Wort am Ende des Dokuments ist nicht so wichtig wie eines am Anfang. Bei Unternehmen gibt es stets ein geschäftsspezifisches Vokabular: Produkt- und Technologiebezeichnungen, Personennamen, Ortsbezeichnungen und viele andere Informationsentitäten. Die Suchmaschine muß diese Entitäten in allen
linguistischen Varianten zielsicher erkennen und mit einem Boost versehen. “3rd Generation Networks” sind für ein Telekommunikationsunternehmen nicht nur drei Terme, die in einem Dokument vorkommen, sondern ein enorm wichtiges Mehrwortlexem.

Außerdem muß man stets prüfen, ob die User dieselbe Sprache sprechen wie jene, die die Dokumente erstellen. Mit einer QueryLog-Auswertung kann man eventuelle Diskrepanzen erkennen und dann ggf. die Dokumente automatisiert mit Synonymen anreichern, um den Recall zu erhöhen.

SEOnaldo: Welche Hardware ist nötig, um in einem Unternehmen eine Suchmaschine sinnvoll verwenden zu können und was sind die Treiber, die den Umfang der nötigen Hardware bestimmen?

Markus Heller: Die wichtigsten Parameter für die Wahl einer passenden Hardwareplattform ist die Anzahl der Dokumente, denn danach richtet sich die Größe des Index. Auch die erwartete Anzahl der Queries pro Sekunde (QpS) ist wichtig, denn danach richtet sich mitunter die Anzahl der benötigten Prozessoren. Aber bei großen Installationen unterscheidet man besser zwischen Dokumentenverarbeitung und Queryverarbeitung: Die User Experience soll nicht unter einer umfangreichen
Dokumentenverarbeitung leiden. Auch die Frage nach der Verfügbarkeit ist wichtig: Welche Folgen hat es, wenn ein Index-Server offline geht? Große Installationen arbeiten daher stets mit einem Cluster mit mindestens drei oder vier Maschinen. Die Anzahl der Index-Engines sollte linear skalieren. Es wäre fatal, wenn die Gesamtperformance immer schlechter wird, je mehr Maschinen im Cluster mitarbeiten. Wir rechnen zurzeit etwa mit einem zusätzlich Indexserver je einer halben bis einer Million Dokumente.

SEOnaldo: Was für Dokumente überwiegen in unternehmensinternen Netzen und was bedeutet das für den Betrieb einer Suchmaschine?

Markus Heller: Wir haben bei großen Unternehmen im Enterprise-Search-Kontext meist nur sehr wenige HTML-Dokumente. Damit gibt es nur sehr wenige Links. Wir sprechen von einer Größenordnung von Office-Dokumenten zu HTML-Dokumenten von 97:3. Damit wird klar, daß ein PageRank-basiertes Ranking meist keine guten Treffer erzeugt, bzw. relevante Dokumente oft nicht in den ersten zehn Treffern auftauchen. Man muß also andere Strategien verfolgen, um ein gutes Ranking zu erreichen: Eine Strategie ist, Dokumente besser zu klassifizieren und unternehmensrelavante, und damit für den Unternehmens-User wichtige Terme zu taggen. Die andere Strategie besteht darin, den User zu unterstützen, die Ergebnismenge besser zu erschließen: Je länger die Query, desto kleiner ist der Ergebnisraum, und desto größer ist die Wahrscheinlichkeit, die gesuchten Dokumente in den ersten zehn Treffern zu finden. Die meisten Suchmaschinen arbeiten daher inzwischen mit Suggests, wobei aber bisher oft nur Einzelwörter oder N-Gramme vorgeschlagen werden. Für unsere Suggest-Technologie berechnen wir aus den tatsächlich existierenden Dokumenten relevante Phrasen und gehen damit inhaltlich bereits auf den Nutzer zu.

SEOnaldo: Als SEO beschäftigt man sich derzeit zwangsläufig überwiegend mit dem Thema Linkbuilding. Gibt es bei internen Suchmaschinen überhaupt relevante Off-Page-Faktoren?

Markus Heller: Das ist der wesentliche Unterschied zwischen Websearch und Enterprise Search. Optimierung im ES-Kontext bezieht sich viel mehr auf Anreicherung von Dokumenten mit Metatags sowie der Erstellung unternehmensspezifischer Lexika, damit wichtige Begriffe maschinell erkannt werden können. Das ist wohl der wichtigste, aber auch der arbeitsintensivste OffPage-Faktor.

SEOnaldo: Mit SEOs und SEO-Spammern musst du dich innerhalb von Unternehmen
vermutlich nicht herumschlagen, oder? Was sind hier die großen Herausforderungen?

Markus Heller: Repositories und Projekte wollen in Unternehmenssuchmaschinen natürlich genauso gut in einer Ergebnisliste positioniert sein. Allerdings hat man keinen nennenswerten Konkurrenzkampf um die vordersten Plätze bei einzelnen Queries, weil sich die wenigsten Unternehmen einen internen Wettbewerb um identische Produkte und Services leisten. Hier sind Synergie-Effekte viel wichtiger. Technisch beginnt die Arbeit meist mit der Anbindung von Repositories: Viele Interfaces wurden an die Geschäftsnotwendigkeiten angepaßt, Standard-Konnektoren funktionieren oft nicht. Auch die Konfiguration der Informationsextraktion ist sehr arbeitsintensiv: Wenn die Suchmaschine inhaltlich das Geschäft der Firma “verstehen” soll, muß man es ihr beibringen, indem man Lexika erstellt.

SEOnaldo: Was kann jemand, der bei Google & Co. gut gelistet werden möchte von dir lernen?

Markus Heller: Content is King. Im Web und SEM sollten Unternehmen darauf achten, möglichst interessante und informative Inhalte zu präsentieren. Je höher der Informationsgehalt, desto besser. Autoren sollten möglichst bekannte und markante Begriffe verwenden und sich fragen, welche Sprache die Zielgruppe verwendet. Die natürliche Begriffswelt der Dokumente sollte der Begriffswelt
der Zielgruppe entsprechen. Eine ehrliche Ansprache der Zielgruppe nimmt viele Optimierungsschritte häufig vorweg.

SEOnaldo: Was hältst du – aus deinem Enterprise-Search Blickwinkel – von Wolfram Alpha?

Markus Heller: Wir werden derzeit häufig mit der Frage konfrontiert, welchen Einfluß Wolfram Alpha auf Enterprise Search hat. Wolfram Alpha präsentiert Bäume an Informationsketten: Die Zeichenkette Boston ist eine Stadt. Die Stadt befindet sich an der Ostküste der USA. Die Stadt hat soundsoviele Einwohner usw. Wolfram Alpha speichert solche Informationsketten, und deren Erstellung ist sehr arbeitsintensiv, sonst wäre es nicht erklärbar, daß auch sehr große Unternehmen bislang bei Wolfram Alpha unbekannt sind. Wolfram Alpha crawlt und indexiert also keine Dokumente. Daher ist es nicht möglich, mit einer Webseitenoptimierung auf WA Einfluß zu nehmen. Es ist auch nicht möglich, WA-Technologie in Form von Software für ein Unternehmen zu kaufen.

Durch die Erstellung von Grammatiken und semantisch getaggten unternehmensbezogenen Lexika haben wir eine vergleichbare Strategie, nur eben sehr fokussiert. Allerdings gehen wir einen Schritt weiter, denn Enterprise Search will ja nicht nur Informationen, sondern auch Dokumente präsentieren, die entsprechende relevante Informationen beinhalten. Ich warte darauf, daß Wolfram Alpha die gesammelten Informationsrelationen auch zum Tagging von Dokumenten nutzt. Dann wäre Wolfram Alpha für Google eine richtig gefährliche Konkurrenz.

SEOnaldo: Vielleicht noch ein Wort zu der Information Retrieval Diskussion?

Markus Heller: Eigentlich ist der Begriff “Information Retrieval” für die bisherigen Ansätze falsch, denn es werden bei bestehenden Suchmaschinen immer nur einzelne Tokens indexiert. Doch bei einzelnen Tokens handelt es sich um Daten. Information entsteht erst, wenn sie mit anderen Daten in Kontext gesetzt wird: 500 Nm ist nur eine physikalische Größe. Wenn ein BMW 500 Nm Drehmoment hat, ist das eine Information. Und daß diese Größe an einer Ampel sehr sportlich ist, das ist Wissen. Suchmaschinen verlassen inzwischen das Retrieval von Tokens und gehen zu einem echten Information Retrieval über. Das erfordert jedoch, daß sich Suchmaschinen dem Konzept der Information und der Informationsextraktion stellen.

Insofern ist an meiner Arbeit besonders spannend, daß man die Vorstöße innovativer und neuer Marktteilnehmer recht gut einschätzen und von anderen Ansätzen sehr gut lernen kann.

Der Beitrag wurde am Montag, den 8. Juni 2009 um 10:15 Uhr veröffentlicht und wurde unter Interviews, Potenzialanalyse, Suchmaschinen abgelegt. Du kannst die Kommentare zu diesen Eintrag durch den RSS 2.0 Feed verfolgen. Du kannst einen Kommentar schreiben, oder einen Trackback auf deiner Seite einrichten.


8 Kommentare

  1. UWE




    Spannend. Mal eine andere Perspektive…




  2. Etwas mehr Einleitung als “Markus Heller (relix)” hätte geholfen nicht erst das halbe Interview lesen zu müssen um zu verstehen, dass der Interviewpartner Enterprise Search Technologien anbietet und optimiert. Nach dem Titel des Postings hätte ich eher ein Interview mit einem Suchmaschinen-Mitarbeiter (a la Matt Cutts) erwartet.

  3. SEOnaldo




    @Randolf: Vielen Dank für den Hinweis. Ich habe das Posting jetzt um einen einleitenden Satz ergänzt.

    Beste Grüße
    SEOnaldo




  4. Oh Mann! Jetzt komme ich mir total “unecht” oder gar gefälscht vor! Doch selbst wenn wir den Begriff Suchmaschinenoptimierer wörtlich nehmen so tut der SEO zwar als Mittel Webseiten im Ranking steigern aber im Endeffekt damit die Ergebnisse verbessern. Bestes Beispiel ist Die WELT. Die ist aufgrund von SEO führend bei der News-Suche.

    SEO ist also immer auch Suchmaschinenoptimierung im buchstäblichen Sinne.

  5. Markus Heller




    http://www.heise.de/newsticker/Nachbesserungen-bei-Wolfram-Alpha-Bing–/meldung/144106

    … zwei Monate später :-)




  6. Im Grunde genommen sind wir ja auch “echte” Suchmaschienenoptimierer, da wir versuchen unsere Page in den Serps nach vorn zu bringen. Da wir unsere Seite für gut, wenn nicht die beste halten verbesseren/optimieren wir ja nur die Suchmaschine.
    Relevantes nach vorn!




  7. Ähm ich hab mich beim Link oben vertippt und hab ein , statt nem Punkt vors de gemacht. Und dann hab ich nen nofollow auf meinen Beitrag bekommen, will aber follow haben :-P




  8. Interessantes Interview! Als SEO für das Ranking in Web-Suchmaschinen habe ich mir über die internen Firmensuchmaschinen nie Gedanken gemacht. Eine ziemliche Herausforderung, denkt man allein an weltweit vertretene Firmen und deren Datenmengen, die es “zu bündeln” und priorisieren gilt.

Einen Kommentar schreiben