Mit Scraping Surgeon kannst du mit chirurgischer Präzision festlegen, welche Abschnitte einer Webseite ZimmWriter an die KI übermitteln soll. Dazu brauchst du ScrapeOwl und CSS-Kenntnisse (oder die Hilfe von jemandem, der sie hat).
Klingt interessant. Aber was soll das bringen?
Das lässt sich am besten mit einem Beispiel erklären. Stell dir eine Amazon-Produktseite für ein iPhone 15 Pro Max vor.
Die Produktseite enthält Informationen über das iPhone 15 Pro Max, aber auch über andere iPhone-Modelle, iPhone-Zubehör und vielleicht sogar andere Telefone. Sie könnte sogar Informationen über Produkte enthalten, die andere Leute zusammen mit dem iPhone gekauft haben.
Wenn ZimmWriter (oder jeder andere KI-Schreiber) die gesamte Seite ausliest und die gesamten ausgelesenen Daten zur Zusammenfassung an die KI schickt, ist das ein Problem. Das Problem ist ein zweifaches:
- Die KI könnte verwirrt werden, welche Informationen sich auf das iPhone 15 Pro Max beziehen
- Die KI könnte auch andere Informationen in die Zusammenfassung aufnehmen, die für das, wofür du die Zusammenfassung verwendest, nicht relevant sind (z. B. einen Produktbericht über das iPhone 15 Pro Max).
Scraping Surgeon ist ein Weg, um all diese überflüssigen Informationen herauszufiltern und nur relevante Informationen auslesen.
Inhaltsverzeichnis
ToggleDas Fundament legen
Das Herzstück von Scraping Surgeon ist die Verwendung von Cascading Style Sheets (CSS) IDs und/oder Klassen, um zu identifizieren, welche Inhalte auf einer Webseite gescraped werden sollen.
Du hast vielleicht 0% Ahnung von CSS und das macht es sehr schwierig, neue Scraping Surgeon Domains ohne Hilfe einzurichten. Zumindest (und das erfordert null CSS-Kenntnisse) solltest du dein Amazon-Partner-Tag zum Standard-Amazon-Profil hinzufügen (im Dropdown-Menü Gespeicherte Domains) und dann auf die Schaltfläche Aktualisieren klicken. Danach solltest du dich nicht mehr mit Scraping Surgeon beschäftigen, es sei denn, jemand hilft dir.
Aber wenn du dich mutig fühlst und für das Abenteuer lebst, findest du hier eine Einführung in HTML und CSS. Um Scraping Surgeon zu benutzen, brauchst du ein paar Grundkenntnisse in beiden Bereichen.
HTML-Fibel
HTML ist das, was du siehst, wenn du in Chrome mit der rechten Maustaste auf den Hintergrund einer Webseite klickst und „Seitenquelle anzeigen“ wählst.
The code above is called HTML and it has various “tags”. In the example above:
- Apple iPhone 15 Pro Max, 1TB is called the “content”
- is the closing tag
While there are many HTML tags, some of the more common ones include:
- , , , , etc
- HTML heading opening and closings tags
-
- HTML paragraph opening and closings tags
-
- HTML div opening and closings tags
- A div is like a generic container that holds stuff
-
- HTML hyperlink opening and closings tags
-
- HTML image opening and closings tags
-
- HTML span opening and closings tags
- A span is like a div but it’s meant for inline (no line break) content
An HTML tag is like the inner-components of a car; it’s not pretty, but you need the engine, shocks, and drive shaft or the car will not operate.
Most people care more about how the car looks, then how it functions. Those “looks” are defined by CSS.
CSS Primer
Cascading Style Sheets (CSS) are like the outer shell of a car and gives a webpage its stylish look.
Styling a page uses what’s called CSS selectors. The two most common are ID and class selectors. The best way to think of ID and class selectors are as keywords a webpage developer defines.
How it works is you’d add some CSS selectors to your HTML tags, and those selectors (keywords) would link back to a CSS file which defines each keyword using CSS code. Sounds complex, but it’s not. Let me give you a very simple example.
Webpage HTML:
Here are some product details on the new apple iPhone!
CSS-Datei der Webseite:
#productTitle { font-weight: 600; font-size: 28px; } .center { text-align: center; } .tagline { font-weight: 400px; font-size: 22px; }
Ein CSS-ID-Selektor sollte nur einmal in der HTML-Datei vorkommen. In diesem Fall ist es productTitle und er ist der
Ein CSS-Klassenselektor kann mehrmals im HTML-Code vorkommen. Im obigen Beispiel ist er der Klasse
Tag zugewiesen. Du siehst, dass es als class="center" im HTML, sondern als .center in der CSS-Datei.
Wenn du genau hinsiehst, siehst du auch, dass es möglich ist, einem einzigen HTML-Tag mehrere Klassen zuzuweisen. Im Absatz-Tag haben wir sowohl die Klasse center als auch die Klasse tagline zugewiesen, getrennt durch ein Leerzeichen.
Verschachtelte HTML-Tags
Das letzte wichtige Konzept, das du für Scraping Surgeon verstehen musst, ist das Konzept der verschachtelten HTML-Tags.
Here is some text
Here is some more text
Beachte, dass der übergeordnete div-Tag zwei untergeordnete Absatz-Tags enthält. Die Absatz-Tags befinden sich innerhalb des div-Tags (und sind daher untergeordnete Tags), weil sie nach dem öffnenden
Tag, aber vor dem schließenden
Tag.
Der Grund, warum dies für Scraping Surgeon wichtig ist, liegt darin, dass Scraping Surgeon bei einem Verweis auf ein übergeordnetes Tag alle Inhalte innerhalb des referenzierten Tags, einschließlich seiner Kinder, scrapen wird. Bitte erinnere dich an diesen Punkt, denn es ist wichtig, ihn zu verstehen.
Scraping Surgeon Konfiguration
Scraping Surgeon befindet sich im Menü ZimmWriter Optionen, da es sich um eine Funktion handelt, die man einfach einrichten kann. Wenn ZimmWriter eine Webseite scrapt, wird Scraping Surgeon verwendet, wenn die in Scraping Surgeon gespeicherte "Domain" (mit aktiviertem Kontrollkästchen) mit der Domain der gescrapten Webseite übereinstimmt.
Domain
Für eine Domain gelten die folgenden Regeln:
- Sie muss einen Punkt enthalten
- amazon.de = OK
- amazon. = OK (nützlich für den Abgleich mehrerer TLDs)
- Er darf nicht www enthalten
- Er darf kein https enthalten
CSS-Titelklasse/ID oder HTML-Tags h1 oder h2
Du kannst entweder eine einzelne CSS-Klasse (.class) oder ID (#id) angeben, die das Element (oder übergeordnete Element) repräsentiert, das den Titel der Seite enthält, oder stattdessen einen der HTML-Tags h1 oder h2 angeben.
Im folgenden Amazon-Beispiel habe ich mich entschieden, den HTML-Tag h1 nicht anzugeben, weil Amazon-Seiten manchmal mehrere h1-Tags haben und das die KI durcheinander bringen würde.
Deshalb habe ich mich für die CSS-ID #productTitle entschieden, die normalerweise immer mit einem Amazon-Produkttitel erscheint. Ein Beispiel für den HTML-Code lautet wie folgt:
Notice how the title content “Apple iPhone 15 Pro Max, 1TB” is surrounded by the HTML span tag with an id=”productTitle” defining it. I’ve looked at various Amazon product pages, and they all seem to use this ID to designate the product title.
What if I were to have used the class “.product-title-word-break” instead of the ID that I found? Well, the “.product-title-word-break” class is repeated many times on an Amazon product page. So it’s a bad choice since it will contain many things other than just the product title.
So the trick is to find CSS classes and IDs that generally only refer to the item you want scraped and are consistent across many similar webpages on the same domain (e.g., all Amazon pages use those same designators for the elements).
CSS Image Class/ID
The image class (.class) or ID (#id) is optional. If you decide to use it, then it applies in these situations:
- In Penny Arcade, a Scraping Surgeon domain match will activate SS. If the image CSS selector exists, and a valid image is found (jpg, jpeg, png, or webp), then the image is downloaded and stored on your hard drive with the same name as the blog post txt filename. It will also be uploaded to WordPress as a featured image if you link up your website. Note: obeying and following any and all copyright laws is your responsibly.
- In SEO Writer, specifying a Scraping Surgeon domain match for a subheading URL will activate SS. If the image CSS selector exists, and a valid image is found (jpg, jpeg, png, or webp), then the image is downloaded and stored on your hard drive with the same name as the file file name but with 0001, 0002, 0003, etc., appended at the end. The numeric ordering is when you are dealing with multiple subheadings each with their own images. It will also be uploaded to WordPress as a subheading image (not as a featured image) if you link up your website. Note: obeying and following any and all copyright laws is your responsibly.
The selector I chose for the image was #imgTagWrapper. The
CSS Text Classes/IDs or HTML Tags p, h2, ul, ol, li, section, span
ZimmWriter allows you to specify up to five CSS classes and/or IDs and/or HTML tags p, h2, ul, ol, li, section, span representing various sections on the page with text you want scraped.
Separate any CSS elements and HTML tags with a comma.
Here is the list that ZimmWriter uses (at the time of this writing) for Amazon:
#feature-bullets, #productDescription_feature_div, #prodDetails, #tech, .review-text
Du kannst die CSS-Selektoren frei mit den erlaubten HTML-Tags kombinieren. Hier ist ein Beispiel:
#feature-bullets, p, #prodDetails, ol, .review-text
String zum Anhängen an das Ende der URL / Amazon Affiliate Code
Für eine Amazon-Domain fügst du einfach deinen Affiliate-Code hinzu. Er sollte aus einer Zeichenfolge, einem Bindestrich und einigen Zahlen bestehen (z. B. abc034-20).
Bei allen anderen Domains kannst du an das Ende der URL anhängen, was du willst.
Wie funktioniert das bei der Ausführung von ZimmWriter?
Diese Zeichenfolge bzw. dieser Partnercode wird für den Aufruf zur Aktion in ZimmWriter verwendet. Im Moment erstellt ZimmWriter einen Call-to-Action-Button in zwei Instanzen:
- In Penny Arcade kannst du beim Scraping einer Domain, die mit einer von Scraping Surgeon gespeicherten Domain übereinstimmt, eine benutzerdefinierte Gliederungsvariable {cta} in einer benutzerdefinierten Gliederung verwenden. ZimmWriter erstellt dann am Ende dieses Unterüberschriftenabschnitts eine Schaltfläche, die auf die gescrapte URL verweist und am Ende den angehängten String oder den Amazon-Partnercode enthält.
- Wenn du im SEO Writer eine Domain für eine Unterüberschrift scrapst, die mit einer von Scraping Surgeon gespeicherten Domain übereinstimmt, und das Kontrollkästchen "Produktlayout auslösen" aktiviert ist. ZimmWriter erstellt eine Schaltfläche am Ende der Unterüberschrift, die auf die gescrapte URL verlinkt und den angehängten String oder Amazon-Partnercode am Ende enthält.
Als Rezension behandeln
Im Moment gilt diese Einstellung nur für Penny Arcade, wenn du nicht den Originaltitel verwendest. Sie führt dazu, dass die KI den Titel mit dem Wort "Rezension" schreibt, das irgendwo darin vorkommt.
Nehmen wir an, du durchsuchst eine Amazon-Seite für ein "iPhone 15 Pro Max".
Ohne die Option "als Rezension behandeln" zu aktivieren, könnte ZimmWriter einen Penny Arcade Artikel mit dem Titel "iPhone 15 Pro Max: Unglaubliche Funktionen und solide Leistung" erstellen.
Wenn "als Rezension behandeln" aktiviert ist, könnte ZimmWriter einen Penny Arcade-Artikel mit dem Titel "iPhone 15 Pro Review" erstellen: Unglaubliche Funktionen und solide Leistung.
Aktiviere
Aktiviere die Domain für die Erkennung durch Scraping Surgeon oder entferne das Häkchen, um sie zu deaktivieren. Du kannst die Domain auch aus Scraping Surgeon löschen, aber in manchen Situationen ist es sinnvoller, das Häkchen bei "Aktivieren" zu entfernen.
Gespeicherte Domains
Du kannst bis zu 50 Domains in Scraping Surgeon speichern. Auch hier gilt: Einstellen und vergessen. Du musst eine Domain nicht "laden". Solange die Domain mit aktiviertem Kontrollkästchen gespeichert wird, ist sie für die Erkennung beim Scraping in ZimmWriter gültig.
Speichern / Aktualisieren / Löschen
Klicke auf die Schaltfläche Speichern, um eine neue Domain für Scraping Surgeon zu speichern.
Drücke den Aktualisieren-Button, um Änderungen an einer bestehenden Domain zu speichern.
Drücke auf die Schaltfläche "Löschen", um die Domäne zu löschen.