תוכן משוכפל - Duplicate Content

ע"י שמול בתאריך 15/04/20 - 21 דק'

תוכן שאפשר למצוא אותו ביותר מכתובת אינטרנט אחת (URL) ברחבי האינטרנט נקרא "תוכן משוכפל". לתוכן שחוזר על עצמו במקומות שונים באינטרנט יש השפעות על מנועי החיפוש ובראשם גוגל ועל בעלי האתרים.

מה זה תוכן משוכפל?

לפי גוגל: בלוקים משמעותיים של תוכן בתוך אותו דומיין או בדומיינים שונים, אשר דומים זה לזה בצורה ניכרת או זהים לחלוטין נחשבים לתוכן משוכפל.

שימו לב:

  1. היקף התוכן: ההיגיון הבריא אומר שמילה אחת שחוזרת על עצמה אינה נחשבת לתוכן משוכפל וככל הנראה גם לא משפט. כאשר מדובר על מקטעים גדולים של תוכן, אז זה כבר סיפור אחר. גוגל משתמש במילים: "substantive blocks of content" כדי לתאר את ההיקף.
  2. פלייסמנט: לא מדובר רק על שכפול של תוכן בין אתרים כמו שאנו נוטים לחשוב, אלא גם בתוך דומיין אחד וגם על פני דומיינים שונים. למעשה, רב התוכן המשוכפל באינטרנט נמצא בתוך אותו הדומיין בגלל טעויות טכניות עליהן אפרט בהמשך הכתוב.
  3. מידת הדמיון: אילו הייתם מעתיקים את כל הכתבה הזו ומדביקים אותה לבלוג שלכם, היה ברור לכולנו שמדובר בתוכן משוכפל. אולם גוגל לא טיפש ובמיוחד היום לאור ההתפתחויות בטכנולוגיות NLP, לא מאוד מורכב לזהות תוכן שהועתק ונערך מעט או כזה שעבר "ערבול".

ההשפעות של תוכן משוכפל

אם לא היו השלכות לתוכן משוכפל כנראה שלא הייתם קוראים עליו כאן ועל כן עוד לפני שנכנסים למקור של תוכן משוכפל ואיך הוא נוצר, חשוב להבין קודם את ההשלכות שלו על המשולש: גולש - בעל אתר - גוגל. 

על גוגל ומנועי החיפוש

תוכן משוכפל קיים באינטרנט והמספרים מדברים על כך ש-30% מהתוכן באינטרנט משוכפל. גוגל רוצה להציג תוצאות חיפוש רלוונטיות לכל שאילתה שנכניס בתיבת החיפוש ואילו לא היה מתחשב בתוכן משוכפל (ומסיר אותו), הרי שדפי התוצאות היו נותנים מעט מאוד ערך: תוצאה אחת שהייתה חוזרת על עצמה מספר פעמים.

על כן תוכן משוכפל מציב בפני מנועי החיפוש את האתגרים הבאים:

  • להבין היכן באינטרנט יש תוכן משוכפל ולהתחקות אחרי כמה שיותר מהמקורות.
  • לפענח לאילו מהמקורות מגיע הקרדיט: מי המשכפל ומי המשוכפל, מי יותר סמכותי, היכן פורסם לראשונה וכו'.
  • לבחור איזה מקור(ות) ידורג(ו) בתוצאות החיפוש בעבור מונחי חיפוש שונים.
  • להחליט אילו מקורות להוציא לגמרי מהאינדקס כי אינם מספקים כלל ערך.
  • לנהל את תקציב הזחילה של האתר שלכם בצורה אופטימלית כאשר הוא נתקל במספר גדול של דפים עם תוכן משוכפל. כשהאתר שלכם מכיל תוכן משוכפל רב, הרובוט של גוגל "עובד קשה" יותר ומקבל פחות ערך (פחות תוכן מקורי) ובהתאם תקציב הזחילה שלכם עשוי להיפגע במקרה הרע, או להתבזבז על תוכן משוכפל במקרה הרע פחות.

על בעלי אתרים

ההשפעה של תוכן משוכפל על בעלי אתרים נגזרת מההשלכות במנועי החיפוש. נפריד לשני מקרים: תוכן משוכפל בתוך האתר שלכם, ותוכן משוכפל שהועתק מכם ופורסם באתר אחר.

תוכן משוכפל בתוך האתר (דומיין) שלכם עשוי לפגוע בכם באופנים הבאים:

  1. לגוגל יש הנחיות ברורות לגבי מניעה של תוכן משוכפל מצד אחד, ומצד שני הוא "סלחן" במובן שהוא לא רואה בכל שכפול תוכן זדוני. עם זאת, אם האלגוריתם של גוגל "יפספס" ויקבע שהתוכן המשוכפל באתרכם נועד כדי להטעות אותו או כדי להרוויח נקודות בקידום האתר, הוא עשוי להעיף את האתר שלכם מתוצאות החיפוש לחלוטין. מקרים כאלה מאוד נדירים, אבל הדרך הבטוחה היא פשוט למלא אחר ההוראת של גוגל ואחר הטיפים בכתבה זו כדי לצמצם את הסיכון.
  2. ברוב המקרים גוגל לא יסיר את האתר שלכם לחלוטין מהאינדקס, והמקרה הכי גרוע הוא שכלל התוצאות המשוכפלות לא יוצגו כלל בתוצאות החיפוש.
  3. במידה וגוגל יחוס עליכם ויבחר להציג את התוכן ששוכפל, עולה השאלה: איזו גרסה תוצג? גוגל לא מכיר את האינטרסים שלכם ועשוי לבחור להציג את הגרסה הטובה פחות מבין הדפים המשוכפלים שיש באתר שלכם - למשל את זו שממירה פחות, או את הדף שבו טרם עדכנתם את העיצוב החדש של האתר וכו'.
  4. השלכה עקיפה: כאשר יש לכם מספר גרסאות של אותו התוכן, כאשר תקבלו קישורים חיצוניים, כנראה שהם יתפזרו בין הגרסאות וכך הערך הקידומי שתקבלו מהקישורים ידולל ויתפזר בין כמה דפים במקום להיות מרוכז במקור אחד. התוצאה תהיה פגיעה במיקומים בתוצאות החיפוש.

מבחינת גוגל אין הבדל בין תוכן משוכפל באתר אחר (דומיין אחר) ובין תוכן משוכפל בתוך הדומיין שלכם וכל ההשלכות ברשימה למעלה תקפות גם במקרה שמישהו העתיק מכם ופרסם במקום אחר. ההבדל מבחינתכם הוא שאם גוגל יבחר להציג בתוצאות החיפוש את הגרסה המשוכפלת מדומיין אחר (ראו סעיף 3 ברשימה מעלה), אתם כבעלי אתרים תפסידו את המיקום ואת הטראפיק לטובת ה"גנב". כנ"ל גם לגבי סעיף 4 - הגרסה המשוכפלת הלא-מקורית עשויה לקבל קישורים מאתרים אחרים למרות שהקרדיט כלל לא מגיע לה.

ישנן השפעות נוספות על בעלי אתרים כאשר התוכן שלהם משוכפל ומועתק מלבד ההשפעה מגוגל, כגון: מסחרית, זכויות יוצרים ואפילו אגו. אף אחד לא אוהב לעבוד קשה ולראות שמישהו אחר קוצר את הפירות וכאשר מישהו "גונב" ומעתיק את התוכן שעמלתם עליו קשה ומפרסם אותו ללא רשות זה בהחלט לא נעים. הכלים המשפטיים להתמודדות עם גניבת תוכן הם מעבר להיקף של הבלוג הזה ומומלץ להיוועץ עם עו"ד לענייני קניין רוחני וזכויות יוצרים.

על הגולש

בקצרה: תוכן משוכפל לא משפיע על המשתמש כהוא זה.

בהרחבה: גוגל מתגאה בזה שהוא מאנדקס מאות מילארדים של דפי אינטרנט ואנחנו יודעים שזה רק קצה הקרחון ומספר זה מהווה בין 2-20% מכלל הדפים באינטרנט אם סופרים דפים שלא מאונדקסים ודפים ברשת העמוקה (Deep Web). מאידך, מי שמתעניין בתחום לגיטימי ספציפי, עם תיחום תרבותי וגאוגרפי בשפה מסויימת, למשל: "הנחיות פיקוד העורף לשעת חירום" - הרי שמספר הדפים הרלוונטיים לנושא זה יהיה מצומצם משמעותית.

כל זאת כדי לומר שרוב הסיכויים שגולש כלל לא ייתקל בתוכן משוכפל הן בגלל שגוגל מסנן את התוצאות ולא מציג תוצאות עם תוכן משוכפל, והן בגלל שהרשת גדולה מכדי שהמשתמש ייתקל בתוצאה משוכפלת בעצמו. הגולשים הבודדים שייתקלו בתוכן משוכפל לא יזכרו שנתקלו בתוכן בעבר ומתוכם עוד פחות גולשים יזכרו היכן נתקלו בשכפול ועוד פחות יידעו לזהות את הגרסה הקנונית - המקור שבו התוכן פורסם לראשונה ושהקרדיט נזקף לזכותו.

איך נוצר תוכן משוכפל?

ישנן סיבות רבות ומגוונות להיווצרות תוכן משוכפל: חלקן מתוך כוונה וחלקן בטעות, רובן המוחלט מתרחשות בתוך האתר ועל כן המניעה והטיפול באחריותנו ואילו השאר מתרחשות באתרים אחרים. ערכתי רשימה של סיבות שכיחות להיווצרות של תוכן משוכפל ואני מציע לעבור על כולה גם אם באתם לכאן בעקבות בעיה ספציפית כי אני בטוח שתוכלו למצוא בתוך הרשימה הזו בעיה נוספת שקיימת אצלכם ולא ידעתם עליה. וגם אם לא - שווה להכיר ולהשכיל.

אותו התוכן משוכפל על פני כתובות URL שונות

את כל הדיון שלנו לגבי תוכן משוכפל התחלנו בהגדרה שאומרת שתוכן נחשב משוכפל אם הוא מופיע ביותר מ-URL אחד. URL הוא מזהה ייחודי, חד חד ערכי - משמעות הדבר שמספיק ששתי כתובות URL שההבדל בינן הוא תו אחד כמו סימן שאלה או לוכסן, כדי שיהיה מדובר ב-URL שונה לחלוטין! להערכתי רוב התוכן המשוכפל באתרים נובע מחוסר הקפדה על כתובות URL ייחודיות באמת.

דוגמאות לוריאציות בכתובות URL שמקורן בעניין טכני והגורמות לתוכן משוכפל:

  • סכימה - גישה לדף באמצעות http או https
  • סאבדומיין - גישה לדף עם או בלי www לפני הדומיין, או אולי עם סאב דומיין אחר? או סאב דומיינים רבים?
  • דף ברירת המחדל - בגישה לדף הבית של דומיין או של תיקיה בתוך הדומיין נטען דף ברירת מחדל, בד"כ בשם index.html או index.php או אחר, בהתאם לשרת בו האתר מאוחסן. כך שייתכן שטעינה של seobits.co.il ושל seobits.co.il/index.php יטענו את אותו הדף.
  • נתיב - האם גישה אל seobits.co.il/about (ללא לוכסן בסוף) תטען את אותו הדף כמו גישה אל seobits.co.il/about/ (עם לוכסן בסוף)?
  • אותיות רישיות או קטנות
  • פרמטרים - דוגמה לשימוש בפרמטר הוא בתוצאות חיפוש באתר מכירות של חולצות למשל, פרמטר יכול להגדיר כיצד התוצאות ימויינו. האם רשימת חולצות ממויינת לפי מחיר היא שונה מאותה רשימה ממויינת לפי צבע? האם זה תוכן משוכפל? התשובה היא כן ולכן אין הצדקה שגוגל יאנדקס את שתי כתובות ה-URL האלה - אלא אם הוגדר אחרת (בהמשך), מדובר בתוכן משוכפל.

לצורך ההמחשה, אם נתעלם מגודל האותיות, הנתיב ומהפרמטרים ב-URL ונתחשב רק בסכימה, בסאב דומיין (www vs. non-www) ובדף ברירת המחדל ונחשב את כל הקומבינציות האפשריות, נגיע ל-2 בחזקת 3 וריאציות של ה-URL - כלומר: 8 כתובות URL שמציגות את אותו הדף
אם ניקח בחשבון וריאציות בנתיב, בגודל האותיות ובפרמטרים הרי שנגיע למיליונים (!) של כתובות URL אפשריות.

טבלה הממחישה כיצד שינויים קטנים בכתובת URL עשויים לייצר תוכן משוכפל
אותו הדף הנגיש מכתובות URL דומות אך שונות, נחשב תוכן משוכפל

גרסאות שונות של דף או של האתר כולו

לעתים בעלי אתרים מייצרים גרסה נוספת של דף מסויים או של אתר בכוונת תחילה. דוגמאות לכך:

  • גרסת מובייל לאתר - כלומר: אתר שלם שמיועד למובייל ומהווה שכפול (בכוונה) של האתר המקורי. תזהו את זה פעמים רבות בזכות ההודעה שקופצת בכניסה לאתר ושואלת אתכם אם אתם מעוניינים בגרסת "האתר המותאם" או "הרגיל".
  • גרסת הדפסה - כאשר בעל אתר רוצה לייצר דף נוסף של אותו מאמר או כתבה המיועד להדפסה (פחות תמונות, ללא תפריטים ורכיבים שקשורים לניווט באתר ואין להם כל משמעות בגרסה מודפסת).
  • גרסת AMP - אם לא מיושמת כמו שצריך, עשויה להיחשב כתוכן משוכפל.
  • פורמט שחשבתם שגוגל לא יסרוק - גוגל סורק ומאנדקס את כל ה"משאבים" שיש להם URL וזה כולל תמונות, דפי HTML, מסמכי PDF, גליונות אקסל, קבצי XML, פידים של RSS ועוד. אם באתר שלכם מופיע אותו התוכן בקבצים מפורמט שונה, זה עדיין תוכן משוכפל.

הצבת כתבה או מאמר משוכפל באתרכם

אחת מהשיטות הפופולריות של מקדמי אתרים לבנות קישורים היא לפנות לבעלי אתרים כמוכם ולהציע להם לכתוב תוכן שיוצב אצלכם באתר בתמורה לקישור. אפשר לדבר על היתרונות והחסרונות של "עסקה" שכזו אבל בהקשר של תוכן משוכפל, רק חשוב לוודא שהתוכן שיוצב אצלכם באתר הוא אכן מקורי ולא מופיע בדפים נוספים באינטרנט.

כנ"ל אם אתם מתכוונים להציב באתרים אחרים תוכן שאתם כתבתם. אם התוכן שכתבתם כבר מופיע באינטרנט, הצבה שלו בדפים נוספים בהחלט נופלת תחת ההגדרה תוכן משוכפל. אני לא אומר שזה לא אפשרי או אסור, אבל אם עושים זאת, יש לפעול על פי ההנחיות של גוגל בנושא - ועל זה בהמשך הכתבה.

תוכן משוכפל מטעמים פרגמטים

יש מקרים בהם התוכן משוכפל מטעמים פרקטיים וביודעין. לדוגמה: שם ותיאור של מוצר כלשהו, ספר למשל. זה נכון שכל חנות שמוכרת ספר יכולה לרשום מחדש תיאור מקורי וייחודי של הספר אולם בפועל חנויות ספרים מקוונות מוכרות מאות אלפי ספרים ולפעמים מיליונים ובפן הפרקטי זה לא מתאפשר. מה שקורה בפועל הוא שהחנויות מקבלות מהוצאת הספרים את התיאור של הספר ופשוט עושות "העתק-הדבק" לדף המוצר בחנות. התוצאה: מאות מיליונים של דפים עם תוכן משוכפל ברשת. 

עשו ניסוי וחפשו בגוגל את המשפט "לכולנו‭ ‬יש‭ ‬יכולת‭ ‬להגיע‭ ‬לגדולה‭ ‬ולהצליח‭ ‬ברמה‭ ‬עולמית" שלקחתי מתוך תיאור הספר מועדון החמש בבוקר באתר האינטרנט של סטימצקי. תוכלו להבחין שכל התוצאות יציגו את דפי המוצר - אותו הספר - בחנויות ספרים מקוונות שונות.

מלבד תיאור של ספר או כל מוצר אחר, אני יכול גם לחשוב על טקסט "אודות" שעסקים כותבים על עצמם. הרי אם בעל עסק, אינסטלטור למשל, כתב את הטקסט שמתאר אותו ואת השירות שלו בצורה הטובה והממירה ביותר, איזו סיבה הגיונית תהיה לו שלא להשתמש באותו הטקסט בכל פרופיל שיקים באתרי אינטרנט שמפרסמים אותו כמו דפי זהב, המקצוענים, פייסבוק, איזי וכו'?
התוצאה היא שוב: שכפול של תוכן על פני עשרות אתרים.

תבנית טקסט עם חלקים מתחלפים (טקסט מג'ונרט)

זוהי בעיה שכיחה במיוחד באינדקסים של בעלי מקצוע או שירותים. אם באתר אינטרנט שמציע לדוגמה שירותי גרירת אופנוע יש דף לכל עיר בארץ, מה יהיה ההבדל באמת בין הטקסט בדף גרירת אופנוע בתל אביב לבין הטקסט בדף גרירת אופנוע בחולון? הרי שניהם מדברים על גרירת אופנוע וכל ההבדל בינם הוא העיר.

הפיתרון האידיאלי היה לשבת ולכתוב לכל עיר טקסט מקורי וייחודי לדף שלה. בפרקטיקה מה שרבים עושים זה להעביר למתכנת האתר מעין תבנית טקסט עם שומרי מקום (placeholders) בהם יוזרקו שמות הערים על פי הדף בו הגולש נמצא. לדוגמה, הכותרת של כל הדפים האלה יהיו: "גרירת אופנוע ב_____" כאשר שומר המקום יוחלף ב"תל אביב" בדף של תל אביב, ב"חולון" בדף של חולון וכו'.

תבניות טקסט באתר יד 2: תיאור זהה שבו רק שם העיר מוחלף
תבניות טקסט באתר יד 2: תיאור זהה בדפי לוח השכרה שבו רק שם העיר מוחלף

סקרייפינג ורובוטים משכפלים

קרה לי לא פעם ולא פעמיים שפיסת תוכן מאחד האתרים שלי, ולפעמים האתר כולו - שוכפל לחלוטין. מדובר על רובוטים (כמו הרובוט של גוגל, אבל פחות סימפטים) שסורקים את הרשת ויוצרים תוכן משוכפל בכוונה. לא ברור לי מה הרווח שלהם מהשכפול הזה כי אין ספק שכאשר גוגל מזהה אתר שכל התוכן בו הוא משוכפל, הוא מבין שאין הרבה ערך לגולש באתר כזה - ובהתאם כמעט ולא מציג אותו בתוצאות החיפוש.

ההערכה שלי היא שמי שמפעיל את הרובוטים האלה פועל על פי חוק המספרים הגדולים: ברור להם שהם לא יתברגו לעולם במיקומים ראשונים (כי מקומות אלה שמורים לתוכן המקורי) אולם אם ישכפלו מיליונים על גבי מיליונים של אתרים, יזכו אולי לקליק פה וקליק שם וזה גם משהו. 

צריך לדאוג? רק במידה והגרסה המשוכפלת עוקפת אתכם בדירוגים. זה עשוי להתרחש אם האתר שלכם קטן \ חדש \ עם ציון סמכות נמוך והאתר המעתיק ותיק ובעל סמכות. אם האתר שהעתיק לא מתברג לפניכם בתוצאות החיפוש, אפשר להתעלם.

איך מאתרים תוכן משוכפל? 3 הכלים שאתם צריכים

אם אתם כותבים תוכן מעולה, התוכן שלכם כנראה יועתק. אם המעתיק יהיה הגון מספיק כדי להציב קישור חזרה לאתר שלכם, זה יעזור לגוגל להבין שהתוכן משוכפל מהאתר שלכם. באם תקבלו קישור חוזר ואם לא, כדאי שתעשו בדיקה יזומה מדי זמן מוגדר וחפשו תוכן משוכפל מהאתר שלכם ברחבי הרשת.

לפניכם שלושה כלים: אחד מתאים לבדיקת תוכן משוכפל על גבי הרשת (באתרים אחרים), אחד לבדיקת תוכן משוכפל בתוך האתר שלכם ואחד (גוגל) מתאים לשניהם.

השתמשו בגוגל לאתר תוכן משוכפל

אנחנו נכנסים לגוגל עשרות אם לא מאות פעמים ביום כדי לחפש אז אין סיבה שכאשר אנחנו רוצים לחפש תוכן משוכפל לא נשתמש בגוגל גם כן. גשו לדף אצלכם באתר אותו תרצו לבדוק, העתיקו פסקה אחת מתוך התוכן, הדביקו אותה לתיבת החיפוש של גוגל ועטפו אותה במרכאות משני הצדדים - זה התחביר שאומר לגוגל: חפש לי את המשפט הזה בדיוק כמו שהוא (ביטוי מדוייק). אפשר לחזור על הפעולה הזו עם פסקה נוספת אם רוצים מידת ודאות גבוהה יותר.

השתמשו בגוגל כדי לאתר תוכן משוכפל
חיפוש בגוגל של פסקה עם מרכאות יראה לכם כמה והיכן התוכן מופיע עוד ברחבי הרשת

ברשימת התוצאות אמור להופיע הדף שלכם (במידה והוא פעיל ומאונדקס). אם ישנן יותר תוצאות, הרי שהתוכן שלכם הועתק ושוכפל. אם התוצאה שלכם היא היחידה, אז הסבירות שהוא שוכפל ומופיע בדפים אחרים נמוכה. למה נמוכה ולא ודאי ב-100%? ייתכן שהתוכן מופיע בדף נוסף בגוגל שלא מאונדקס, ייתכן שגוגל פסל את התוצאה של המעתיק וכלל לא תראו אותה וכו'.

היתרונות בשיטה הזו:

  • גוגל חינמי ולא מוגבל בשימוש. אפשר לבדוק כמה שרוצים.
  • החשש (העיקרי) שלנו הוא מתוכן משוכפל בגוגל ולכן אין מקום יותר נכון לבדוק את זה מאשר בגוגל עצמו.
  • מספר הדפים המאונדקסים בגוגל ורעננות האינדקס מבטיחים בדיקה יסודית יותר משל כל מנוע אחר.
  • אפשר לחפש טקסט עוד לפני שהעליתם אותו לאתר שלכם.

CopyScape - מנוע חיפוש תוכן משוכפל

גוגל הוא מנוע חיפוש, לעומתו CopyScape הוא מנוע חיפוש לתוכן משוכפל וגניבה ספרותית - זו כל התכלית שלו ועל כן הוא מאוד מתאים למשימה שלנו. השימוש בשירות בנפחים קטנים הוא חינמי ומאוד מומלץ להיעזר בו. 

השימוש פשוט: מזינים את ה-URL של הדף שאותו רוצים לבדוק, לוחצים על כפתור החיפוש, ומקבלים רשימה של דפים נוספים באינטרנט בהם יש תוכן ששוכפל מאותו הדף.

CopyScape מנוע חיפוש לתוכן משוכפל וגניבה ספרותית
מדביקים URL ומקבלים רשימה של תוכן משוכפל ברשת, CopyScape

היתרון הבולט בשיטה הזו הוא שמתבצעת בדיקה של כל התוכן בדף, ולא רק פסקה או ביטוי. אם מישהו העתיק רק חלק מהתוכן שלכם, CopyScape יעלה על זה. למי שזקוק לכלי בדיקות תוכן משוכפל בהיקפים גדולים, אז יש גם API שמאפשר זאת (בתשלום).

Siteliner - זחלן לבדיקת תוכן משוכפל בתוך האתר

מוצר מבית היוצר של CopyScape שמתמקד יותר בתוכן משוכפל בתוך האתר. מדובר בכלי שסורק את האתר ועושה בדיקת SEO הכוללת מלבד בדיקות תוכן משוכפל גם בדיקת קישורים שבורים, ספירת מילים בכל דף, דירוג חשיבות כל דף בפני מנועי החיפוש, בדיקת היררכיית קישורים ולבסוף מפיק דו"ח עם הצעות לשיפור.

בהקשר שלנו, הדו"ח שנוגע לתוכן משוכפל (לאחר סריקה נמצא תחת הלשונית: Duplicate Content משמאל) מציג טבלה של כל כתובות ה-URL באתר ולצידה העמודות הרלוונטיות לנו: Match Words הוא מספר המילים שנמצאו משוכפלות; Match Percentage הוא "אחוז השכפול" - כלומר ככל שהאחוז יותר גבוה משמעות היא שהדף הוא פחות מקורי והתוכן בו משוכפל; Match Pages אומר לנו בכמה דפים נמצאו כפילות לתוכן מאותו הדף; והאחרון: Page Power לא קשור לעניין הכפילות אבל עוזר לנו להבחין ולתעדף כמה הדף חשוב ביחס לשאר הדפים באתר.

דו"ח כפילות תוכן באתר Siteliner
דו"ח כפילות תוכן באתר Siteliner

היתרון הבולט בשימוש ב-Siteliner למציאת תוכן משוכפל היא כמובן שהוא כלי ייעודי למטרה הזו ובהתאם לכך אנחנו מקבלים דו"ח מסודר אותו אפשר למיין לפי חומרת הכפילות או חוזק הדף המשוכפל וככה לאט לאט נוכל "לנקות" את הדו"ח עד למצב שאין לנו כפילות, או שיש כפילות שאנו מודעים לה והיא תקינה מבחינתנו.
יתרון לא פחות חשוב הוא הכלי הויזואלי שמאפשר לנו בקלות לאתר היכן יש תוכן משוכפל בכל דף: פשוט לוחצים על אחד הדפים בדו"ח הכפילות וייפתח לנו כלי שצובע ברקע בולט את המילים המשוכפלות ומסביר היכן עוד הן מופיעות - זה כמובן חוסך לנו עבודה הכרוכה באיתור המקטעים המשוכפלים בעצמנו.

איך מתמודדים עם תוכן משוכפל

לכל סוגיה של תוכן משוכפל יש את הפיתרון המתאים לה ויש להפעיל שיקול דעת בהתאם למקרה. אם יש לכם בעיה של תוכן משוכפל ואתם רוצים להתייעץ, מוזמנים לרשום בתגובות את הבעיה ואני ארשום מה לדעתי הדרך הנכונה להתמודדות.

האפשרויות שלכם להתמודדות עם תוכן משוכפל מסתכמות בעיקר בשלוש הבאים: הימנעות מלכתחילה, קנוניזציה ודיווח DMCA - וכולן מפורטות כאן למטה.

סוף מעשה במחשבה תחילה: הימנעו משכפול תוכן

ככל שזה תלוי בכם, נסו לנהל את התוכן שלכם על הצד הטוב ביותר. איפה שאין באמת סיבה אמיתית לתוכן משוכפל - הימנעו ממנו מלכתחילה בדרכים הבאות:

  • כשאתם מקבלים תוכן חיצוני להצבה באתר - בדקו אם הוא קיים במקום אחר ברשת לפני שאתם מעלים אותו אצלכם. וכנ"ל לגבי התוכן שלכם: אל תעבירו תוכן קיים שלכם לפרסום באתר אחר, אלא אם הוא נוקט באמצעים הנדרשים על ידי מנועי החיפוש כמו תגית קנונית (מיד אסביר מה זה אומר) או קישור חוזר לתוכן המקורי אצלכם באתר.
  • הימנעו מתוכן שחוזר על עצמו ברחבי האתר כמו כמה פסקאות של "אודות" בפוטר, ובמיוחד עם מדובר על תוכן ארוך. במקום: אפשר לצמצם את הטקסט שחוזר או הכי טוב: להעביר אותו לדף "אודות" נפרד.
  • בפן הטכני: ודאו שאתם מכירים את מערכת ניהול התוכן שלכם ושאתם לא מקימים דפים במספר כתובות URL או במספר אגפים באתר. בדיקה תקופתית בכלים שמניתי בכתבה הזו יעזרו לכם להימנע מטעויות טכניות שכאלה.
  • הגדירו התראות של גוגל (Google Alerts) כדי לעקוב אחרי נושאים הקשורים לעולם התוכן שלכם - זהו טיפ כללי שאינו קשור להגנה מפני תוכן משוכפל. אבל באותה נשימה, אם אתם כבר עובדים עם הכלי המעולה הזה, תוכלו להעתיק פסקה מתוך תוכן שכתבתם, ליצור על בסיסה התראה וכך תקבלו מייל בכל פעם שהיא תופיע במנוע החיפוש וזאת מבלי צורך לחפש בגוגל באופן יזום בכל פרק זמן מסויים.
  • גם תוכן דומה עשוי להיחשב משוכפל ולכן ככל שיש לכם מספר דפים דומים באתר שבהם מתחלף רק מעט מהטקסט בהתאם להקשר (ראו למעלה דוגמה של הפוטר של יד 2), החליטו מה נכון לעשות עם הדפים האלה: אם לכל אחד מהם יש זכות קיום משל עצמו - תצטרכו לבטא את זה בתוכן ע"י הרחבה וגיוון של התוכן. ככל שתרחיבו את התוכן הייחודי בכל דף, ככה הוא יהיה שונה מהאחרים והחשש משכפול יתבטל. לחלופין, אם אתם חושבים שהדפים הנ"ל דומים יותר מדי ואין סיבה לייצר הפרדה וייחודיות בינם, שקלו לאחד אותם לדף אחד (לא לשכוח הפניות 301 מהדפים שהתאחדו אל הדף המרכזי) וככה לבטל את הכפילות.

קנוניזציה (לא רק תגיות קנוניקל)

הפיתרון לכל סוגיה של תוכן משוכפל היא בעצם לאותת למנועי החיפוש מהו הדף המועדף מבין כל הדפים החולקים תוכן זהה או דומה. הרי מנועי החיפוש לא מושפעים משיקולים עסקיים כמו שלנו ותהיה זו החלטה קרה של אלגוריתם איזה דף (או דפים) יתברגו בתוצאות החיפוש אם לא נעשה משהו בנידון.

הבשורה הטובה היא שיש לנו מה לעשות בנידון ככל שהתוכן המשוכפל נמצא אצלנו באתר. גוגל נותן לנו את הכלים להגדיר איזה דף יהיה "הדף המועדף" או הדף הנכון מבחינתנו לייצג את התוכן שלנו בתוצאות החיפוש. בז'רגון אנחנו קוראים לאותו דף מועדף בשם "גרסה קנונית".

לפני שניגשים ליישם בצד הטכני, ראשית יהיה עלינו להבין איזו גרסה מבחינתנו היא הקנונית. האם זו הגרסה שממירה הכי טוב? אולי זו שמקודמת הכי טוב? אין תשובה אחת וצריך לשקלל מספר פרמטרים ולקבל החלטה ומאותו הרגע לדבוק בה ולדאוג להכחיד את התוכן המשוכפל, לעדכן קישורים נכנסים אל הדף הקנוני וגם לדאוג שלא יקשרו אליו יותר בעתיד.

לרשותנו מספר שיטות לבצע קנוניזציה, כלומר לרמוז למנועי החיפוש איזו גרסה היא הגרסה הקנונית של התוכן: הצבעת 301 וביטול גרסאות; הצבת תגית קנוניקל; מפת אתר; ולכפילות הנובעת מפרמטרים ב-URL: כלי איחוד של כתובות משוכפלות בקונסול.

אזהרה חשובה: כל הכלים שאמנה כאן מאותתים לגוגל בצורה כזו או אחרת איזה דף הוא קנוני ואליו יש להתייחס ואיזה דף משוכפל וממנו יש להתעלם. אם תשתמשו לא נכון באחד הכלים הבאים ותאותתו בטעות לגוגל להתעלם מהדף הקנוני, אתם עשויים לחוות פגיעה קשה במיקומים וייקח זמן ומאמץ רב להחזיר את המצב לקדמותו לכן יש לנהוג משנה זהירות בכל הקשור לקנוניזציה!

הצבעות 301 - הפניה מהתוכן המשוכפל לגרסה הקנונית

אם זיהינו תוכן משוכפל ואין הרבה ערך להשאיר את הגרסאות המשוכפלות, אפשר להגדיר הצבעות 301 מכל אחת מהגרסאות המשוכפלות אל הגרסה הקנונית.

משמעות הדבר היא שגוגל וגם הגולשים, שיגיעו אל דף משוכפל יועברו מיד לדף הקנוני. הגולשים לא יבחינו בזה בכלל, אבל לגוגל אנחנו בעצם נאותת שהדף (המשוכפל) שהיה בכתובת ההיא בוטל ו"עבר" לכתובת חדשה - לכתובת של הדף הקנוני. באמצעות מהלך כזה אנחנו יוצרים "תרכיז של מיץ קידום" - כלומר, "המוניטין" של כל אחד מהגרסאות המשוכפלות יועבר ויתרכז בדף הקנוני.

איך מבצעים זאת? בהתאם למערכת ניהול התוכן שלכם או בהיוועצות עם המתכנת של האתר.

אם לתוכן המשוכפל אין כלל ערך, למשל: דף חדש שנוצר בטעות ומכיל תוכן משוכפל אבל לא התברג בתוצאות ואין לו כלל טראפיק, אזי שאפשר לבטל לחלוטין את הדף הזה על ידי החזרת קוד 410 שיאותת לגוגל שהדף איננו. אפשרות דומה נוספת במידה ולדף המשוכפל אין יותר מדי ערך אבל בכל זאת הייתם רוצים שיישאר: תגית noindex בדף המשוכפל.

הצבת תגית קנוניקל

תגית קנוניקל (canonical) היא תגית מטה שמציבים בחלק ה-HEAD של קוד ה-HTML של הדף והיא מציינת בעבור כל דף, מהי הכתובת של הגרסה הקנונית שלו. הצבה של התגית מאפשרת לכם להכריז בפני גוגל איזה דף מבחינתכם הוא הגרסה הקנונית וגוגל יכבד את זה.

דוגמה לתגית קנוניקל בקוד מקור של דף HTML
כך נראית תגית קנוניקל של דף זה בקוד המקור

ראוי לציין שיש אפשרות להכריז על גרסה קנונית באמצעות HTTP Header אבל אם הצבת תגית בקוד הHTML של הדף נראית לכם כמו משהו טכני ומורכב, אזי שהוספת HEADER לתגובת ה-HTTP מהשרת יהיה יותר מורכב - אבל כדאי להכיר את האפשרות למקרים מיוחדים שאולי תזדקקו לזה.

שימוש במפת אתר להכרזה על הגרסה הקנונית

ציון של ה-URL של הדף הקנוני במפת האתר מאותת לגוגל שזו הגרסה שקנונית מבחינתכם. גוגל יזהה באופן עצמאי את הגרסאות המשוכפלות של התוכן ויבין דרך מפת האתר מה הגרסה הקנונית מבחינתכם. גוגל פרסמו שאינם מתחייבים להתייחס ל-URL במפת האתר כקנוני אבל אם יש לכם ריבוי כפילות תוכן באתר וזו דרך טכנית שקלה לכם ליישום, לכו על זה.

כלי איחוד כתובות URL בקונסול

אם אתם מנסים לפתור בעיית שכפול תוכן הנובעת מפרמטרים ב-URL אז כלי איחוד הכתובות בקונסול יעזור לכם לפתור את הבעיה. בגדול: הכלי מאפשר לנו להצהיר בפני גוגל אילו פרמטרים ב-URL משפיעים על התוכן בדף ואילו לא - זה בעיקר שימושי באתרי מסחר בהם התוצאות מפולטרות וממויינות באמצעות פרמטרים.

דוגמה להמחשה: מיון של חולצות בחנות בגדים אונליין לפי המחיר עשוי להוסיף פרמטר ל-URL כמו sort=price. וזוכרים שכל url מציין דף אחר נפרד? אז התוספת הזו של הפרמטר בעצם יצרה לנו דף "נפרד" שמהווה תוכן משוכפל שהרי בפועל התוכן בדף לא השתנה, רק הסדר שלו השתנה: החולצות הזולות עלו לראש הרשימה, והיקרות יופיעו למטה. באמצעות כלי איחוד כתובות נוכל להודיע לגוגל שהפרמטר sort הינו פרמטר שלא משפיע על התוכן בדף וכך גוגל יידע להתעלם ממנו ולא לאנדקס את כל הדפים שיש בהם את הפרמטר אלא רק אחד.

גם במקרה הזה, מדובר בפיתרון מהיר וגורף שיכול לחסוך המון עבודה אבל אין זה אומר שאתם לא יכולים להשתמש בתגית קנוניקל כדי לפתור את אותה הבעיה. אני תמיד ממליץ על שימוש בתגית קנוניקל כי הוא מאפשר מקסימום שליטה ובהירות.

סיכום

 

תגובה אחת
תמונת פרופיל motekoo
motekoo
15/05/20
אכן תוכן מאלף. השקעת כאן הרבה זמן. ואיכות. נשארה לי שאלה. מעתיקים את החומר שלי כבר תקופה ארוכה. האם האתר שלי נפגע. ואיך מפסיקים את זה.
לא תשאירו מילה טובה?

זה הדיל: כתובת הדוא"ל שלך לא תפורסם, אבל קישור לאתר שלך כן!