איתור מידע: האמנות של ניסוח שאלות


השימוש הנפוץ ביותר, אך לא היחיד, שעושים לומדים במאגרים, הוא איתור מידע. בתהליך האיתור הלומד מתשאל את המאגר על-ידי שהוא מנסח שאלות המפעילות את המערכת ושולפות מתוכה פריטי מידע העונים לתנאים שהציב השואל. בתהליך זה הלומד מנהל "משא ומתן" אינדיווידואלי עם נתונים ופריטי מידע של תחום התוכן, המצויים במאגר בלי קשר זה לזה. איתור המידע מצליח כשהוא נתון לבקרה מתמדת של המשתמש. הבקרה כוללת הערכה של טיב תהליך האיתור עצמו ושל טיב פריטי המידע שאותרו. ללא בקרה יש חשש שהידע שיגבש המשתמש מהמידע שאותר לא יהיה מבוסס דיו. האתגר המרכזי העומד בפניו של מאתר המידע הוא לתכנן ולקיים תהליך תשאול אמין – כלומר, לנסח את שאלותיו בעזרת כלי החיפוש שהמאגר מעמיד לרשותו כך שיניבו מידע העונה בדיוק לצרכיו. לשם כך עליו לתרגם את המושג או את הנושא שהוא מחפש מניסוח סמנטי לניסוח תחבירי (המכונה שאילתה). היעילות של תהליך האיתור תלויה במידה רבה באסטרטגיות שמפעיל הלומד במהלכו (וגם ביעילותו של מבנה המאגר). לתוצאות של תהליך איתור המידע תהיה השפעה רבה על טיב המידע שנמצא, ובעקבותיו גם על טיב הידע שהלומד עשוי להפיק מהמאגר.

הפרק הנוכחי דן באסטרטגיות ובתהליכים של איתור מידע. אין בכוונתנו ללמדכם היבטים טכניים הקשורים בחיפוש מידע, כגון השימוש במנועי חיפוש, ביצוע חיפוש פשוט וניסוח שאילתות בוליאניות, אלא להתמקד בעקרונות החשיבה הקשורים בחיפוש מידע ובהבנת האסטרטגיות והמודלים שבהם אנו נעזרים. כהכנה לפרק זה, עליכם לרכוש באופן עצמאי את הידע הנדרש.

תרגיל

הכן עצמך לשליטה בכלים של איתור מידע
בטרם נחקור לעומק את תהליכי איתור המידע, אתה מתבקש להגיע באופן עצמאי לשליטה בשיטות האלה:

  • ביצוע חיפוש פשוט בעזרת מנוע חיפוש (מומלץ להתאמן בגוגל)
  • ביצוע חיפוש בקטלוג כלשהו (מומלץ להתאמן ביאהו)
  • ביצוע חיפוש מורכב וניסוח שאילתה בוליאנית תוך שימוש באופרטורים AND, OR, NEAR ו-NOT.
באתר של תיכון בליך ברמת גן תמצא תכנית לימודים במידענות, ובה תרגילים רבים באיתור מידע. אם אתה זקוק להשלמת ידע מסוג זה, אנו מציעים שתיכנס לאתר ותתנסה בו בתרגילים שונים של איתור מידע.


בהיותם מערכות ממוחשבות לאחסון ואחזור של מידע, מאגרי המידע נבחנים לפי איכותם של כלי החיפוש שהם מעמידים לרשות המשתמש. כל מאגר מכיל כלי תִשאול שבעזרתם המשתמש מבצע את פעולות איתור המידע. מניחים שהלומד המחפש מידע במאגרים מעוניין, בראש ובראשונה, לזהות קשרים בין מרכיבים של עולם התוכן, וליצור בעזרתם ידע חדש. הרי אפילו בחיפוש הפשוט ביותר, כשאנו מבקשים לגלות נתון טריוויה, כמו "מהו ההר הגבוה בעולם", הדבר נעשה במסגרת תהליך למידה כלשהו, כגון עבודת חקר בגאוגרפיה או הכנת מסלול טיול. מרצ'יוניני (Marchionini, 1989) מבחין בין שני סוגים של משימות חיפוש במאגר מידע: משימות סגורות, שבהן מחפשים תשובה חד-ערכית לשאלה פשוטה (כגון, מהו ההר הגבוה בעולם; מתי יעלה הירח הערב), ומשימות פתוחות, שבהן מחפשים קשרים בין פריטי מידע (כגון, מה הקשר בין הרגלי צריכה למצב כלכלי; איך כדאי לנהל את משק המים בתנאי בצורת). המשימות הסגורות קלות יחסית לביצוע: די לאמץ אסטרטגיה יעילה כדי להצליח באיתור הנתון המבוקש. המשימות הפתוחות מורכבות בהרבה, ומצריכות יכולת לערוך אינטגרציה של מידע ממקורות שונים לשם ניסוח ידע ועמדות אישיות.

במהלך איתור המידע אפשר לפעול בשתי דרכים עיקריות: האחת היא לשוטט במאגר מידע קטלוגי דרך הנושאים והקטגוריות שבו, והאחרת היא להיעזר בכלי התשאול של המאגר ולנסח בעזרתו שאילתה.

תרגיל

ניסוח שאילתה: חיפוש לשם מציאת קשר
במסגרת פרויקט חקר בגאוגרפיה, אתה מבקש לחקור את השפעתן של התפרצויות הרי געש באירופה על אורח חייהם של בני האדם שם.
היעזר לשם כך במקורות:

השווה את אסטרטגיות החיפוש שהפעלת במהלך שיטוט בין הנושאים ב"יאהו" או בין אזורי העולם ב-Volcano World, לאסטרטגיות החיפוש שהפעלת כשניסחת שאילתה בגוגל. מתי היה החיפוש קל יותר? מתי יעיל יותר?


בעת ביצוע התרגיל בוודאי גיליתם די מהר שהשיטוט בין הנושאים המופיעים בקטלוג "יאהו" הוא אולי קל, אך כרוך בבזבוז זמן, והתוצאות אינן תמיד אפקטיביות. לעומת זאת, ניסוח של שאילתה בגוגל, בעיקר אם היא מורכבת, מאפשר לקבל באופן מידי מידע מדויק מאוד בנושא. למשל: כשחיפשנו בגוגל לפי מילת המפתח volcanoes, קיבלנו יותר מחצי מיליון אתרים עם מידע שרובו לא רלוונטי. כשניסחנו שאילתה מורכבת יותר, כגון:volcanoes AND people, קיבלנו "רק" כמאתיים אלף אתרים – ובהם מצויים, כבר בראש הרשימה, כמה אתרים מצוינים לנושא. מכיוון שאנו מחפשים את הקשר שבין בני אדם להתפרצות הרי געש פעילים, יכולנו לדייק יותר בניסוח השאילתה ולרשום אותה כ:volcanoes AND people AND active. כאן כבר קיבלנו "רק" כשבעים אלף מקורות מידע. וכאשר רשמנו את השאילתה כ-volcanoes AND people AND active AND EUROPE, קיבלנו "רק" כעשרים אלף אתרים. מכיוון שגוגל מציג לנו את האתרים לפי איכותם, בסדר יורד (לא תמיד אנו יודעים מהם הקריטריונים שמפעילה סביבת התשאול בדליית הפריטים ובסדר הצגתם), אפשר לגלות די מהר שאכן מצאנו בעזרת השאילתה כמה מקורות מידע מצוינים העוסקים בקשר שבין התפרצויות געשיות המתרחשות כיום באירופה לבין בני אדם, וביניהם, למשל, האתר המעניין How Do People Live With Earthquakes and Volcanoes?.

השאילתה שאנו מנסחים בתהליך התשאול של מאגר המידע היא בעצם נוסחה המפעילה תהליך של הגדרת תת-קבוצה מתוך פריטי המידע המצויים במאגר. פריטי המידע שאיתרנו בעזרת השאילתה הם תת-קבוצה במאגר, העונה על התנאים שהוגדרו בשאילתה. השאילתה משמשת "פילטר" המסנן את פריטי המאגר ומציג לנו רק את אלה העונים לתנאים שהצבנו. בתהליך ניסוח השאילתה מתבצע בעצם תהליך קוגניטיבי של תרגום שאלת החקר ("גלה קשרים בין התנהגותם של בני אדם החיים כיום באירופה לבין התפרצויות של הרי געש") לתחביר של שפת התשאול שמעמידה לרשותנו סביבת החיפוש. במילים אחרות: בעת ניסוח שאילתה או ביצוע תשאול, אנו מתרגמים את מחשבותינו האנושיות, האסוציאטיביות והלא-סדורות לשפה אחרת, לנוסחה או לאלגוריתם הכפופים לכללי תחביר מסוימים. שאילתה מוצלחת היא זו שמנסחת את המשימה באופן המדויק ביותר, תוך שימוש בשפת התחביר של המאגר, ושתוצאותיה (פריטי המידע שהמערכת מציגה לנו בעקבותיה) מסייעות לנו בדרך הטובה ביותר להשיג את מטרות הלמידה שלנו.

בניסוח שאילתה הלומד מתמודד במקביל עם שלוש משימות כבדות משקל:

  1. הכרת שפת התשאול של המאגר: עליו להכיר את כללי התחביר והסמנטיקה של כתיבת שאילתה במאגר.
  2. הכרת תחום התוכן והמבנה המקובל לייצוגו במאגר מידע.
  3. הבניית ידע על-ידי יצירת קשרים בין פריטי המידע הבלתי-תלויים שבמאגר.

חומר למחשבה

אתה מחפש מידע במאגר, וניסחת שאילתה העונה על כל הדרישות הן מבחינת תחום התוכן והן מבחינת כללי התחביר. אף-על-פי-כן, לא החזירה המערכת כל פריט מידע. מה יכולות להיות הסיבות לכך? note_01

note_01הסיבה עשויה להיות לוגית (התנאים שהצבת בשאילתה אינם יכולים להתקיים מבחינה לוגית) או אמפירית (אין במאגר פריטים בנושא, או אין בתחום הנחקר רכיבים העונים להגדרותיך). זהו אחד האתגרים הגדולים שבפניהם עומד מחפש המידע: לשלוט בתחום התוכן עד שיוכל לנסח שאילתה הנקייה מכשלים לוגיים.


ניסוח מדויק של שאילתות הוא אתגר מרכזי באיתור מידע במאגרים ותנאי לאמינות החיפוש. בניסוח טמונות כמה בעיות, שאם הלומד אינו מודע להן, הידע שהוא בונה בעזרת המידע שמצא עלול להיות חלקי, שגוי או אף מוטה. להלן ננתח בקצרה את הבעיות העיקריות בנושא זה. דיון מפורט בבעיות של כתיבת שאילתות תמצאו אצל גבעון ורימור (2001) ברשימת הקריאה.

  1. מוגבלותם של תחביר שפת התשאול ושל תהליכי החיפוש הממוחשבים מקשה לנסח שאילתה שתגדיר במדויק את כל פריטי המידע הרלוונטיים הקיימים במאגר. גבעון ורימור (2001) טוענים שאי אפשר לנסח שאילתה "מושלמת", שתציג את מלוא הפוטנציאל של פריטי המידע הקיימים בנושא, ולעולם לא נוכל להיות בטוחים שמצאנו את כל המידע האפשרי. להלן מודגמת בעיה זו:

    חומר למחשבה

    בכ-20% ממקורות המידע העוסקים במיקרוביולוגיה לא מופיעה כלל המילה "מיקרוביולוגיה". מהי, לדעתך, משמעות הדבר לגבי היכולת לנסח שאילתות מדויקות בכלל ובמיקרוביולוגיה בפרט? note_02
    note_02משמעות הדבר היא שלו חיפשנו את המידע בעזרת המילה "מיקרוביולוגיה", לא היינו מגיעים למקורות האלה, מה שמבהיר את מוגבלות הכלים הקיימים לאיתור מידע.
  2. לא תמיד אנו יודעים כיצד שפת התשאול של מאגר המידע מפרשת את השאילתה שניסחנו. לכן איננו יכולים לדעת בוודאות אם הנתונים שקיבלנו בחיפוש הם הנתונים הטובים ביותר שאפשר למצוא.

    תרגיל

    אתה מחפש מידע על גידול כלבים וחתולים. היכנס למנוע החיפוש גוגל בגרסתו העברית, ונסח את השאילתה "כלב חתול". נתח את הממצאים ונסה לזהות בעזרתם כיצד שפת התשאול של גוגל מפרשת את השאילתה. חשוב: מה היית מקבל אם שפת התשאול הייתה מפרשת את השאילתה אחרת? note_03
    note_03גוגל מצא קודם אתרים שבהם מופיעות המילים כלב וגם חתול. רק אחריהם מוצגים אתרים עם כלב בלבד או עם חתול בלבד. אפשר להסיק מכך שברירת המחדל של גוגל היא AND, ורק בהמשך מוצגים פריטים שאותרו בעזרת OR (המילה כלב או המילה חתול).
  3. מחקרים שבחנו את האופן שבו לומדים מחפשים מידע מראים שרוב הלומדים המחפשים מידע במאגרים נמנעים מביצוע חיפוש מורכב ומעדיפים חיפוש פשוט, על-פי תנאי אחד בלבד (Darlymple, 1993; רימור, 2002).
  4. מחקרים גילו שמחפשי מידע רבים אינם מסוגלים לבקר את תהליך האיתור שלהם: הם נוטים להסתפק בפריטים שמצאו בעזרת השאילתה, בלי להבין שהם אינם מייצגים בהכרח את מלוא הפוטנציאל של המאגר, ובלי לבחון את תקפותם. יתרה מכך, כשהם מקבלים משוב שלא נמצאו פריטים העונים על דרישתם, רבים מהם מייחסים זאת לתכולת המאגר ולא לאופן הניסוח של השאילתה (Neuman, 1993; Jonassen, 2000a; Zins, 2000). ממצאים דומים מדווחים גם רימור (2002) וגבעון ורימור (2001).
  5. בעת חיפוש מידע יש חשיבות גדולה לידע הקודם שיש ללומד בנושא או בתחום. הירש (Hirsh, 1997) מצאה שככל שתלמידים מיטיבים להכיר את הנושא שהם חוקרים במאגר, כן עולה איכות השאילתות שהם מנסחים, תוצרי החיפוש שהם מוצאים רלוונטיים לשאלת החקר, והידע שהם יוצרים אמין יותר. על ממצאים דומים מדווח גם קולתאו (Kuhlthau, 1997). קשה אפוא לנסח שאילתות טובות בלי להתמצא בתחום התוכן.

הממצאים המצטברים, המצביעים על הקושי של רוב מחפשי המידע לנסח שאילתות בוליאניות מורכבות, הובילו את מעצבי מאגרי המידע לפתח שפות תשאול המאפשרות למחפש המידע לנסח שאילתות בשפה טבעית, בלי שיצטרך להכיר את התחביר המדויק של ניסוח שאילתה. הבה נבחן זאת בשפת התשאול של גוגל.

תרגיל

תשאול בשפה טבעית לעומת תשאול פורמלי
לפניך שתי משימות:
  1. למצוא מידע לקראת טיול שאתה מתכנן לירושלים, ובמיוחד לאתרי העתיקות המוסלמיים והנוצריים שבה. היכנס לגוגל בעברית וחפש בו מידע בנושא. כיצד אתה מנסח את שאילתת החיפוש? היעזר גם באפשרות "חיפוש מתקדם".
  2. למצוא מאמר ששכחת את שמו (למשל, מאמרם של Salomon ו-Perkins משנת 1989). לביצוע התרגיל, היכנס למאגר הביבליוגרפי ASK ERIC ונסה לאתר את המאמר.
  3. השווה בין שפות התשאול: השפה הפורמלית של ERIC לעומת השפה הטבעית יחסית של גוגל.

בשפות תשאול פורמליות, כמו זו המיוצגת ב-ERIC, אתם מתבקשים לנסח את שאלתכם במונחים מוגדרים ובשדות קבועים מראש. הדבר מקל על בעלי החשיבה המובנית והסדורה מביניכם, אך מקשה על אלה שחשיבתם אסוציאטיבית ולא-לינארית. לעומת זאת, בגוגל יכולתם לנסח את השאילתה במונחים טבעיים-אסוציאטיביים. די היה לכתוב מילים כגון: "ירושלים", "טיול", "איסלאם", "נצרות", כדי לקבל עושר רב של פריטי מידע רלוונטיים. באופציה "חיפוש מתקדם" יכולתם לערוך את החיפוש שלכם באופן בוליאני בלי שתיאלצו לנסח זאת במפורש (שהרי האפשרות "עם הביטוי במדויק" שקולה לאפשרות "וגם" בשפה הבוליאנית). כיצד הייתם מנסחים באופן בוליאני את הביטויים "ללא המילים" ו"עם כל המילים"?

אחת הבעיות המקשות על מחפשי מידע במאגרים המצויים באינטרנט היא דווקא הגודש העצום של המידע, המכביד על מיונו. בעיה זו מדגישה את הצורך לפתח בקרב המשתמשים במאגרי מידע מיומנויות של בקרת איכות לגבי תהליך איתור המידע. לשם המחשה, היכנסו לגוגל וחפשו Jerusalem. אנחנו קיבלנו יותר מ-4 מיליון מקורות מידע (!!!) – מה שהופך את תהליך מיון המידע לאבסורדי, וגורם למחפשי המידע לבחור את המקורות המופיעים בראש הרשימה, ולא בהכרח את הרלוונטיים או את הטובים ביותר שבהם. חוקרים רבים בחנו בעיה זו (למשל, רימור, 2002) ומצאו שמחפשי המידע נוטים להשתמש במקורות המידע הראשונים שמצאו, בלי לבחון את כולם. כדי להקל על מבצעי חיפוש המידע באינטרנט, מפותחים בשנים האחרונות מנועי חיפוש המכונים Clustering Engines מנועים כאלה מסוגלים למפתח את מקורות המידע ולארגנם לפי קריטריונים שהמנוע עצמו מגדיר על-פי היגיון פנימי המבוסס על ניתוח מילים המופיעות במקורות המידע השונים. זהו ניסיון חדשני ומהפכני להקל על מחפשי המידע בעזרת מערכות ממוחשבות המסוגלות להגדיר בעצמן את הקריטריונים למיון!

תרגיל

איתור מידע בעזרת clustering engine

היכנס ל-clustering engine בשם Vivisimo. note_04

note_04משמעות השם בספרדית היא lively and clean, והוא מבטא את השאיפה להציג את תוצאות החיפוש באופן חד, ברור ויעיל.
הקלד את מילת החיפוש Jerusalem, ושים לב כיצד, במקום להציג מיליוני מקורות מידע בלתי-תלויים זה בזה, התוכנה מִפתחה אותם עבורך וארגנה אותם במספר מוגבל של קטגוריות. קטגוריות אלה לא היו מצויות מלכתחילה בתוכנה, אלא נוצרו על ידה במהלך מיון מקורות המידע שנמצאו. כל זה נעשה למענך!! חשוב: באיזו מידה דומה תהליך זה לתהליך האפיון והקטלוג של מידע שאנו מבצעים במוחנו?

מעבר לשיפור שפות התשאול, אחת השאלות המרכזיות המעסיקה את מתכנני מאגרי המידע היא: האם אפשר לבנות מודלים המתארים את אסטרטגיות חיפוש המידע במאגרים, כדי שיהיה אפשר להגדיר ולחזות את אופן פעולתם של לומדים במהלך חיפוש מידע? מודלים כאלה עשויים לשפר באופן משמעותי את יכולתנו לעצב סביבות תשאול אפקטיביות עבור מאגרי מידע, סביבות שיתאימו ללומדים מסוגים שונים.

קריאת חובה

כמבוא לדיון בשאלות הנוגעות לתהליכי איתור מידע, קרא את מאמריהם של צינס (Zins, 2000) ושל הירש (Hirsh, 1997), העוסקים באסטרטגיות של חיפוש מידע אצל לומדים. מאמרו של צינס מציע מודל לחיפוש מידע אצל כלל הלומדים, ואילו המאמר של הירש (1997) מתמקד בילדים בגיל בית הספר, וחוקר את האופן המיוחד שבו הם מחפשים מידע, להבדיל מהמבוגרים. בעת קריאת המאמר נסח הבדלים אלה, כפי שהם מתוארים במאמר.

צינס הגדיר מודל בשם SUCCESS, המציע אסטרטגיה לחיפוש מובנה של מידע. המודל מניח שחיפוש מידע כולל סדרת פעולות עוקבות התלויות זו בזו, ויכולות ביחד להשלים את המשימה: איתור המידע המבוקש. לפי המודל, תנאי לביצוע חיפוש יעיל הוא יכולתו של המחפש לקיים בקרה מתמדת על תהליך החיפוש ועל איכות תוצריו. תהליך חיפוש המידע בנוי אפוא משבעה שלבים עוקבים:

  1. הגדרת המשימה: מה אנו מחפשים? מהו תוצר החיפוש הצפוי? איזה סוג של ידע אנו מבקשים ליצור?
  2. הגדרת המקורות: מהם מקורות המידע העומדים לרשותנו?
  3. הגדרת מילים: מהן מילות המפתח הרלוונטיות לנושא?
  4. הגדרת שיטה: באיזו שיטה נבחר לניסוח השאילתה?
  5. ביצוע החיפוש.
  6. הערכה: כיצד נבחין בין פריטי מידע רלוונטיים ללא-רלוונטיים, בין פריטים מדויקים ללא-מדויקים ובין פריטים אובייקטיביים למוטים?
  7. שיפור השאילתה וחזרה על החיפוש לפי הצורך.

תרגיל

חיים בכוכב אחר: מהו המודל שלך לחיפוש מידע?

במסגרת הניסיונות לחקור חיים ב"עולמות רחוקים", התבקשת להמליץ על כוכב לכת (פלנטה) במערכת השמש שכדאי למקד בו את החיפושים, ולנמק את שיקוליך. לרשותך עומדים שלושה אתרים, שכל אחד מהם מוביל למגוון רחב של מקורות מידע לבחירתך.

  1. האתר הרשמי של סוכנות החלל האמריקנית.
  2. מאגר תמונות של סוכנות החלל האמריקנית.
  3. מאגר מידע על הפלנטות במערכת השמש: The Nine Planets

הגדר את המהלכים שתנקוט בעת ביצוע התרגיל. באיזו מידה אסטרטגיית החיפוש שלך מתאימה לשלבים המוצעים במודל SUCCESS?

טיפ: כדי שתוכל לקבוע אם התנאים השוררים בכוכב שאתה מחפש מאפשרים חיים, עליך לדעת מהם התנאים ההכרחיים לחיים בכלל. תנאים אלה עשויים גם לשמש אותך כמילות המפתח לחיפוש. תוכל ללמוד זאת בפרק "תנאים לחיים", המצוי בקורס אקולוגיה של בית-הספר הווירטואלי "אביב".

המודל שמציע צינס הוא כללי, ואפשר ליישמו בכל משימת חיפוש. הוא מדגיש את חשיבות הבקרה המתמדת על תהליך החיפוש, ואת עדיפותו של חיפוש מתוכנן מראש ומושכל על החיפוש האינטואיטיבי והלא-מושכל הנפוץ אצל לומדים רבים (רימור, 2002; Neuman, 1993; Jonassen, 2000a). כחלק מההכרה שהתפתחה בעשור האחרון לגבי החשיבות של למידה במאגרי מידע בבית-הספר, פורסמו בעשור האחרון כמה מחקרים המתמקדים בדרכי חיפוש המידע של ילדים. הירש (Hirsh, 1997) בחנה את אסטרטגיות החיפוש המאפיינות ילדים בגיל בית-הספר, ומצאה שהם מצליחים בעיקר במשימות סגורות ופשוטות של איתור נתון מוגדר מראש. לעומת זאת, הם מתקשים מאוד בביצוע משימות מורכבות המצריכות לאמץ אסטרטגיות חיפוש מתוחכמות יותר. על קשיים בניסוח שאילתות מורכבות דיווחו גם נחמיאס ועמיתיו (Nachmias et al., 2000), שחקרו את אופן השימוש באינטרנט בקרב תלמידי בתי-ספר בישראל. הם מצאו שהתלמידים התקשו לאתר מידע "מורכב" (למשל, למצוא באינטרנט מרשם לעוגת תפוחים, המכיל גם תמונה של העוגה). גם רימור (2002), שבחנה תהליכי בניית ידע אצל תלמידי בית-ספר הלומדים בעזרת מאגרי מידע, דיווחה על קשיים דומים. ואולם, היא הראתה גם שתלמידים שביצעו משימות ברמה גבוהה, שחייבו ארגון מידע ובניית מאגרי מידע, היו מסוגלים לנסח שאילתות מורכבות יותר מתלמידים שביצעו במאגר רק משימות פשוטות של שיטוט וחיפוש מידע.



לעמוד הקודם לראש העמוד לעמוד הבא