वेब सर्च इंजन एक ऐसा सर्च इंजन (search engine) है जिसे विश्वव्यापी वेब पर सुचना की खोज के लिए बनाया गया है. सूचना
में वेब पेज, छवियाँ और अन्य प्रकार की संचिकाएँ हो सकती हैं.कुछ सर्च इंजन हमारे पास
उपलब्ध डाटा जैसे न्यूज़बुक्स,डेटाबेस, या खुली निर्देशिका (open directories) में हो सकतें हैं. वेब निर्देशिका(Web directories) जिसे मनुष्य संपादक के द्वारा बनाये रखा गया है
इसके विपरीत सर्च इंजन अल्गोरिथम
या अल्गोरिथम का मिश्रण और मानव आगत का परिचालन करती है.
एक सर्च इंजन, निम्नलिखित आदेश से संचालित होता है
1. वेब crawling (Web crawling)
2. अनुक्रमण (Indexing)
3. खोज रहा है (Searching)
वेब सर्च इंजन कई वेब पन्नों में संग्रहित सूचनाओं के
आधार पर कार्य करतें हैं जो अपने डब्लू डब्लू डब्लू से पुनः प्राप्त करतें हैं.ये
पन्नें वेब क्रोलर (Web crawler) और के द्वारा प्राप्त हैं (कभी कभी मकड़ी के नाम से जाना जाता है) ; एक स्वचालित वेब ब्राउज़र जो हर कड़ी को देखता
है.robots.txt (robots.txt) के प्रयोग से निवारण किया जा सकता है प्रत्येक पन्नों के सामग्री का विश्लेषण
से निर्धारित किया जा सकता है कैसे इसे अनुक्रमित (indexed) किया जाए (उदहारणस्वरुप, शीर्षकों, विषयवाचक, या विशेष क्षेत्र जिसे मेटा टैग (meta tags) कहते हैं, से शब्द जुडा होता है)बाद के पूछ ताछ के लिए
वेब पन्नों के बारें में आधार सामग्री आंकडासंचय सूचकांक में संगृहीत है कुछ सर्च मशीने जैसे गूगल स्रोत पन्नों के कुछ अंश या पुरा भाग ( केच (cache) के रूप में) और
साथ ही साथ वेब पन्नों के बारे में जानकारी स्टोर कर लेता है जबकि अन्य जैसे अल्ताविस्ता (AltaVista) प्रत्येक पन्नों
के प्रत्येक शब्द जो भी पातें हैं उसे संगृहीत कर लेते हैं.यह संचित पन्ना
वास्तविक खोज पाठ को हमेशा पकड़े हुए है जबसे इसको वास्तविक रूप में सूचीबद्ध किया
गया है इसलिए जब वर्तमान पन्ने का अंतर्वस्तु को अद्यतन करने के बाद और खोज की
स्थिति ज्यादा देर तक न होने के बाद यह अत्यन्त उपयोगी हो सकता है लिंक रूट (linkrot) के इस समस्या को
हलके रूप में समझना चाहिए और गूगल के संचालन में इसका इस्तमाल (usability) बढ़ा क्योंकि
उसने खोज शब्दों को लौटे हुए वेब पृष्ठों के द्वारा उपयोगकर्ताओं के उम्मीदों (user expectations) को पुरा किया यह विस्मय के कम से
कम सिधांत (principle of least astonishment) को संतुष्ट करती है आमतौर पर उपयोगकर्ता लौटे हुए पन्नों पर खोज के परिणामों
की उम्मीद करता है प्रासंगिक खोज के बढने से संचित पन्ने बहुत उपयोगी हो जाते हैं, यहाँ तक की वें तथ्यों से बाहर के डाटा हो सकते
हैं जो कही भी उपलब्ध नहीं है.
जब कोई उपयोगकर्ता सर्च इंजन में पूछताछ (query) के लिए प्रवेश करता है ( आमतौर पर मुख्य शब्दों (key
word) का प्रयोग करके) सर्च मशीन इसके विषय सूचि(index) की परीक्षा करता है और इसके मानदंडों के अनुसार
उपयुक्त वेब पन्नों को सूचीबद्ध करता है, सामान्यतः एक छोटी सारांश के साथ जो प्रलेख के शीर्षकों और पाठ के भागों पर
आधारित होती है अधिकतर सर्च इंजन बुलियन संचालक (boolean
operators) AND, OR and NOT को खोज जिज्ञाशा (search
query) शांत करने के लिए समर्थन करतें हैं . कुछ सर्च
इंजन उन्नत किस्म के संचालक उपलब्ध कराते हैं जिसे प्रोक्सिमिटी सर्च (proximity
search) कहा जाता है जो उपभोक्ता को किवर्ड्स कि
दूरियां को परिभाषित करने में सहायता करता है .
सर्च इंजनों के इस्तेमाल को 22 साल हो गए हैं। पहला इंटरनेट सर्च इंजन ‘आर्ची’ था जिसे 1990 में एलन एमटेज नामक छात्र
ने विकसित किया था। आर्ची के आगमन के समय ‘विश्व व्यापी वेब’ का नामो-निशान भी नहीं था। चूंकि उस समय वेब पेज जैसी कोई चीज नहीं थी, इसलिए आर्ची एफटीपी सर्वरों में मौजूद सामग्री को इन्डेक्स कर उसकी सूची
उपलब्ध कराता था।
‘आर्ची’ इसी नाम वाली प्रसिद्ध कॉमिक स्ट्रिप से कोई संबंध नहीं है। यह नाम अंग्रेजी
के ‘आर्काइव’ शब्द से लिया गया था, जिसका अर्थ है
क्रमानुसार सहेजी हुई सूचनाएं। आर्ची के बाद मार्क मैककैहिल का ‘गोफर’
(1991), ‘वेरोनिका’ और ‘जगहेड’ आए। 1997 में आया ‘गूगल’ जो सबसे सफल और सबसे विशाल सर्च इंजन माना जाता
है। ‘याहू’ ‘बिंग’ (पिछला नाम एमएसएन सर्च), एक्साइट, लाइकोस, अल्टा विस्टा, गो, इंकटोमी आदि सर्च इंजन भी बहुत प्रसिद्ध हैं।
कोई टिप्पणी नहीं:
एक टिप्पणी भेजें