इ-ग्रंथपाल: इन्टरनेट सर्च इंजिन एवं उसकी कार्य पद्यति

वेब सर्च इंजन एक ऐसा सर्च इंजन (search engine) है जिसे विश्वव्यापी वेब पर सुचना की खोज के लिए बनाया गया है. सूचना में वेब पेज, छवियाँ और अन्य प्रकार की संचिकाएँ हो सकती हैं.कुछ सर्च इंजन हमारे पास उपलब्ध डाटा जैसे न्यूज़बुक्स,डेटाबेस, या खुली निर्देशिका (open directories) में हो सकतें हैं. वेब निर्देशिका(Web directories) जिसे मनुष्य संपादक के द्वारा बनाये रखा गया है इसके विपरीत सर्च इंजन अल्गोरिथम या अल्गोरिथम का मिश्रण और मानव आगत का परिचालन करती है.

एक सर्च इंजन, निम्नलिखित आदेश से संचालित होता है

1. वेब crawling (Web crawling)

2. अनुक्रमण (Indexing)

3. खोज रहा है (Searching)

वेब सर्च इंजन कई वेब पन्नों में संग्रहित सूचनाओं के आधार पर कार्य करतें हैं जो अपने डब्लू डब्लू डब्लू से पुनः प्राप्त करतें हैं.ये पन्नें वेब क्रोलर (Web crawler) और के द्वारा प्राप्त हैं (कभी कभी मकड़ी के नाम से जाना जाता है) ; एक स्वचालित वेब ब्राउज़र जो हर कड़ी को देखता है.robots.txt (robots.txt) के प्रयोग से निवारण किया जा सकता है प्रत्येक पन्नों के सामग्री का विश्लेषण से निर्धारित किया जा सकता है कैसे इसे अनुक्रमित (indexed) किया जाए (उदहारणस्वरुप, शीर्षकों, विषयवाचक, या विशेष क्षेत्र जिसे मेटा टैग (meta tags) कहते हैं, से शब्द जुडा होता है)बाद के पूछ ताछ के लिए वेब पन्नों के बारें में आधार सामग्री आंकडासंचय सूचकांक में संगृहीत है कुछ सर्च मशीने जैसे गूगल स्रोत पन्नों के कुछ अंश या पुरा भाग ( केच (cache) के रूप में) और साथ ही साथ वेब पन्नों के बारे में जानकारी स्टोर कर लेता है जबकि अन्य जैसे अल्ताविस्ता (AltaVista) प्रत्येक पन्नों के प्रत्येक शब्द जो भी पातें हैं उसे संगृहीत कर लेते हैं.यह संचित पन्ना वास्तविक खोज पाठ को हमेशा पकड़े हुए है जबसे इसको वास्तविक रूप में सूचीबद्ध किया गया है इसलिए जब वर्तमान पन्ने का अंतर्वस्तु को अद्यतन करने के बाद और खोज की स्थिति ज्यादा देर तक न होने के बाद यह अत्यन्त उपयोगी हो सकता है लिंक रूट (linkrot) के इस समस्या को हलके रूप में समझना चाहिए और गूगल के संचालन में इसका इस्तमाल (usability) बढ़ा क्योंकि उसने खोज शब्दों को लौटे हुए वेब पृष्ठों के द्वारा उपयोगकर्ताओं के उम्मीदों (user expectations) को पुरा किया यह विस्मय के कम से कम सिधांत (principle of least astonishment) को संतुष्ट करती है आमतौर पर उपयोगकर्ता लौटे हुए पन्नों पर खोज के परिणामों की उम्मीद करता है प्रासंगिक खोज के बढने से संचित पन्ने बहुत उपयोगी हो जाते हैं, यहाँ तक की वें तथ्यों से बाहर के डाटा हो सकते हैं जो कही भी उपलब्ध नहीं है.

जब कोई उपयोगकर्ता सर्च इंजन में पूछताछ (query) के लिए प्रवेश करता है ( आमतौर पर मुख्य शब्दों (key word) का प्रयोग करके) सर्च मशीन इसके विषय सूचि(index) की परीक्षा करता है और इसके मानदंडों के अनुसार उपयुक्त वेब पन्नों को सूचीबद्ध करता है, सामान्यतः एक छोटी सारांश के साथ जो प्रलेख के शीर्षकों और पाठ के भागों पर आधारित होती है अधिकतर सर्च इंजन बुलियन संचालक (boolean operators) AND, OR and NOT को खोज जिज्ञाशा (search query) शांत करने के लिए समर्थन करतें हैं . कुछ सर्च इंजन उन्नत किस्म के संचालक उपलब्ध कराते हैं जिसे प्रोक्सिमिटी सर्च (proximity search) कहा जाता है जो उपभोक्ता को किवर्ड्स कि दूरियां को परिभाषित करने में सहायता करता है .

सर्च इंजनों के इस्तेमाल को 22 साल हो गए हैं। पहला इंटरनेट सर्च इंजन ‘आर्ची’ था जिसे 1990 में एलन एमटेज नामक छात्र ने विकसित किया था। आर्ची के आगमन के समय ‘विश्व व्यापी वेब’ का नामो-निशान भी नहीं था। चूंकि उस समय वेब पेज जैसी कोई चीज नहीं थी, इसलिए आर्ची एफटीपी सर्वरों में मौजूद सामग्री को इन्डेक्स कर उसकी सूची उपलब्ध कराता था।

‘आर्ची’ इसी नाम वाली प्रसिद्ध कॉमिक स्ट्रिप से कोई संबंध नहीं है। यह नाम अंग्रेजी के ‘आर्काइव’ शब्द से लिया गया था, जिसका अर्थ है क्रमानुसार सहेजी हुई सूचनाएं। आर्ची के बाद मार्क मैककैहिल का ‘गोफर’ (1991), ‘वेरोनिका’ और ‘जगहेड’ आए। 1997 में आया ‘गूगल’ जो सबसे सफल और सबसे विशाल सर्च इंजन माना जाता है। ‘याहू’ ‘बिंग’ (पिछला नाम एमएसएन सर्च), एक्साइट, लाइकोस, अल्टा विस्टा, गो, इंकटोमी आदि सर्च इंजन भी बहुत प्रसिद्ध हैं।

पेज

गुरुवार, 10 नवंबर 2011

इन्टरनेट सर्च इंजिन एवं उसकी कार्य पद्यति

कोई टिप्पणी नहीं:

एक टिप्पणी भेजें