गुरुवार, 10 नवंबर 2011

इन्टरनेट सर्च इंजिन एवं उसकी कार्य पद्यति


 वेब सर्च इंजन एक ऐसा सर्च इंजन (search engineहै जिसे विश्वव्यापी वेब पर सुचना की खोज के लिए बनाया गया है. सूचना में वेब पेजछवियाँ और अन्य प्रकार की संचिकाएँ हो सकती हैं.कुछ सर्च इंजन हमारे पास उपलब्ध डाटा जैसे न्यूज़बुक्स,डेटाबेसया खुली निर्देशिका (open directoriesमें हो सकतें हैं. वेब निर्देशिका(Web directoriesजिसे मनुष्य संपादक के द्वारा बनाये रखा गया है इसके विपरीत सर्च इंजन अल्गोरिथम या अल्गोरिथम का मिश्रण और मानव आगत का परिचालन करती है.

एक सर्च इंजननिम्नलिखित आदेश से संचालित होता है
1.   वेब crawling (Web crawling)
2.   अनुक्रमण (Indexing)
3.   खोज रहा है (Searching)

वेब सर्च इंजन कई वेब पन्नों में संग्रहित सूचनाओं के आधार पर कार्य करतें हैं जो अपने डब्लू डब्लू डब्लू से पुनः प्राप्त करतें हैं.ये पन्नें वेब क्रोलर (Web crawler) और के द्वारा प्राप्त हैं (कभी कभी मकड़ी के नाम से जाना जाता है) ; एक स्वचालित वेब ब्राउज़र जो हर कड़ी को देखता है.robots.txt (robots.txt) के प्रयोग से निवारण किया जा सकता है प्रत्येक पन्नों के सामग्री का विश्लेषण से निर्धारित किया जा सकता है कैसे इसे अनुक्रमित (indexed) किया जाए (उदहारणस्वरुपशीर्षकोंविषयवाचकया विशेष क्षेत्र जिसे मेटा टैग (meta tags) कहते हैंसे शब्द जुडा होता है)बाद के पूछ ताछ के लिए वेब पन्नों के बारें में आधार सामग्री आंकडासंचय सूचकांक में संगृहीत है कुछ सर्च मशीने जैसे गूगल स्रोत पन्नों के कुछ अंश या पुरा भाग ( केच (cache) के रूप में) और साथ ही साथ वेब पन्नों के बारे में जानकारी स्टोर कर लेता है जबकि अन्य जैसे अल्ताविस्ता (AltaVista) प्रत्येक पन्नों के प्रत्येक शब्द जो भी पातें हैं उसे संगृहीत कर लेते हैं.यह संचित पन्ना वास्तविक खोज पाठ को हमेशा पकड़े हुए है जबसे इसको वास्तविक रूप में सूचीबद्ध किया गया है इसलिए जब वर्तमान पन्ने का अंतर्वस्तु को अद्यतन करने के बाद और खोज की स्थिति ज्यादा देर तक न होने के बाद यह अत्यन्त उपयोगी हो सकता है लिंक रूट (linkrot) के इस समस्या को हलके रूप में समझना चाहिए और गूगल के संचालन में इसका इस्तमाल (usability) बढ़ा क्योंकि उसने खोज शब्दों को लौटे हुए वेब पृष्ठों के द्वारा उपयोगकर्ताओं के उम्मीदों (user expectations) को पुरा किया यह विस्मय के कम से कम सिधांत (principle of least astonishment) को संतुष्ट करती है आमतौर पर उपयोगकर्ता लौटे हुए पन्नों पर खोज के परिणामों की उम्मीद करता है प्रासंगिक खोज के बढने से संचित पन्ने बहुत उपयोगी हो जाते हैंयहाँ तक की वें तथ्यों से बाहर के डाटा हो सकते हैं जो कही भी उपलब्ध नहीं है.

जब कोई उपयोगकर्ता सर्च इंजन में पूछताछ (query) के लिए प्रवेश करता है ( आमतौर पर मुख्य शब्दों (key word) का प्रयोग करके) सर्च मशीन इसके विषय सूचि(index) की परीक्षा करता है और इसके मानदंडों के अनुसार उपयुक्त वेब पन्नों को सूचीबद्ध करता हैसामान्यतः एक छोटी सारांश के साथ जो प्रलेख के शीर्षकों और पाठ के भागों पर आधारित होती है अधिकतर सर्च इंजन बुलियन संचालक (boolean operators) AND, OR and NOT को खोज जिज्ञाशा (search query) शांत करने के लिए समर्थन करतें हैं . कुछ सर्च इंजन उन्नत किस्म के संचालक उपलब्ध कराते हैं जिसे प्रोक्सिमिटी सर्च (proximity search) कहा जाता है जो उपभोक्ता को किवर्ड्स कि दूरियां को परिभाषित करने में सहायता करता है .

सर्च इंजनों के इस्तेमाल को 22 साल हो गए हैं। पहला इंटरनेट सर्च इंजन आर्ची था जिसे 1990 में एलन एमटेज नामक छात्र ने विकसित किया था। आर्ची के आगमन के समय विश्व व्यापी वेब का नामो-निशान भी नहीं था। चूंकि उस समय वेब पेज जैसी कोई चीज नहीं थी, इसलिए आर्ची एफटीपी सर्वरों में मौजूद सामग्री को इन्डेक्स कर उसकी सूची उपलब्ध कराता था।

आर्ची’ इसी नाम वाली प्रसिद्ध कॉमिक स्ट्रिप से कोई संबंध नहीं है। यह नाम अंग्रेजी के ‘आर्काइव’ शब्द से लिया गया थाजिसका अर्थ है क्रमानुसार सहेजी हुई सूचनाएं। आर्ची के बाद मार्क मैककैहिल का ‘गोफर’ (1991), ‘वेरोनिका’ और ‘जगहेड’ आए। 1997 में आया ‘गूगल’ जो सबसे सफल और सबसे विशाल सर्च इंजन माना जाता है। ‘याहू’ ‘बिंग’ (पिछला नाम एमएसएन सर्च)एक्साइटलाइकोसअल्टा विस्टागोइंकटोमी आदि सर्च इंजन भी बहुत प्रसिद्ध हैं।


कोई टिप्पणी नहीं:

एक टिप्पणी भेजें