Автор: Пользователь скрыл имя, 18 Декабря 2011 в 19:47, реферат
"Жүйе" терминінің түсінігі. Клиент-сервер архитектурасы. Провайдерлер және олардың жүйелері.
Интернет сөзі Interconnected networks (байланысқан жүйелер) терминінен шыққан, яғни техникалық көзқараспен – бұл кіші және ірі желілер бірлестіктері. Кең мағынасында - бұл бір бірімен мәліметтермен алмасатын жер жүзіндегі миллиондаған компьютерлер арасында бөлінген ақпараттық кеңістік.
Айтпаса да түсінікті,
конкорданс (сөздік) шығарма тексінен
шағын және одан керекті сөзді
іздеген кітапты түгел
Индексті құру
Желілік агенттер немесе робот-өрмекшілер Желі бойымен “өрмелейді”, Web – беттердіѕ талдайды және не әрі қай парақта табылғаны туралы ақпарат жинайды. Кезекті HTML-парақтарды табысымен көптеген іздеу машиналары (әр іздеу машиналарында әртүрлі) сөздерді, суреттерді, сілтемелерді және де басқа да элементтерді белгілейді. Сөздердің парақта барлығы ғана емес, әрі оның орналасуы, яғни бұл сөздің қайда орналасқаны: тақырыпта (title), таќырыпшаларда ( subtitles ), метатэгте ( meta tags ) немесе басќа орындарда . Әдетте негізгі сөз ескеріледі де, шылау мен одағайлар: “ ал ”,“ біраќ ” және “ немесе ” еленбейді. Метатегтер парақ иелерінің өзіне сол арқылы ізделінетін кілттік сөздер мен тақырыпты анықтауға мүмкіндік береді. Бұл әсіресе кілттік сөздің бірнеше мағынасы болғанда қажет. Метатегтер іздеу машинасын сөдердің бірнеше мағынасынан дұрысын таңдауға көмектеседі. Алайда метатегтер адал толтырылғанда ғана сенімді жұмыс істей алады. Web-парақтардың кейбір иелері өздерінің метатегтеріне Желіде көп аталатын өз сайт тақырыбына қатысы жоқ сөздермен толтырады, сол арқылы өзінің жаңа келушілерін тарту әрі қор қатысуы рейтингісін жоғарылату үшін жасайды. Іздеуден осы сияқты сайттарды шығару – жақсы іздеу жүйесінің тағы бір тапсырмасы. әрбір роботтың өз қараниетті жарнама үшін жазаланған қор тізімі бар.
Тапсырма берілген Web-парақтарда ақпарат жиналғаннан кейін алынған мәліметтерді индекстеу жүреді. Робот-өрмекшілер Web-парақтардың ақпараттарын қарастырып, кілттік сөздер арқылы индекстенген іздеу базасын құрады, содан кейін пайдаланушы сұранысы арқылы жүйе дұрыстығына (релевантты) қарай сайттар тізімін береді. Айқын, егер сіз сайтты “гүл” деген кілттік сөзбен іздесеңіз, онда іздеу машинасы сол сөз бар парақтарды тауып қана қоймай, бұл сөздің қай жерде сайт тақырыбына қатыстылығын анықтай алуы керек. Сөздің Web-парақтың профиліне қатыстығын анықтау үшін оның парақта қаншалықты жиі ұшырасатынын, берілген сөз туралы сілтемелердің бар-жоқтығын бағалау керек. Қысқаша айтқанда, парақта табылған сөздерді маңыздылық дәрежесіне қарай рангілеу керек.
Сөздерге салмақтылық коэфициенттері оның қанша және қайда кездесетініне қарай (парақ тақырыбында, беттің басы не аяғында, сілтемеде, метатегте және т.б) меншіктеледі. әрбір іздеу механизмі салмақ коэфициенттерін берудің өз алгоритмдері бар – бұл әртүрлі іздеу машиналарының бір кілттік сөз арқылы сұрауға әртүрлі қорлар тізімін берудің бір себебі. Парақтар әрдайым жаңартылып отыратындықтан, онда индекстеу үрдісі де жиі орындалып отырылуы керек. Робот-өрмекшілер сілтемелерді аралай жүріп, индекстен тұратын файлды құрады, ол үлкен болуы мүмкін. Оның көлемін азайту үшін ақпарат көлемін минимизациялау мен файлды сығуға жүгінеді. өңделгеннен кейін мәліметтер үнемі жанарып отыратын базада сақталады. Бірнеше роботтары бар іздеу машинасы секундына жүздеген парақтарды өңдей алады. Бүгінде мықты іздеу машиналары жүздеген миллион парақты сақтайды және күніне ондаған миллион сұранысты қабылдайды.
Индексті құруда дубликаттардың санын азайту тапсырмасы да шешіледі – қатесіз салыстыру үшін алдымен құжаттың кодировкасын анықтау қажеттігін ескерсек, тапсырма оңай емес. Бұдан да қиын тапсырмаға өте ұқсас құжаттарды айыру жатады (оларды “дубликат дерлік” деп атайды), мысалы оларға мазмұны бір ал тақырыбы әртүрлілер жатады.Бұл сияқты құжаттар Желіде өте көп – мысалы біреу рефератты көшіріп алып өз сайтында басқа атпен басып шығаруы мүмкін. Қазіргі заманғы іздеу машиналары барлық бұл проблемаларды шешуге мүмкіндік береді.
Индекс арқылы іздеу
Индекс арқылы іздеу мынадан құралады, яғни пайдаланушы сұраныс құрастырып оны іздеу машинасына береді. Бірнеше кілттік сөздерді қолдануда сұраныс тілін пайдаланған пайдалы, оның негізін буль операторлары құрайды.
Ең жиі қолданылатын буль операторлары:
Шектерінде логикалық комбинация анықталатын мәтін іздеу бірлігі деп аталады. Бұл сөйлем, абзац не бүкіл құжат болуы мүмкін. Түрлі іздеу жүйелерінде әртүрлі іздеу бірліктері қолданылуы мүмкін. Сөйлем шегіндегі іздеу тек индексінде толық мекенжай (адрес) бар жүйелерде ғана мүмкін.
Пайдаланушы іздеу
жүйесіне сұраныс жібергеннен кейін,
ол сұраныс синтаксисін өңдейді, кілттік
сөздерді индекстегі сөздермен салыстырады.
Содан кейін сұранысқа жауап беретін сайттар
тізімі релеванттылығына қарай рангіленіп,
пайдаланушыға берілетіндей іздеу нәтижесі
құрастырылады.