Автор: Пользователь скрыл имя, 26 Марта 2012 в 16:36, реферат
Интернеттің басты тапсырмасы бұл – әр тәуліктік, жоғары сенімді байланыс. Интернетке қосылған кез келген екі компьютер (немесе басқа құрылғылар) бір-бірімен кез келген уақытта хабарласа алады. Ары қарай “Желі” сөзін қолданғанда Интернет сөзіне синоним ретінде Желімен интернет арқылы екі компьютерді байланыстыру мүмкіндігін және олардың өзара байланысын қамтамасыз етуді түсінеміз. Интернетке қосылған әрбір компьютер – бұл Желінің бір бөлігі.
Прокси-сервер қолданушыдан қандай да бір интернет-сервисті орындауға сұраныс алады, мысалы, web-парақты көріп өтуге сұраныс. Егер прокси кэштау функциясын орындаса, ол сервердің локалді кэшінда сұрап отырған парақтың жоқтығын қарайды. Егер бұл парақ бар болса, ол қолданушыға сұраныс Интернетке берілмей қайтарылады. Ал, егер кэшта бұл парақ болмаса, прокси-сервер клиент ролінде қолданушының атынан, өзінің IP-адресін қолданып, Интернеттен керек параққа сұраныс жібереді. Парақ қайта оралғанда, прокси-сервер оны қолданушыға жібереді. Прокси-сервердің кэштау функциясы Интернетпен жұмысты едәуір жылдамдата алады жене жүйелік трафиктің көлемін азайта алады. Web-парақтарды кэштеу Жүйенің жұмысын жақсартудың бір жолы болып табылады, себебі ол web-түйіннің уақытты бұзылыстарын компенсирует.
Әдетте, прокси-сервер программасы жұмыс істейтін компьютерде едәуір дисктік аула бөлінеді. Үлкен провайдерлар құжаттарды кэштеуге ондаған және жүздеген гигабайт память бөле алады.
Осылайша, үнемі ізделіп отыратын құжат тек құжатты шығарушының серверінде ғана сақталып қоймай, сонымен қатар “қолданушыға жақынырақ”, провайдер прокси-серверінде немесе қолданушының өз компьютерінде сақтала алатындықтан, іздеген құжаттарды тез көре алу мүмкіндігі бар.
Біз мыңдаған клиенттері бар провайдерлар жөнінде айтқана, жүйедегі құжаттардың белгілі бір бөлігін ғана сұрайтынын айтып өткен жөн. Мыңдаған клиенттермен жұмыс істейтін үлкен ISP-дің прокси-сервері, сұраныстардың 50%-ға жуығын өз дискінен орындайды. Әдетте ISP сервері регионның басқа интернет провайдерлардың серверлерімен байланысты. Сондықтан, егер клиентті қызықтырып отырған құжат провайдердің прокси-сервер кэшінде табылмаса, ол басқа прокси-серверлерде табылуы мүмкін. Осылайша, кэш-ауласындағы қолданушылардың көлемі көп есе көбейеді. Кэштейтін прокси-серверлерді тек ISP-провайдерлер ғана емес, сонымен қатар жүйеге деген нагрузканы азайтқысы келетін және сұраныстарды оптимально обрабатывать үшін ірі компаниялар орната алады.
Құжаттардың жарамдылық мерзімі.
Ескірген кэштелген файлды алмау үшін, кэштелген құжаттарды қашан сұранысқа қоюға болады, ал қашан қоюға болмайтығын анықтайтын бірнеше ережелер бар. Бұл ережелердің бір бөлігі HTTP протоколында жазылып өткен, ал қалғаны браузер настройкасында және прокси-сервер әкімшілігімен ұсынады. Прокси-серверде кэштеуге шешім қабылдаудың бірнеше критерилері бар. Мысалы, егер объект жасырын болса, ол кэштелмейді. Сол сияқты кэштелген құжатты клиенттің сұранысы бойынша жіберіле алуға шешім қабылданатын критерилер бар. Мысалы, егер құжаттың жарамдылық мерзімі өткен болса, онда сервер оны клиентке жібермей, сайтты құрастырушының серверінде жаңалау құжаттың бар, жоқтығын сұрайды. Жарамдылық мерзімі өтіп кеткен құжат жай жаңартылмаған, яғни ескірмеген болуы мүмкін және оны клиенттің сұранысына беруге болады.
WEB-жылдамдытқыштары.
Стандартты браузерлер кэштеу технологиясын Web-парақтарды жүктеуді жылдамдату үшін қолданатынын айтып кеткен болатынбыз. Бірақ, жүктеу процесін Internet Explorer-ға қарағанда жақсырық орындайтын арнайы программалар бар. Жылдамдатуды жүйелік қосылулардың параметрлерін оптимизациялау арқылы, мәліметтерді кэштеу және “қажеті жоқ” мәліметтерді алып тастау арқылы жүзеге асыруға болады. Кейбір программаларда жоғарыда айтып өткен механизмдердің бірден бірнешеуі жүзеге асырылған.
Кэштеу процесін оптимизациялау арқылы жылдамдату.
Мәліметтерді кэштеу кезінде Web-парақтарды жүктеуді жылдамдатуды айтқанда 3 бағытты белгілеп өткен жөн:
o IP-мекендерді кэштеу;
o Локалді компьютерде дискті кэшті оптимизациялау;
o Упреждающее чтение.
Әр бағыттың неден құралғанын түсіндіріп өтейік.
Сіз URL браузерге сол немесе басқа ресурсты жібергенде, ол DNS-серверге доменді атты IP-мекенге жіберуге сұраныс жасайтыны белгілі. Қажетті мәліметтерді табу алдында қаншама DNS-серверлерді сұрап өтеді. Әдетте, IP-мекен қолданушы компьютерінде кэштелмейді және сіз бірнеше минут алдын қолданып отырған мекен қайта сұралып отырады, ол тағы да уақыт алады. Сондықтан, Web-парақтарды көрсетуді жылдамдатудың бір жолы DNS-серверлерді едәуір оптималды сұрау жүргізетін және IP-мекендерді кештеуді ұйымдастыратын программаны қолдану болып табылады.
IP-мекенді алып болғаннан кейін, обозреватель компьютердің кэшінде көрсетілген парақ копиясының сақталғандығын тексеріп, егер кэштегі құжат жарамды болса, ол қолданушыға жіберіледі. Бұл процесс та уақыт алады және оны жылдамдату – бөлек мәселе, сондықтан оны басқа программаға жүктеуге болады. Осы мәселемен айналысатын көптеген программалар көп орын алатын, бірақ жылдам істейтін өз кэшін құрады. Жылдамдатудың екінші бағыты осыны құрайды.
Үшінші механизмді (упреждающее чтение) түсіндіру үшін, кәдімгі браузердің жұмысына қайта оралайық. Құжат браузермен көрсетілгеннен кейін, әдетте үзіліс болады. Қолданушы құжатты оқығанша жүктеу процесі тоқтатылады, яғни система простаивает. Упреждающее чтение үзіліс кезінде қосылыстарды қолдануға мүмкіндік береді, бұл кезде осы параққа ссылкасы бар құжаттар жүктеледі. Осы құжаттардың фондық режимде жүктелуі қолданушы сұраныс жібергенде тез көрсетуге мүмкіндік береді. Үшінші механизм осы упреждающее чтение немесе префетчингтан (prefetch-ағылшынның алдан-ала алып келу деген сөзінен) құралады. Кейде осы механизмді упреждающее загрузкой (ағылшынның pre-loading деген сөзінен) деп те атайды.
Дәріс 7. Интернеттің іздеу технологиялары.
Қажетті ақпаратты іздеу принциптері. Іздеу машинасының жұмыс механизмі. Индексті құру.
Web-тен іздеу
Интернетте миллиондаған сайттар бар, соның ішінде өзекті ақпаратпен қоса көптеген ескі қорлар орналыстырылған. Интернет – белгілі бір басқарушысы жоқ демократиялық ақпарат көзі болып табылады. Кез келген адам желіге өзінің қорын орналастыра алады. Қорытындылап келгенде, интернетте ақпараттың қайталанбауына, оның стандартқа сай келуіне көп адамдар мән бере бермейді. Желіде барлығы бар екені белгілі, бірақ желіден қажетті ақпаратты алу қиын. Яғни, мәліметті табу үшін, оны жақсы іздей білу керек. Осы бөлімде интернет желісімен жұмыс істейтін іздеу аспаптары сипатталып, іздеу жүйесінің жұмыс механизмі түсіндірілген, іздеу оптимизациясына практикалық түсініктеме берілген.
Интернетте ақпаратты іздеуге арналған мынадай әртүрлі аспаптар бар: іздеу машиналары
(поисковиктер), индекстелген каталогтер (рубрикаторлар), рейтингілер, метаіздеуіш жүйелер және тематикалық сілтемелердің тізімі, онлайн энциклопедиялары мен анықтамалар. Осы кезде әр түрлі үлгідегі ақпаратты табуда іздеу аспаптарының түрлі категорияларын қолдану тиімді болып келеді. Әр категорияны жеке қарастырайық.
Индекстелген каталогтер
Каталог дегеніміз тақырыптары бойынша топтастырылған иерархиялық құрылым түрінде берілетін мәліметтер. Иерархиялық құрылымның бірінші деңгейіндегі тематикалық бөлімі “спорт”, “демалыс”, “ғылым”, “дүкендер” сияқты кең тараған тақырыптардан тұрады. Ал әр бөлімнің бөлімшелері болады. Осылайша, біртіндеп каталог бұтақтары арқылы саяхат жасап, іздеу облысын кішірейте отырып, сіз өзіңізге керекті облысты дәл анықтай аласыз. Мысалы оқу орындарын іздеу барысында мынадай тізбек пайда болуы мүмкін: Білім-> Оқу орындары -> Жоғары оқу орындары ->Институттар. Қажетті ішкі катологты тапқаннан кейін, одан сілтемелер жинағын аласыз. Катологтерді программалар емес, адамдар құрастырғандықтан, катологтегі барлық сілтемелер профильді болып табылады. Егер сіз ортақ тақырыпта жалпы ақпарат іздесеңіз, онда каталогке қатынаған дұрыс. Ал егер сізге нақты бір құжатты табу керек болса, онда каталог тиімсіз іздеу құралы болып табылады.
Желіде ортақ қолданылатын каталогтардан басқа, ерекшеленген каталогтар да бар. Егер де бір каталогта өте көп қор орналасса, онда оларды кең таралуына байланысты бірнеше бөліктерге бөлуге (ражнирование) болады. Мысалы, Яндекс каталогында бөліктеу басқа сайттардың біздің сайттағы сілтемелерінің индексімен жүргізіледі.
Желіде каталогтардан басқа рейтингтер де бар. Каталогтан рейтингтің айырмашылығы, мұнда қорларды тікелей оның иесі суреттесе, ал каталогта - авторы, демек оның редакторлары суреттейді.
Сілтемелердің тематикалық жинағы
Сілтемелердің тематикалық жинағы – бұл кәсіби топтармен немесе жеке жинақтаушылармен құрылған тізімдер. Шектелген кәсіби тақырыпты ірі каталогтің жұмыскерлер тобына қарағанда сол жұмыстың кәсіби маманы жақсы ашуы мүмкін.
Домендік атты теру
Каталог – бұл ыңғайлы іздеу жүйесі, бірақ егер сізге Intel немесе IBM компаниясының сервері керек болса, сіз каталогке қатынай алмайсыз. Сәйкес сайттардың атын табу қиын болмайды: www.intel.com, www.ibm.com.
Сол сияқты, сізге егер ауа райына арналған сайт қажет болса, оны www.weather.com серверінен іздеген дұрыс болады. Көп жағдайларда кілттік сөз арқылы сайтты табу мәтінде көп кездесетін сөзден тұратын құжатты тапқаннан ыңғайлы.
Іздеу кезінде танымалы емес компаниялардың адресінің атын интуитивті ойдан тергенде, бірде-бір іздеу жүйесінде тіркелмеген сервермен байланыс орнатуы мүмкін болғандықтан, ол іздеудің басқа түрлерімен табысты бәсекелесе алады. Осыған ұқсас іздеулер тиімсіз, сондықтан ізделінетін сайттың атын таба алмайтын болсаң, іздеу машинасын қолдану керек.
Іздеу машиналары
Сұранысқа жауап ретінде сіз әдетте құжаттардың ұзын тізімін алаcыз, оның көбі сіздің сұрағыңызға жауап бермейді және сол тақырыпқа ешқандай қатысы болмайды. Сондай құжаттар релевантты емес (ағылшын сөзінен шыққан, relevant- лайықты, қатысты) деп аталады, ізденіс бойынша табылған құжаттар релевантты құжаттар деп аталады.
Табылған сілтемелердің тізіміндегі релевантты құжаттардың проценті сұраныстың дұрыс қойылуына байланысты болады.
Іздеу машинасы тапқан барлық құжаттардың ішіндегі релевант құжаттардың бөлігін іздеу дәлдігі деп атайды. Релевантты емес құжаттарды шуы бар құжаттар деп атайды. Егер табылған құжаттардың барлығы релевантты болып келсе (шуы жоқ құжаттар), іздеу дәлдігі 100% құрайды. Егер барлық релевантты құжаттар табылса, онда іздеу толымдығы 100% тең.
Сайып келгенде, іздеу сапасы екі өзара тәуелді параметрлермен анықталады: дәлдікпен және іздеу толықтығымен . Толықтықтың артуы дәлдікті төмендетеді және керісінше.
Іздеу машинасының жұмыс механизмі
Іздеу жүйелерін анықтама қызметімен салыстыруға болады, онда агенттер кәсіпорындарды аралап, мәліметтерді деректер базасына жинайды. Клиент анықтама қызметіне жолыққанда ақпарат сол деректер базасынан алынады. Мәліметтер базада ескіріп отырады, сондықтан агенттер оларды оқтын-оқтын жаңартады. Кейбір кәсіпорындар мәліметтерді өздері жібереді, сондықтан агенттердің оларға барудың қажеті болмайды. Басқаша айтқанда, анықтама қызметінің екі функциясы болады : жасау және деректер базасын тұрақты жаңарту және клиент сұранысы бойынша базадан хабар іздеу.
Сол сияқты, іздеу машинасы да екі бөлімнен тұрады: робот - ол берілген серверлерді аралап деректер базасын қалыптастырады, және іздеу механизмі. Робот терминінің көптеген синонимдері бар, роботтан басқа оны желілі агент немесе торапта жүргеніне байланысты құрт немесе өрмекші дейді.
Робот базасы негізі роботтың өзімен (робот өзі жаңа қорларға сілтемелер тауып алады) және аз дәрежеде өз сайттарын іздеу машиналарында тіркейтін қор иелерімен қалыптасады. Деректер базасын қалыптастыратын роботтан басқа табылған сілтемелердің рейтингісін анықтайтын программа бар.
Іздеу машинасының жұмыс принципі пайдаланушы көрсеткен кілттік сөздер арқылы ішкі каталогтан (деректер базасы) релеванттігі бойынша сұрыпталған сілтемелер тізімін беру арқылы іске асырылады.
Іздеу жүйесі тек ішкі каталогтармен операциялайтынын атап айтқан жөн. Іздеу машинасының мәліметтер базасы жүйедегі түйіндік адрестерді сұрау арқылы әрдайым жаңартылатынына қарамастан, іздеу машинасының ішкі қорларын және желі қорларын салыстыруға келмейді, сондықтан әрқашан машина ескірген адрес немесе қажетсіз ресурс табатыны өте ықтимал. Проблема тек қана ішкі қорлардың шектілігінде ғана емес, тағы роботтың жылдамдығының шектілігінде тұр. Іздеу машинасының ішкі қорларының көбеюі проблеманы шешпейді, себебі аралау жылдамдығы ақырлы.бірақ іздеу машинасының ішінде каталогтарға бөлінген Интернеттің кіріс қорларының белгілі бөлігінің көшірмесі болады деуге болмайды. Толық ақпарат (кіріс құжаттар) бәрі бірдей сақталмайды, көбіне жиі тек оның бөлігі – индекстенген тізім немесе индекс деп аталатын, құжат жолынан шағын бөлігі сақталады.
Индекс құрау үшін кіріс мәліметтер қор көлемі минималды, ал іздеу тез әрі максималды пайдалы ақпарат беретіндей түрлендіріледі. Индеккстенген тізімді түсіндіру үшін оның қағаз аналогы – конкорданс, яғни сөздікті келтіруге болады, онда белгілі жасушымен қолданылатын сөздер алфавиттік тәртіпте болады, және де жазушы шығармасында келтірілгеніне сілтеме болады.
Айтпаса да түсінікті, конкорданс (сөздік) шығарма тексінен шағын және одан керекті сөзді іздеген кітапты түгел парақтағаннан көп жеңіл.
Индексті құру
Желілік агенттер немесе робот-өрмекшілер Желі бойымен “өрмелейді”, Web – беттердіѕ талдайды және не әрі қай парақта табылғаны туралы ақпарат жинайды. Кезекті HTML-парақтарды табысымен көптеген іздеу машиналары (әр іздеу машиналарында әртүрлі) сөздерді, суреттерді, сілтемелерді және де басқа да элементтерді белгілейді. Сөздердің парақта барлығы ғана емес, әрі оның орналасуы, яғни бұл сөздің қайда орналасқаны: тақырыпта (title), таќырыпшаларда ( subtitles ), метатэгте ( meta tags ) немесе басќа орындарда . Әдетте негізгі сөз ескеріледі де, шылау мен одағайлар: “ ал ”,“ біраќ ” және “ немесе ” еленбейді. Метатегтер парақ иелерінің өзіне сол арқылы ізделінетін кілттік сөздер мен тақырыпты анықтауға мүмкіндік береді. Бұл әсіресе кілттік сөздің бірнеше мағынасы болғанда қажет. Метатегтер іздеу машинасын сөдердің бірнеше мағынасынан дұрысын таңдауға көмектеседі. Алайда метатегтер адал толтырылғанда ғана сенімді жұмыс істей алады. Web-парақтардың кейбір иелері өздерінің метатегтеріне Желіде көп аталатын өз сайт тақырыбына қатысы жоқ сөздермен толтырады, сол арқылы өзінің жаңа келушілерін тарту әрі қор қатысуы рейтингісін жоғарылату үшін жасайды. Іздеуден осы сияқты сайттарды шығару – жақсы іздеу жүйесінің тағы бір тапсырмасы. әрбір роботтың өз қараниетті жарнама үшін жазаланған қор тізімі бар.
Тапсырма берілген Web-парақтарда ақпарат жиналғаннан кейін алынған мәліметтерді индекстеу жүреді. Робот-өрмекшілер Web-парақтардың ақпараттарын қарастырып, кілттік сөздер арқылы индекстенген іздеу базасын құрады, содан кейін пайдаланушы сұранысы арқылы жүйе дұрыстығына (релевантты) қарай сайттар тізімін береді. Айқын, егер сіз сайтты “гүл” деген кілттік сөзбен іздесеңіз, онда іздеу машинасы сол сөз бар парақтарды тауып қана қоймай, бұл сөздің қай жерде сайт тақырыбына қатыстылығын анықтай алуы керек. Сөздің Web-парақтың профиліне қатыстығын анықтау үшін оның парақта қаншалықты жиі ұшырасатынын, берілген сөз туралы сілтемелердің бар-жоқтығын бағалау керек. Қысқаша айтқанда, парақта табылған сөздерді маңыздылық дәрежесіне қарай рангілеу керек.
Сөздерге салмақтылық коэфициенттері оның қанша және қайда кездесетініне қарай (парақ тақырыбында, беттің басы не аяғында, сілтемеде, метатегте және т.б) меншіктеледі. әрбір іздеу механизмі салмақ коэфициенттерін берудің өз алгоритмдері бар – бұл әртүрлі іздеу машиналарының бір кілттік сөз арқылы сұрауға әртүрлі қорлар тізімін берудің бір себебі. Парақтар әрдайым жаңартылып отыратындықтан, онда индекстеу үрдісі де жиі орындалып отырылуы керек. Робот-өрмекшілер сілтемелерді аралай жүріп, индекстен тұратын файлды құрады, ол үлкен болуы мүмкін. Оның көлемін азайту үшін ақпарат көлемін минимизациялау мен файлды сығуға жүгінеді. өңделгеннен кейін мәліметтер үнемі жанарып отыратын базада сақталады. Бірнеше роботтары бар іздеу машинасы секундына жүздеген парақтарды өңдей алады. Бүгінде мықты іздеу машиналары жүздеген миллион парақты сақтайды және күніне ондаған миллион сұранысты қабылдайды.