Ақпараттық
ізденістің 2 түрін бөліп қарайды:
- тұтас обьектіні іздеу;
- мазмұн бойынша іздеу.
Бұл кездегі
ізденіс нәтижелері дәлдігімен және
толықтығымен сипатталады.
Ізденіс дәлдігі – жүйенің
релевантты емес құжаттарды сүзгіден
өткізе алуы.
Ақпаратты іздеу процесін жүйені белгілі
бір нәтижеге әкеліп, оның толықтылығын
бағалауға мүмкіншілік беретін реттілікті
қадамдар деп қарастыруға болады.
Ізденіс толықтығы жүйенің барлық релевантты
құжаттарды бере алу қабілетімен анықталады.
Жалпы
түрде ақпараттық ізденістің келесі
әдістерін бөліп қарайды:
- тікелей бақылаулар;
- қызықтыратын сұрақтар бойынша мамандармен пікір алысу;
- сәйкесті әдебиеттер оқу;
- видео, телепрограмммалар көру;
- радиохабарлар, аудиокассеталар тыңдау;
- кітапханалар мен архивтерде жұмыс істеу;
• ақпараттық
жүйелерге, компьютерлік (электрондық)
мәліметтер базасы мен банкілерге сұраныс
жасау
• басқа әдістер.
Пайдаланушының
қажетті ақпаратты іздеп, табуында
тиімді автоматтандырылған ізденіс
ұйымдастырудың маңызы зор. Жоғарыда айтылған
индекстеу кітапханаларда ақпараттық
ізденіс кезінде кеңінен қолданылуда.
Алғашында индекстеу карточкалық
каталогтарда орын алды. Бұлардың көмегімен
авторы, аты және тақырыбы бойынша
қажетті материалдарды тез табуға
мүмкіндік туды. Кітапханадағы автоматтандыру,
бірінші кезекте, электрондық каталогтар
(ЭК) құруға мүмкіндік берді. Бұл
бойынша оқушылардың сұраныстарын
жылдам және дәлірек ұйымдастыру
мақсатында арнайы бөліктерде тақырып
пен рубрикалар, кілттік сөздер жазылып
қойылды.
Авторы
және құжат аты бойынша құжаттарды
іздеуден кейін тақырып бойынша
ізденіс жұмыстары кеңінен өріс
ала бастады. Бұл пайдаланушыда
ізденіс процесінің басында өзінің
ақпараттық қажеттілігі, сұранысы жайлы
жалпы көзқарас ғана болуына байланысты.
Сондықтан, ол жалпы сипаттағы сұраныс
береді. Бірақ, тақырыптық ізденіс тікелей
оз бағытында да қолданады, яғни, нақты
тақырып бойынша белгілі бір уақыт кезеңі
арылығындағы құжаттарды іздеу, кейде
авторлары бойынша да ізденіс жүреді.
Бұл бағыттың онан әрі дамуын электронды
каталогтарда тақырып, автор және аты
жазылатын арнайы бөліктердің пайда болуымен
байланыстырады.
Әдетте
ізденіс процестері 4 кезеңнен тұрады:
- тұжырымдама жасау (ізденіс басталғанға дейін жасалады);
- ізденіс басы;
- алынған нәтижелерін шолып қарау;
4) ізденісті
түрлендіру (модификациялау).
Мұнан
да гөрі ыңғайлы ақпаратты іздеудің
сызықтық емес схемасы келесі кезеңдерден
тұрады:
1) ақпараттық
сұранысты өзінің тілінде тіркеу;
2) тізбектің
ізденіс сервистерін таңдау және ақпараттық
сұраныстар жазбаларын нақты ақпараттық-ізденіс
тілінде өрнектеу;
3) жасалған
сұрауларды орындау;
4) құжаттарға
алынған сілтемелер тізімін алдын ала
өңдеу;
- ізделіп отырған құжаттарды адрестер бойынша қарау;
- табылған құжаттардың мазмұнын алдын ала көру;
- релевантты құжаттарды келесі кезеңдерде зерттеу үшін сақтау;
- релевантты құжаттардан сұрау аясын кеңейту үшін сілтемелер алу;
- құжаттардың бүкіл массивін зерттеу;
- ақпараттық сұраныс толығынан қанағаттандырылмай қалған жағдайда бірінші кезеңге қайта келу.
Ақпараттық
ізденістің элементар бірлігі құжат
болып саналады.
Әртүрлі құжаттарда сақталған мәтіндік
ақпарат жалпы жағдайда әлсіз
құрылымданған болып келетіні белгілі.
Пайдаланушы өзіне қажетті құжатты
табуы құжатты сәйкестендіретін
(идентификация) арнайы компоненттерді
қосуы қажет. Бұл мақсатты орындау
үшін құжаттың ізденіс бейнесі құрылады.
Ақпараттық
ізденіс ақпараттық-ізденіс жүйелері
көмегімен орындалады. Ақпараттық ізденіс
құрылымы 2-суретте көрсетілген.
Ақпараттық ізденіс стратегиясы
ақпаратты пайдаланушылар мен ақпараттық-ізденіс
жүйесі арасындағы ізденіс міндетіне,
берілу критерийіне және диалог сипатына
байланысты
Ізденіс әдістері
Әдетте
ақпараттық ізденіс құжаттар мәтіні
арқылы емес, құжаттар мазмұнының сипаттамалары
арқылы немесе құжаттардың белгілі
бір сыртқы белгілері арқылы жүзеге
асырылады. Ол үшін әрбір құжат құжаттың
ізденіс бейнесімен – құжаттың негізгі
мағыналық мазмұнын қысқа түрде көрсететін
сипаттамамен - қамтамасыз етіледі. Ендеше,
пайдаланушыға қажетті құжаттарды алу
үшін ақпараттық сұрау, яғни, құжаттың
ізденіс бейнесі жасалынуы керек. Ақпараттық
ізденіс жүргізу ізденістің сұрау бейнесіне
сәйкес келетін құжаттың ізденіс бейнесін
іздеуге әкеліп соғады. Ең қарапайым құжаттың
ізденіс сұрауына құжаттың аты мен автордың
фамилиясы жатады.
Ізденіс әдістері – жекелеген
технологиялық кезеңдерді жүзеге асыруға
арналған моделдер мен алгоритмдердің
жиынтығы. Бұларға ізденістің сұрау бейнесін
жасау, құжаттарды таңдау (ізденісті сұрау
бейнесі мен құжаттардың ізденіс бейнесінің
салыстырылуы), сұрау аясының кеңеюі және
оны қайта құру, локалдау және берілу бағасы
енеді.
Ізденістің
сұрау бейнесі пайдаланушының ақпараттық
сұранысының формалды сипатталған моделі
болып табылатындықтан, ізденістің сұрау
бейнесі мен құжаттың ізденіс бейнесі
бір біріне сәйкес келуі керек.
Құжаттың
ізденіс бейнесінде құжаттың негізгі
мағыналық мазмұны қысқа түрде беріледі.
Мұндай әдіс қажетті ақпарат орналасқан
барлық құжаттарды табуды қамтамасыз
ете алмайды. Кейде табылған құжаттар
арасында сұрауға сәйкес келмейтін құжаттар
да кездесуі мүмкін. Бұл құжаттар «ізденіс
шуылы» деп аталынады.
Ізденісті
автоматтандыру әдістерін түсінуде
келесі 2 фактор анықтаушы роль атқарады:
- обьектілер салыстырылмайды, салыстырылатын оның сипаттамалары – «ізденіс бейнелері»;
- процестің өзі күрделі болып келеді (құрамдас) және операциялар реттілігі арқылы жүзеге асады.
- Құжаттың мазмұны бойынша «еркін» іздеудің маңызы артуда. Әсіресе контекстік операторлар көмегімен берілетін терминдерді «жасыру (бүркеу)» арқылы беруде жиі кездеседі. Автоматты түрде іздеу барысында құжаттың ізденіс бейнесі арқылы немесе олардың рефераты арқылы іздегенде жоғары нәтижеге жетеді. Басқа жағдайларда жазылып алынған сөз тіркестері мен сөздер анықтамада берілгендермен салыстырылады. Анықтамада табылмаған сөздер жойылады, қалғандары алфавит бойынша сұрыпталады. Іздеу түрлерінің типологиясы 2 кестеде келтірілген.
- Мағыналық ізденіске обьектіні толық және дәл сипаттау барысында белгі жүйесіндегі анықталмаушылықты жоятындай белгі (таңдау) қалыптастыру жағдайы сәйкес келеді. Яғни, тұрақты (жалғыз) концепт кезінде көптеген обьект ішінен ізделінген обьектіні тауып алуға мүмкіндік беретін белгіні (таңдауды) қалыптастыру жағдайы.
- Тақырыптық ізденіс үшін жағдай басқаша. Бұл жағдай үшін обьектіні әртүрлі аспектілерде көрсетуге мүмкіндік беретін реттелген түрде шектелген көптеген концепт беріледі. Проблемалық ізденіс жағдайында реттелмеген және нақты түрде түрде анықталмаған концепттер жиынтығы беріледі.
- Көптеген ақпараттық-ізденіс жүйелерінде сөз тізбегін іздеу механизмі, қосу және шығарып тастау операторлары, Буль операторы болады (бұл жағдайда бір немесе бірнеше дұрыс (дұрыс емес) мағына байланыста болады және жалғыз дұрыс (дұрыс емес) шешімді табатын оператор). Оларды қысқа түрде қарастырайық.
- Сөз тіркесі арқылы ізденіс ізделінетін обьект тырнақшаға алынуы арқылы ұйымдастырылады. Нәтижесінде тек осы сөз тіркесі енген (жекелеген сөздер немесе барлық сөз енген тіркес емес) құжаттар тізімін шығаратын команда беріледі. Көптеген қазіргі заманғы ақпараттық-ізденіс жүйелерінде мұндай мүмкіндіктер жасырын түрде берілген.
- Ақпараттық-ізденіс жүйелерінде арнайы қысқарту символы («*») пайдаланылады. Бұл символ белгілі бір әріптерден басталатын, бірақ басқаша аяқталатын барлық терминдерді немесе сөз тіркестерін іздеу үшін анықталмаушылықты, терминдерді қысқартуды білдіреді. Әдетте бұл символ сөз соңындағы әріптердің кез келген мөлшерін білдіреді ( оң жақтық қысқарту).
- Қосу (сөздер және олардың сауалға енгендерінің бәрін жазу) және қысқарту операторларын пайдалану, сөз тіркесі бойынша ізденіс ұйымдастыру ізденістің нәтижелілігін арттырады. Мысалы,
- жасанды + интеллект (қосу операторы);
- жасанды + интеллект - ойын (қосу және қысқарту операторлары).
- Ақпаратты Интернетте іздеу үшін ізденіс құралдары (тақырыптық каталог, сілтемелер, іздеу үшін жасчалынған қатар) бар арнайы ақпараттық-ізденіс жүйелері жасалынған. Мұндай жүйені іске қосу үшін пайдаланушыға оның адресін браузердің адрестік қатарына енгізуі жеткілікті. Интернетте ақпараттық-ізденіс тілдерінің бірнеше түрі пайдаланылады, мысалы, координаталық және бульдік.
- Координаталық ізденісте сауалға кілттік сөздер деп аталатын терминдер енеді. Бұл тізім құжаттар терминінің тізімімен салыстырылады. Әр құжат үшін оның сауалға сәйкестілігінің (формалды релеванттылық) дәрежесі анықталады, ол арқылы құжаттарға берілген барлық сілтемелер тәртіпке келтіріледі. Кілттік термин ретінде мынадай тұрақты сөз тіркесін қолдануға болады, мысалы, «ақпараттық-ізденіс жүйесі». Ізденіс жүйесі үшін бұл сөздің басқа кез келген кілттік сөзден ешқандай айырмасы жоқ, сондықтан мұндай ізденіс қарапайым болып саналады.
- «AND» («И»), «OR» («ИЛИ») және «NOT» («НЕТ») Бульдік (логикалық) операторлары қосу, қиылысу және қысқарту операторларының эквиваленті болып саналады. 3 кестеде саулдарды жасаудың варианттары келтірілген.
- Сонымен қатар, мәтіндегі бір-біріне жақын екі сөзді табатын (әдетте 10сөзге дейін) «NEAR» немесе символ «~» жақындық операторы да бар. Әдетте бұл оператор сауалдың ізденіс алдын ала жасалынатын ұйғарымын нақтылауда пайдаланылады.
- Операторлар әртүрлі басымдылықтарға ие. Кез келген өрнекте алдымен «NEAR», онан кейін «NOT», сосын «AND» және соңынан «OR» операторы орындалады. Операторлардың реттілігін өзгерту үшін арифметикалық операцияларды орындаған сияқты дөңгелек жақшалы өрнектер орындалуы қажет. Ақпараттық ізденіс жүйелері мұндай өрнектерді солдан оңға қарай бағалайды, бұған жақша ішінде орналасқан және алдымен сұралатын сөздер енбейді, яғни, алдымен жақша ішіндегі, онан кейін олардың арасындағы операциялар орындалады. Мысалы, 2009 жылдың 1 июлінен 2010 жылдың 1 июліне дейінгі мерзімді иеленетін өрнек. Сауал мына түрде беріледі: «date=01/07/201 0 валюта». Ізденістің берілген шарттарына байланысты алдымен «дисплей» немесе монитор» сөздері бар құжаттар және фирмалардың құжаттары сұралады, онан кейін AND операциясы орындалады. Нәтижесінде Philips немесе Samsung фирмалары шығарған дисплей немесе монитор жайлы ақпарат бар құжаттар беріледі.
- Формалдық релеванттылық – құжатта пайдаланушы сауалына сәйкес контекстік жағдайдың болуы. Формалды релеванттылықтан басқа мазмұндық және жеке-прагматикалық релеванттылық та болады. Мазмұндық релеванттылық – құжат мазмұнының пайдаланушының сұранысына сәйкес келуі. Жеке-прагматикалық релеванттылық деп пертиненттілікті айтады.
- Бульдік іздеу барысында сөздер мен сөз тіркестері бульдік алгебраның операторларымен («логикалық коннекторлар») бірігеді. Мысалы, сауалда келесі сөздер мен сөз тіркесі пайдаланылған «World Wide Web», «Web», «технология». Бұларға ізденіс жүргізу үшін екі сөзден тұратын сауал жасау қажет: (мысалы, «Web and технология»), немесе «технология not Web», немесе «Web or технология», тіпті «not (Web & технология)». Соңғы жағдайда бірде-бір сауалда кездеспейтін құжаттар ізделеді. Кейбір ақпараттық-ізденіс жүйесінде логикалық коннекторлармен қатар, сөздердің мәтінде бір-біріне қатысты өзара орналасуын ескеретін позициялық коннекторларды да пайдаланады.
- Кез келген ізденіс жүйесінен жүйеде сауал қатарын құру жөнінде мәлімет алуға болады.
- Қарапайым сауал кезінде ізденіс тақырыбын анықтайтын бір немесе бірнеше сөз енгізу жеткілікті және бұл кезде әріптер тіркелімінің қажеті жоқ.
- Сауалда «*» или «?» символдарын пайдалануға болады.
- «?» символы кілттік сөзде орнына кез келген әріп орналастырыла алатын бір символды ауыстырады, ал «*» белгісі символдардың реттілігін көрсетеді. Мысалы, «информат*» сауалы «информатика», «информациялық», «информативты» сөздері бар құжаттарды табуға көмектеседі. Белгілі бір ақпарат алу үшін жасалынған сауалға кілттік сөздерді қиыстыру қажеттлігі туындайды. Ол үшін қосымша байланыс сөздері, функциялары, операторлары, символдары жақшалар арқылы бөлінген оператор комбинациясы бар күрделі сауалдар жасалады. Мысалы, & (beatles OR битлз) музыканың сауалы пайдаланушы музыка немесе музыка және beatles сөздері бар құжаттарды іздеуде дегенді білдіреді. Интернетте орналастырылған ақпараттың ерекшелігі – оның таралып орналасуында және өзгергіштігінде, артық және әртүрлі болуында, мәліметтердің құрылымданбағанында немесе әлсіз құрылымданғанында.
- Кеңейтілген бульдік моделде бинарлық шамалар орнына құжаттардағы және сауалдардағы терминдер салмақтық коэффициентермен (маңыздылығы және статистикалық бағасы) сипатталады. Сонымен қатар, анық емес жиынтықтар аппараты қолданылады, яғни, элементтің жиынтыққа жататынының дәрежесі [0,1] интервалы шамасымен анықталады.
- Және элементтің жиынтыққа жату дәрежесі сауал нәтижесін реттеуге пайдаланылуы мүмкін.
- Бұл моделдердің артықшылығы - олардың сауалды оңай түсіну құрылымына және жүзеге асырылуының қарапайымдылығында.
- Кемшіліктеріне жататындар: күрделі сауалдарды сипаттаудағы тиімсіздігі (нәтижесінде сауал өте көп немесе аз болуы мүмкін), нәтижелерді реттеудегі қиындықтар. 80% сауалдарда операторлар болмайтынын да айта кету қажет.
- Қазіргі заманғы ізденіс моделдері құжаттар (мысалы, терминдер кездесу жиілігінің есебін жасауға болады – салмақтық сипаттама) мен сауалдардың сипаттамаларын қосып алған. Құжаттар мен сауалдардың лингвистикалық ұқсастықтары тақырып бойынша ұқсастықты білдіреді, яғни, құжаттың факты бойынша релеванттылығын көрсетеді деп ұйғаруға болады.
- Лексикалық бірліктерді және бастапқа мәтінді таңдау мәтінді статистикалық өңдеу негізінде жүзеге асырылатын тәсіл бар, бұл кезде сөздер семантикалық мағынасы жоқ белгілер ретінде қарастырылады.
- Сөздік бойынша индекстелуі бақыланатын да тәсіл бар, бұл кезде бастапқы берілген мәтіннің сөздері сөздікпен салыстырылады. Сәйкес сөздер немесе олардың дескипторлары (гипермәтінді белгілейтін тіл элементі) ізденіс бейнесіне жазылады. Бір аспектілі (бір қасиеті бойынша) және көп аспектілі (бірнеше қасиеттері бойынша) индекстеулерді бөліп қарайды.
- Кітапханалық тізбектік мәліметтік базаларда іздеу мақсатында «Мәліметтер базасы» жиегін (поле) пайдала<span class="Font_0020Style35__Char" style=" font-s