Буцах

2021016 - Ажлын байранд тавигдах шаардлагийн их өгөгдлийг шинжлэх

Нийгэм

Хураангуй 

0

 Байгууллага бүрт цугларч буй өгөгдлийг боловсруулж, шинжлэх нь маш чухал асуудал болж байна. Мөн үүнийгээ дагаад их өгөгдлийн шинжилгээний олон арга хэрэгслүүд гарч байна. 

0

Бид энэхүү судалгааны ажлын хүрээнд 33 банк санхүүгийн болон 75 харилцаа холбоо мэдээллийн технологийн салбарын байгууллагаас зарласан 66 ажлын байранд тавигдах шаардлагийг судалж үзлээ. Энэ нь 2018-2021 оны нийт 4 жилийн өгөгдлийг нээлттэй эх сурвалж ашиглан цуглуулсан. Тус ажлын байрууд нь мэдээллийн технологийн салбарын ажлын байрууд юм.  

0

Онол аргазүйн хувьд өгөгдөл тандалтын аргуудаас cluster(бүлэглэх), classification(ангилах) аргуудын зарим алгоритмыг туршиж тодорхой үр дүнд хүрлээ. Тус өгөгдөл тандалтын аргуудыг Waikato-ийн их сургуулиас гаргасан WEKA өгөгдлийн шинжилгээний програмыг ашиглан боловсрууллаа. 

0

Энэ судалгааны ажлаар бид мэдээллийн технологийн салбарт ажиллах оюутан болон бусад хүмүүст ямар ажлын байрны шаардлага тавьдаг болохыг судлахыг зорьж ажилласан. Мөн өгөгдлийн шинжлэх ухааны хичээлээр олж авсан мэдлэгээ бататгахаас гадна төгсөөд ажлын байранд очиход биднээс ямар мэдлэг, ур чадварууд шаарддаг болохыг илрүүлж цаашид аль ур чадвараа илүү хөгжүүлэх ёстойг оюутнуудад судалгааны үр дүнгээрээ харуулахыг зорилоо. Дээрх зорилгын хүрээнд хийгдсэн судалгааны ажил тодорхой үр дүнд хүрч чадсан

0

Түлхүүр үг: Cluster(бүлэглэх), classification(ангилах), өгөгдлийн тандалт, их өгөгдлийн шинжилгээ, шийдвэрийн мод 

0

Удиртгал

0

Өнөө үед байгууллагууд аливаа бизнес процессоо автоматжуулсанаар байгууллагад их хэмжээний өгөгдөл цугларч байна. Тиймээс байгууллагууд эдгээр их хэмжээний өгөгдөлөө боловсруулах, байгууллагад шаардлагатай бизнесийн аливаа өгөгдөлөө гаргаж авах, шүүх хэрэгцээ шаардлага өдөр тутам нэмэгдэж байна. Бид өгөгдлийн шинжлэх ухааны хичээлүүдээр үзсэн мэдлэгээ бататгах, өгөгдөл боловсруулах мэдлэг чадвараа нэмэгдүүлэхийн тулд энэхүү судалгааны ажлыг хийж гүйцэтгэлээ. 

0

Судалгааны ажлаа их өгөгдлийг цуглуулж, шинжилгээ хийхээр тооцоолсон боловч тухайн өгөгдлийг цуглуулахад “COVID 19” цар тахалтай холбоотойгоор өгөгдөл цуглуулах боломжгүй  болсон тул нээлтэй эх сурвалжуудыг ашиглан өгөгдөлөө цуглуулсан. Ажлын байранд тавигдаж байгаа шаардлагуудыг biznetwork.mn, unegui.mn гэх мэт хүний нөөцийн нээлттэй системүүдээс гадна тус байгууллагуудын албан ёсны веб хуудаснуудад зочлон 2018-2021 оны нийт 108 ажлын байр, түүнд тавигдах шаардлагын мэдээллүүдийг цуглуулсан.  

0

Банк, санхүү болон мэдээллийн технологийн нийт 66 байгууллагын мэдээлэл харилцаа холбоо, технологийн салбарт ажиллах ажлын байранд ямар ямар шаардлага тавигдаж буйг он оноор нь ялган судалж хувь хүн талаасаа болон мэдлэг талаасаа юун дээр түлхүү анхаарвал зохих  талаар “Weka” програмыг ашиглан  бүлэглэх болон ангилах гэсэн хоёр аргыг ашиглан үр дүнг гаргасан.

0

  1. Их өгөгдлийн шинжилгээний онол, аргазүй

0

Ямар нэг байгууллагад их хэмжээний боловсруулаагүй өгөгдлүүд байдаг. Тухайн өгөгдлүүдийг хэрэгтэй мэдээлэл болгохоос нааш огт хэрэг болохгүй. Эмх цэгцгүй өгөгдлүүдэд дүн шинжилгээ хийж хэрэг болох мэдээллийг татаж авах нь чухал юм. 

0

Их өгөгдлийн шинжилгээний тусламжтай өгөгдлийн төлвийн холбоо хамааралыг тусгай өгөгдөл  шинжих хэрэгсэл ашиглаж загвар бий болгоно. 

0

Энэ бүх загварууд бодит байдлыг хийсвэрлэж, бизнесийн  үйл явцыг ойлгоход хэрэг болохоос гадна ямар арга хэмжээг авч болохыг санал болгодог.

0

Өгөгдлийн тандалтын хоёр гол шалтгаан:

0

  • Бага мэдээлэл, их хэмжээний өгөгдөл
  • Тухайн өгөгдлийн сангаас хэрэгтэй мэдээллээ олох

0

Шинжээч ямар нэг тусгай хэрэгсэлгүй их хэмжээний өгөгдлийг яаж ч чадахгүй. Гэсэн хэдий ч өгөгдлийн тандалтын тусламжтай замбараагүй өгөгдлийг загварчилж холбоо хамаарлыг олох процессыг автоматчилж, үр дүнд нь шийдвэрийг автомат системийн тусламжтай эсвэл шинжээч өөрөө гаргаж ирэх юм. Илрүүлэхэд боломжгүй, дүн шинжилгээ хийх хэрэгтэй их хэмжээний өгөгдөл агуулдаг бизнес болон шинжлэх ухааны салбарт өгөгдлийн тандалт чухал хэрэгтэй. Учир нь хайлт хийгээд ямар ч үр дүн гарахгүй. Хэрэв замбараагүй далд байгаа өгөгдлийг үнэ цэнэтэй мэдэлээл болгож чадвал энэ нь байгууллагын хамгийн чухал нөөц болох боломжтой юм.

0

Үүсэл хөгжил: Өгөгдлийн тандалт гэдэг ойлголт анх 1990-ээд онд    гарч ирсэн. Өгөгдлийн тандалтын үндэс суурь болох ойлголтууд: 

0

  • Машин сургалт/хиймэл оюун ухаан (Machine learning/ AI)
  • Загварчлал таних (Pattern recognition)
  • Cонгодог статистик (Classical statistic)
  • Өгөгдлийн сангийн систем(Database systems

0

0

Зураг 1.1. Өгөгдлийн тандалтын үүсэл

0

Өгөгдлийн тандалт нь маш өргөн хүрээг хамарч шинжилгээ судалгаа хийх тул мэдлэг илрүүлэх гэсэн дан ганц ойлголттой бас андуурч болохгүй. Зарчмын хувьд өгөгдлийн сангаас мэдлэг илрүүлэх нь өгөгдлийн тандалтын шинжлэх ухааны аргуудын нэг юм.

0

Өгөгдлийг ерөнхийд нь дахин ашиглах зорилгоор хадгалсаар ирсэн. Өгөгдлийн тандалт нь шинэ ойлголт боловч технологи нь бол тийм биш. Өгөгдлөөс загвар гарган авах нь хэдэн зууны туршид гараар хийгдэж байсан. Жишээ нь Бейесийн теором (1700-аад оноос), регрессийн шинжилгээ (1800-аад оноос) зэрэг нь өгөгдлийн загварыг тодорхойлох эртний аргууд билээ. Компьютер үүсч мэдээллийн технологи эрчимтэй хөгжсөнөөр өгөгдөл боловсруулалтанд нейрон сүлжээ, бүлэглэлт, генийн алгоритм (1950-аад оноос), шийдвэрийн мод (1960- аад оноос) болон тулгуурт векторын машин (1990-ээд оноос) зэрэг ойлголтууд шинээр нээлт болон гарч ирсэн.

0

   Өгөгдлийн тандалт нь 1980-аад оны сүүлийн үед үүссэн. 1990 оны сүүл үед өгөгдлийн тандалтыг ашиглан гайхалтай алхмуудыг хийсэн бөгөөд одоо өгөгдлийн тандалтыг компьютерийн шинжлэх ухаанаар дамжуулан шинжлэх ухаан, эрүүл мэнд, санхүү, бизнесийн ухаан, эдийн засаг, биоинформатик, хүн судлал, сансар судлал зэрэгт өргөн ашиглаж байна.

0

2. ӨГӨГДЛИЙН ТАНДАЛТ ХИЙХ АРГУУД

0

Өгөгдлийн тандалтын модуль нь өгөгдлүүдийн ерөнхий шинжийг тодорхойлох, өгөгдлүүдийн холбоо, хамааралд дүн шинжилгээ хийх, өгөгдлүүдийг нийтлэг шинжүүдээр нь бүлэг болгон ангилах, тодорхой үзүүлэлтүүдийн тусламжтай урьдчилан таамаглах, өгөгдлүүдийг нийтлэг шинжүүрээр нь бүлэглэх, хэт ялгаатай өгөгдлүүдийг ялгах үүрэг гүйцэтгэнэ.

0

Өгөгдлийн тандалтыг хяналттай ба  хяналтгүй хоёр үндсэн төрөлд хуваадаг. Хяналттай аргачлал нь зорилго нь тодорхой, судлаач нь зорилгоо биелүүлдэг байх ёстой. Хяналтгүй аргачлал нь тодорхой зорилгогүй, судлаач нь тэрхүү боловсруулаагүй өгөгдлүүдээс мэдлэгийг олж авах хэрэгтэй болдог.

0

Өгөгдлийн тандалтын аргуудыг ямар үүрэг гүйцэтгэж байгаагаар нь хоёр ангилдаг.

0

A. Таамаглах аргууд (Predictive tasks)-

0

   Өгөгдлүүдийн тусламжтай урьдчилсан дүгнэлт гаргах

0

Б. Тодорхойлох аргууд (Descriptive tasks)-    Өгөгдлийн сан дахь өгөгдлүүдийн ерөнхий шинж чанарыг тодорхойлох

0


Бүлэглэлт (Clustring)

0

Clustering Image

0

Зураг 1.2

0

Ямар нэг тодорхой, тогтоосон, төсөөтэй шинжүүрээр (хэмжээ) объектыг бүлэглэхийг обьектын бүлэглэлт (cluster) гэдэг. Ингэж бүлэглэх процессыг ангилал хийх (clustering) буюу хуваалт гэж нэрлэдэг. Тухайн бүлэглэлтийг цаашид мөн обьект мэт авч үзэж болно. Өөрөөр хэлбэл бүлэглэлт хийх аргын үүрэг нь өгөгдөл ба обьектын өгөгдсөн олонлогоос бүлэг буюу ангийг (дэд олонлог, бүлэг, анги хэсэг) гаргаж авах явдал юм. Кластер нь дараах алгоритмуудыг дэмждэг:

0

Ангилал (Classification)

0

Classification Image

0

Зураг 1.3 

0

Ангилал нь нөхцөл бүрээр ангилан тодорхойлох үйлдлийг хэлнэ. Нөхцөл бүр нь аттрибутуудын олонлогоос бүрдэх бөгөөд эдгээрийн нэг нь класс аттрибут байдаг. Энэ арга нь оролтын аттрибутуудын функцээр класс аттрибутыг тодорхойлон загвар гарган авахыг шаарддаг. Мөн өгөгдлийн тандалтын хяналттай алгоритмуудыг ашигладаг. Шийдвэрийн мод, нейрон сүлжээ зэрэг нь ангиллын алгоритмууд юм

0

Weka программ

0

      Weka нь дүрслэх хэрэгсэл, өгөгдөлд дүн   шинжилгээ хийх, урьдчилан таамаглах загварчлах    алгоритмуудын цуглуулга, эдгээр функцуудад хялбархан нэвтрэх боломжийг олгодог график хэрэглэгчийн интерфэйсүүдийн хамт агуулдаг. Weka-ийн Java бус анхны хувилбар нь бусад програмчлалын хэл дээр хэрэгжүүлсэн Tcl / Tk урд талын (ихэвчлэн гуравдагч этгээдийн) загварчлах алгоритмууд, мөн C хэл дээр өгөгдөл урьдчилан боловсруулах хэрэгслүүд, мөн машин сурах туршилтыг ажиллуулах Makefile дээр суурилсан систем байв. Энэхүү анхны хувилбар нь үндсэндээ хөдөө аж ахуйн домэйны өгөгдөлд дүн шинжилгээ хийх хэрэгсэл болгон боловсруулсан боловч 1997 онд хөгжүүлэлт эхэлсэн Java-д суурилсан хамгийн сүүлийн үеийн хувилбар одоо олон янзын чиглэлээр ялангуяа боловсролын зориулалт, судалгааны зорилгоор ашиглагдаж байна. 

0

Weka-ийн давуу талууд нь:

0

  1. олон нийтийн ерөнхий лицензийн дагуу үнэгүй ашиглах боломжтой.
  2. Зөөврийн байдал, энэ нь Java програмчлалын хэл дээр бүрэн хэрэгждэг тул бараг бүх орчин үеийн тооцоолох платформ дээр ажилладаг.
  3. Мэдээллийг урьдчилж боловсруулах, загварчлах арга технологийн цогц цуглуулга.
  4. Хэрэглэгчийн график интерфэйсүүдээс шалтгаалан ашиглахад хялбар

0

Logistic Regression

0

Алгоритм нь оролтын утга тус бүрийн коэффициентийг сурч, тэдгээрийг регрессийн функц болгон шугаман байдлаар нэгтгэж, логистик (s хэлбэртэй) функцийг ашиглан хувиргадаг. Логистик регресс нь үр дүнтэй байдаг

0

No description available.

0

Зураг 1.4

0

А гэсэн ангилалд гадаад хэлний мэдлэг B гэсэн ангилалд 0 C гэсэн ангилалд 1 Хамгийн сайн нарийвчлалтай ангилагдсан байна. Нарийвчлал нь 78.8% байна.

0

Naive Bayes

0

Бейс анги тус бүрийн арын магадлалыг тооцож, хамгийн өндөр магадлалтайангилалд таамаглал дэвшүүлдэг. Иймээс энэ нь хоѐртын ангилал ба олон ангиллын ангиллын асуудлуудыг хоѐуланг нь дэмждэг.

0

0

Зураг 1.5

0

А гэсэн ангилалд технолиги ашиглах чадвар B гэсэн ангилалд  0 C гэсэн ангилалд 1.  Хамгийнн сайн нарийвчлалтай ангилалдсан B байна. Нарийвчлал нь 84.4% байна.

0

Decision Tree

0

Энэхүү арга нь тодорохо бус үр дүнг тооцон шийдвэрийг дэс дараалсан байдлаар харуулдаг. Энэ нь анхдагч үзэгдэл буюу анхны шийдвэрээс эхлэн төрөл бүрийн арга зам болон гарч болох үзэгдлийн үр дүнг загварчилна. Шийдвэрийн салаа мөчир гэж нэрлэж бодог.

0

0

Зураг 1.6

0

Expectation Maximization 

0

Expectation Maximization алгоритм нь таны өгөгдлүүд бүрэн бус, өгөгдлийн цэгүүд байхгүй, эсвэл ажиглагдаагүй далд хувьсагчтай үед загварын параметрүүдийн хамгийн их магадлалын тооцоог олох арга юм. Энэ бол хамгийн их магадлалтай функцийг ойролцоох давталтын арга юм.

0

0

Зураг 1.7

0

Кластер нь ажлын байранд тавигдарх шаардлагийг 0,2,3,4 гэсэн бүлэг үүсгэн  зөв бүлэглэсэн эсэхийг шалгахад 

0

Бүлэг 0- 0 гэсэн утга

0

Бүлэг 2- 1гэсэн утга

0

Бүлэг 3-Azure cloud

0

Бүлэг 4- no class утга зааж нарийвчилал нь 43%  байна.

0

SimpleKMeans

0

K- clustering алгоритм гэдэг нь кластерын ажиглалтыг ашигласан өгөгдлийг уул уурхай, тэдгээрийн холболтын бүлгүүдэд ашигладаг. Түүвэрлэх аргаар алгоритм нь категори, кластер, өгөгдөл нь к утга бүхий тодорхойлогдсон кластеруудын тоог харуулахыг оролддог .

0

0

Зураг 1.8

0

Байгууллагийн нэр:

0

0

Зураг 1.9

0

Салбар:

0

0

Зураг 1.10

0



 

0

Ажлын байраид тавигдах шаардлагын давтамж:

0

0

Зураг1.11

0

Ажлын байрны шаарлага:

0

0

Зураг1.12

0

Дүгнэлт

0

Тус судалгааны ажлын хүрээнд байгууллагуудаас нээлттэй зарлаж байгаа ажлын байрнуудын зарыг 2018-2021 оны хооронд зарлагдсан 108 ажлын байрны санал, түүнд тавигдах шаардлагын дагуу өгөгдөл цуглууллаа. Өгөгдлийн нийдмийн хувьд 93 талбар, 108 бичлэг бүхий өгөгдлийг цуглууллаа. Эдгээр ажлын байрыг зарлаж буй байгууллагуудын хувьд банк санхүү болон харилцаа холбоо, мэдээллийн технологийн салбарын 66 байгууллагаас бүрдэж байна. 

0

Програмын хувьд өгөгдөл тандалтын нээлттэй эх болох WEKA програмыг ашиглаж өгөгдлөө боловсрууллаа. Өгөгдөл тандалтын бүлэглэх (cluster) болон ангилах (Classification) аргуудын зарим алгоритмуудыг туршиж үзлээ. Туршилтын дараах үр дүнгүүд гарлаа. Үүнд:

0

  • 108 ажлын байр, түүнд тавигдах шаардлагын өгөгдөл оруулж, түүнээс 33 банк, санхүүгийн байгууллага, 75 харилцаа холбоо, мэдээллийн технологийн байгууллага хамрагдсан байна. (Зураг 1.10)
  • Давтагдсан ажлын байрны тухайд 66 байна. Зураг 1.9.
  • Мэдээллийн технологийн ажлын байруудад тавигдаж шаардлагын хувьд гадаад хэлний мэдлэг, технологи ашиглах чадвар, бичиг баримт боловсруулах болон судалгаа шинжилгээ хийх зэрэг чадварууд хамгийн олон давтагдаж байлаа.
  • Мэдээллийн технологийн салбарын ажлын байрны саналыг Төрийн банк хамгийн их тавьсан байна.
  • Байгууллагуудаас тавьж байгаа хамгийн их ажлын байрны санал бол програм хөгжүүлэгч, системийн шинжээч, бизнесийн шинжээч, өгөгдлийн шинжээч болон мэдээллийн системийн мэргэжилтэн гэсэн албан тушаалууд хамгийн олон давтагдсан байлаа.

0

Ном зүй

0

  1. Монгол хэлээр хэвлэгдсэн зохиол бүтээл
  2. Өгөгдлийн сан удирдах систем MS ACCESS, Ж. Эрдэнэчимэг, Б. Энхтуул, УБ хот, 2009 он
  3. Ж. Дашдорж, Ц. Мөнхсайхан, “Өгөгдлийн тандалтын (Data Mining) ангиллын онолын судалгаа”, “Эрчим хүчний хөгжилд бидний оролцоо” бакалавр, магистр, доктор оюутны ЭШБХ, УБ хот, 2010 он, хуудас 215-220
  4. Гадаад хэлээр хэвлэгдсэн зохиол бүтээл
    1.  Англи хэлээр хэвлэгдсэн зохиол бүтээл
  5. Data Mining: Concepts and Techniques,2nded.The Morgan Kaufmann Series in Data Management Systems, Jim Gray, Series Editor, March 2006.ISBN

0

1-55860-901-6

0

Мэдэгдэх

0

0

×

Саналууд

Санал бичих

Таалагдаж байна

Таалагдахгүй байна

Нэр томъёо оруулаагүй байна.

Хэлэлцүүлгийн Like/dislike

Хэлэлцүүлэг үзсэн