Буцах

2021019 - Өгөгдлийн тандалтын зарим аргыг судлах нь

Нийгэм

Удиртгал

0

Өглөө дуугарах сэрүүлэгнээс эхлээд идсэн хоолны орц, явах газар, хүнтэй ярьсан хугацаа, худалдан авсан барааны үнэ ч өгөгдөл болж хадгалагддаг.  Тэдгээр өгөгдлүүдэд боловсруулалт хийж бидэнд хэрэгтэй мэдээллүүдийг гарган авдаг. Өөрөөр бол бидний нойрны хэм хэр тогтвотой байгааг, хоол хүнс тохируулан хэрэглэж байгаа эсэх, сарын дундаж зарлага хэр байгаа зэрэг мэдээллүүдийг гарган авдаг байна.  

0

Өгөгдлийн тандалт гэдэг нь компьютер техник хэрэгсэл ашиглан автоматаар шинжилгээ хийж, өгөгдлийн санд агуулагдаж байгаа их хэмжээний өгөгдлүүдээс мэдлэг гарган авах процесс юм. Өгөгдлийн тандалт нь 1980-аад оны сүүлийн үед үүссэн. 1990 оны сүүл үед өгөгдлийн тандалтыг ашиглан гайхалтай алхмуудыг хийсэн бөгөөд одоо өгөгдлийн тандалтыг компьютерийн шинжлэх ухаанаар дамжуулан шинжлэх ухаан, эрүүл мэнд, санхүү, бизнесийн ухаан, эдийн засаг, биоинформатик, хүн судлал, сансар судлал зэрэгт өргөн ашиглаж байна. 

0

1. Бүлэг. Онолын хэсэг

0

Өгөгдлийн тандалтын хоёр гол шалтгаан:

0

  • Бага мэдээлэл, их хэмжээний өгөгдөл
  • Тухайн өгөгдлийн сангаас хэрэгтэй мэдээллээ олох

0

  1. Өгөгдлийн тандалтын арга

0

Өгөгдлийн тандалтын аргууд нь өгөгдлүүдийн ерөнхий шинжийг тодорхойлох, өгөгдлүүдийн холбоо хамааралд дүн шинжилгээ хийх, нийтлэг шинжүүдээр нь бүлэг болгон ангилах, тодорхой үзүүлэлтүүдийн тусламжтай урьдчилан таамаглах, нийтлэг шинжүүдээр нь кластер болгон хуваах, хэт ялгаатай өгөгдлүүдийг ялгах дараах хоёр үүргийг гүйцэтгэдэг:

0

Өгөгдлийн тандалт хийхийн тулд дараах алхмыг хийж гүйцэтгэдэг:

0

  1. Өгөгдлийг цэвэрлэх- Алдаатай буруу өгөгдлүүдийг устгах, нийцгүй өгөгдлүүдийг засах
  2. Өгөгдлүүдийг нэгтгэх- Янз бүрийн олон эх үүсвэрүүдийн өгөгдлүүдийг нэгтгэх
  3. Өгөгдлийг сонгох- Өгөгдлийн сангаас бодлогын тавилттай холбоотой шинжилгээ хийх өгөгдлүүдийг сонгож авах
  4. Өгөгдлийг хувиргах- Сонгосон өгөгдлүүдийг хувиргах
  5. Өгөгдлийн тандалтын хийх- Шинэ мэдлэг олох/ загвар тодорхойлох
  6. Загварыг үнэлэх- Олсон шинэ мэдлэг / тодорхойлсон загварын үнэлэх
  7. Мэдлэгийг дүрслэн илэрхийлэх- Олсон шинэ мэдээллийг дүрслэн харуулах

0

  1. Өгөгдлийн тандалтын шинжилгээний аргачлалууд

0

Pre-processing буюу өгөгдөл урьдчилан боловсруулах процессд нь аливаа форматын файл дахь түүхий өгөгдөл нь цэвэрлэгдэх ажил хийгдэнэ. Мөн бүрэн бус, дутуу байгаа өгөгдлийн арилгах эсвэл нэгтгэх ажил хийгдэх юм. Үүний дараагаар өгөгдлийг сонгож, өгөгдлийн бааз дахь бүтэцлэгдсэн хэлбэрт шилжүүлсний дараа өгөгдлийн тандалт хийхэд тохиромжтой програмаа сонгож ашиглан тандалт хийж үр дүн гаргах үе шатуудад орно. Загварын үнэлгээ буюу pattern evaluation нь өгөгдлийг дүрслэх хэлбэрээр үзүүлэх хэлбэрт оруулах алхам юм. Сүүлийн алхам бол гаргасан мэдлэгийг үзүүлэх явдал юм. Өгөгдлийг үнэ цэнэтэй мэдлэг болгон хувиргасны дараа тухайн байгууллагуудад шийдвэр гаргахад дэмжлэг үзүүлэх бизнес үйл явцыг илүү сайн ойлгоход ашиглах болно. 

0

Ангилал хийх (Classification) – энэ нь таамаглах загвар бөгөөд өгөгдлүүдийг нийтлэг шинжүүдээр нь бүлэг болгон ангиладаг. Өгөгдөлд ангилал хийх 2 үндсэн процесс байдаг. Нэгдүгээрт, одоо бэлэн байгаа туршилтын өгөгдөлдөө дүн шинжилгээ хийнэ. Үүнд доорх загваруудыг ангилал хийхэд авч үзнэ:

0

  • К-хамгийн ойр хөршүүд (k-nearest neighbours – kNN)
  • Шийдвэрийн мод (Decision tree)
  • Ангиллын Дүрмүүд (Rule based classification)
  • Байесийн сүлжээ (Bayesian network)
  • Туслах вектор машин (Support vector machine) 
  • Хиймэл оюуны сүлжээ (Artificial Neural Networks) аль нэгийг гаргаж авна

0

Хоёрдугаарт, загвараа ашиглан эцсийн үр дүнгээ гаргана. Шинээр орж ирэх өгөгдөл болон сургалтын өгөгдөлөө дээр гаргасан байгаа ангиллын дүрэм, шийдвэрийн мод юм уу математик томъёоллоо ашиглан эцсийн үр дүнгээ гаргана гэсэн үг юм.

0

Байесийн сүлжээ (Bayesian Network)

0

Байесийн ангилал нь байесийн теором дээр суурилсан бөгөөд статистикийн ангилал юм Мөн гишүүн классуудын холбоо хаамарлын шалтгаадах магадлалыг таамагладаг

0

Байесийн теором уг теором 2 төрлийн магадлал авч үздэг

0

  • P(B) = B үзэгдэл явагдах магадлал (prior probability)

0

P(B|A) = A үзэгдэл явагдсаны дараа B үзэгдэл явагдах магадлал (нөхцөлт магадлал, posterior probability) гэе. Тэгвэл Байесын теорем ёсоор P(A) > 0 бол P(B|A)=P(A|B) *P(B) /P(A)

0

Байесын теорем нь ямар нэгэн үр дүн мэдэгдсэний дараа, түүнийг тусгасан нөхцөлт магадлалыг бодож олоход хэрэглэгддэг.

0

Байесийн сүлжээ бол эмх цэгцгүй хувьсагчдын холбоо хамааралыг ацикликт чиглэсэн загвараар (directed acyclic graph) гаргадаг магадлалын график загвар(статистикийн) юм.

0

Ацикликт чиглэсэн загвар (Directed acyclic graph)

0

  • Хувьсагч бүр салангид эсвэл хоорондоо залгаатай байна
  • Хувьсагч нь өгөгдлийн ямар нэг атрибуттай холбогддог байна

0

0

Зураг 1: Байесийн сүлжээний дөрвөнн нотолгоот хувьсагчтай.

0

Хүснэгт бүр нөхцөлт магагдалыг агуулж байгаа.

0

Шийдвэрийн мод (Decision Trees)

0

Шийдвэрийн мод нь энгийн модны бүтэцтэй адил үндэс, мөчир, навчтай байдаг. Өөрөөр хэлбэл модны оронд диаграм байна гэсэн үг. Энэ диаграмыг модтой адилхан салбарласан байдлаар дүрсэлдэг. Энэ диаграмын дагуу үр дүнгийн хүснэгт гаргах бөгөөд тэдгээр нь шийдвэрийн дэс дараалалтай холбоотой нөхцөлүүдийг шинжлэхэд хэрэглэддэг. Энэхүү шийдвэрийн модыг бага хэмжээний өгөгдөлтөй ажиллаж байх үед ашиглавал тохиромжтой. Шийдвэрийн модыг ангилах дүрэм (IF-THEN) рүү хөрвүүлэхэд хялбар байдаг.

0

Тооцоолох

Температур

Чийгшил

Салхи

Тоглох

Бороотой

Халуун

Өндөр

Сул

Үгүй

Бороотой

Халуун

Өндөр

Хүчтэй

Үгүй

Үүлтэй

Халуун

Өндөр

Сул

Тийм

Нартай

Хүйтэн

Энгийн

Хүчтэй

Үгүй

Бороотой

Дунд

Энгийн

Сул

Тийм

Үүлтэй

Дунд

Өндөр

Хүчтэй

Тийм

Үүлтэй

Халуун

Энгийн

Сул

Тийм

0

Хүснэгт 1:  Цаг агаарын мэдээлэл 

0

0

Зураг 2:  Цаг агаарын шийдвэрийн мод

0

Шийдвэрийн мод нь ангиллын дүрэм рүү хялбар хөрвөдөг.

0

Жишээ шийдвэрийн модноос үзвэл ангилах дүрэм нь:

0

If(Тооцоолох=Нартай)AND(Чийгшил=Их)Then play=тийм

0

If(Тооцоолох=Нартай)AND(Чийгшил=Дундаж)Then play=Үгүй

0

If(Тооцоолох=Үүлтэй)Then play=тийм

0

If(Тооцоолох=Бороотой)AND(Салхи=Хүчтэй)Then play=Үгүй

0

If(Тооцоолох=Бороотой)AND(Салхи=Сул)Then play=Тийм

0

К-хамгийн ойр хөршүүд (k-nearest neighbors-KNN)

0

Хамгийн хялбар алгоритм бөгөөд өгөгдлүүдийг ангилан салгаж векторт цэгүүдийг орон хэмжигдэхүүнээр тэмдгэлэх юм.

0

Зураг 11:К-хамгийн ойр хөршүүд зурж харуулжээ

0

Холбоо хамаарлын дүрэм (Association Rule Mining)

0

Ихэнх бизнесийн аж ахуйн нэгжүүдэд өдөр тутмын үйл ажиллагаанаас болон их хэмжээний өгөгдлүүд хуримтлагддаг. Жишээ нь ямар нэг худалдааны төвд үйлчлүүлэгч худалдан авалт хийснээр тодорхой өгөгдөл бий болдог.

0

Уг шинжилгээ нь их хэмжээний өгөгдлүүдийн харилцан хамаарлыг олдог. Уг харилцан хамаарал нь холбоо хамарлын дүрэм эсвэл худалдан авагчдын барааны багцаас шалтгаалдаг байна.

0

Холбоо хамаарлын төрлүүд:

0

  • Үр дүнтэй дүрэм (Actionable Rules) – боловсруулалт хийхэд бэлэн чанартай мэдээллүүд
  • Энгийн дүрэм (Trivial Rules) – Бизнест илэрхий болсон мэдээллүүд
  • Тайлбарлах боломжгүй дүрмүүд (Inexplicable Rules) – Тайлбарлах боломжгүй үр дүн гарахгүй

0

Холбоо хамаарлын үр дүнг хоёр нөхцлөөр хэмждэг:

0

  • Түүвэрийн хувь (Support)
  • Түүврийн хамаарал (Confidence)

0

Түүвэрийн хувь (Support): Өгөгдлүүдээс дүрэмд нийцэж байгаа төрөл зүйлсийн давтамжийг харуулна. 

0

Түүврийн хамаарал (Confidence):   A болон B нь хамт оршин байгаа хэмжээг хувиар харуулах.

0

2 Бүлэг. Судалгааны хэсэг

0

2.1 Платформын тухай

0

RapidMiner нь бизнес анализын талбар бөгөөд өгөгдлийн тандалт, текст тандалт болон урьдчилан анализ хийхэд төвлөрсөн opensource цогц систем юм. RapidMiner-ийн мэдээллийн шинжлэх ухааны платформ нь салбар бүрийн 40,000 гаруй байгууллагуудад орлогыг нэмэгдүүлэх, зардлыг бууруулах, эрсдэлээс урьдчилан сэргийлэх чиглэлээр бизнесийг өөрчлөлт хийдэг.

0

2.2 

0

Зураг 4: Rapid miner эхлэл нүүр

0

Дээрх цонхонд шинээр анализ хийх, өмнө хийж байсан анализаа үргэлжлүүлэх мөн суралцах гэсэн гурван ерөнхий сонголт байна. Шинээр аналиү эхлүүлэхдээ хэрэглэгч өөрийн хүссэнээр процесс угсрах боломжтойгоос гадна платформоос санал болгодог бэлэн template-үүд байдаг. 

0

0

Зураг 5 : Rapid miner системийн ажлын талбар

0

Аливаа төрлийн шинэ төсөл дээр ажиллахдаа ажлын алхамыг төлөвлөж, зорилгодоо хүрэх гол алхамуудыг тодорхойлох самбар дээр гарах нь эхний алхам байх болно. Хэрэв та өгөгдөл судлаач бол ажлын урсгал нь дараахь алхамуудын аль нэгийг эсвэл хэдийг нь агуулдаг.

0

  • Өгөгдлийг импортлох буюу оруулах
  • Өгөгдөл бэлтгэх
  • Загвар бүтээх
  • Загварыг баталгаажуулах
  • Загвараа ашиглах

0

Rapid miner studio нь таны ажлын урсгалыг sowftware-д design хэсэгт хэрэгжүүлж байдаг. Design хэсэгт олон хэрэглээний самбарууд байдаг.

0

  • Repository: өгөгдөл, процесс, үр дүн зэрэг байна.
  • Operator: ажлын урсгалын чухал элемент бүрийг багтаана. Operator-ууд нь port-н тусламжтайгаар холбогддог. Нэг port-н гаралт дараагийнхаа оролттой холбогддог.
  • Өгөгдлийн хувиргаж анализ хийхэд тусалдаг операторуудын цогцыг процесс гэнэ.
  • Параметруудыг өөрчилсөнөөр операторуудын зан төлөвийг өөрчлөх боломжтой.

0

Операторуудын зан төлөвийг help цэснээс үзэж ойлгох боломжтой.

0

Уг судалгааны хүрээнд Market basket analisys буюу хэрэглэгчийн худалдан авах зан төлвийн анализ хйисэн байгаа.

0

Хэрэглэгчийн худалдан авах зан төлвийн шинжилгээ (MBA) нь гүйлгээнд байнга тохиолддог бүтээгдэхүүний хослолыг хайж бүтээгдэхүүний хоорондын холбоог нээдэг. Өөрөөр хэлбэл, энэ нь супермаркетуудад хүмүүсийн худалдаж авдаг бүтээгдэхүүний хоорондох харилцааг тодорхойлох боломжийг олгодог. Жишээлбэл, харандаа, цаас худалдаж авдаг үйлчлүүлэгчид баллуур эсвэл шугам худалдаж авах магадлалтай байдаг. 

0

0

Repositoy хэсэгт хэрэглэгч өөрийн анализ хийхийг хүсэж буй датагаа оруулна. 

0

0

Rapid miner нь энгийн excel file ч уншиж авдагаараа давуу талтай юм.

0

0

Шинээр анализ хийхдээ зорилгынхоо дагуу хэрэглэгч бэлэн template ашиглаж болно эсвэл өөрөө процесс угсарч болно.

0

0

Процесс угсрахдаа Operator хэсгээс хэрэгтэй оператороо ажлын самбар руу чирж гаргана. 

0

Параметруудыг өөрчилсөнөөр операторуудын зан төлөвийг өөрчлөх боломжтой болдог. Өөрөөр бол параметр хэсэг нь процессын үе шат болгоныг ямар төлөвтэй явуулах вэ гэдгийг тохируулах хэсэг юм.

0

Процессоо хийж дууссаны дараагаар зүүн дээр байрлах Start товч дээр дарж ажилуулна. 

0

0

 3.Бүлэг. Үр дүнгийн хэсэг

0

Уг жишээнд орон сууцны дунд байрлалтай, хүнсний дэргүүрийн үйлчлүүлэгчдийн 2 өдрийн худалдан авалтын сагсыг оруулжээ.

0

0

Доорх шатлалуудад хэрэглэгчийн худалдан авах зан төлвийн шинжилгээ хйих жишээ загварыг гаргав.

0

Эхний шат: Гүйлгээний id, бүтээгдэхүүний id, тоон үзүүлэлт агуулсан гүйлгээний өгөгдлийг ачаалах. Өгөгдөл нь тодорхой бүтээгдэхүүнийг гүйлгээний хэсэг болгон хэдэн удаа худалдаж авсан болохыг илэрхийлнэ.

0

Хоёр дахь шат: Засах, хувиргах мөн ачаалах - гүйлгээний өгөгдлийг нэгтгэх нэгтгэх ба гүйлгээний бүтээгдэхүүнийг тэмдэгээр тусгаарласан нэг оруулгад оруулна.

0

Гурав дахь шат: FP-Growth Тухайн барааны эрэлт буюу хамгийн их борлуулсан барааг хувиар буурах дараалалтайгаар жагсаан харуулдаг.

0

0

Дөрөв дэхь шатанд: Бараанууд хоорондоо хэрхэн холбогдож байгааг харуулна.

0

0

Гарсан үр дүн №1: 

0

Дээрх зурганд хэрэглэгчийн тухайн дэлгүүрээс сонгож авдаг хамгийн эрэлттэй бараа бол Ундаа Coca-cola 2l байна. 

0

Уг үр дүнгийн статистик хариуг үзвэл:

0

0

Хамгийн эрэлттэй бараа Ундаа coca-cola 2л.

0

Хамгийн эрэлт багатай нь Зүсмэл боорцог байна.

0

Дараагмйн зурганд худалдан авсан бүх барааны эрэлтийг графикаар дүрслэн үзүүлэв.

0

0

Гарсан үр дүн №2:

0

Боловсруулалтын үр дүнд борлуулсан барааны сагс ямар холбоо хамаарал гарч ирж байгааг харуулжээ. Хамгийн ихээр борлуулсан хар талх нь бусад бараатай хэрхэн холбогдож байгааг харуулжээ.

0

Доор харуулж байгаагаар Миний Монголын сүү авах хүн мөн адил авах магадлалтай вэ гэдгийг тодорхой харуулсан байна.

0

Хэрэглэгчийн худалдан авах зан төлвийн шинжилгээ хийж үзхэд өмнө нь хэлсэнчлэн хамгийн их эрэлтттнй бүтээгдэхүүн бол coca-cola байсан. Гэхдээ холбоо хамаарлыг нь харвал ундаа авсан хүн тийм ч олон бараа хамт авахгүй гэдэг нь харагдаж байна.

0

0

Тэгвэл ямар барааг худалдаж авсан бол өөр зүйл магадлал өндөр байна вэ гэдэг асуулт гарж ирлээ.

0

0

Дараах зурганд Миний монголын сүүний бусад бараатай холбогдох холбоо хамаарлыг гаргасан байна.

0

Ерөнхий дүгнэлт

0

Миний бие жижиг хэмжээний хүнсний дэлгүүрийг хэрэглэгчдийн худалдан авсан сагсны өгөгдлийг ашиглан өгөгдлийн тандалтын ажил хийсэн. Өгөгдлийн тандалт нь хэрэглэж чадахгүй их хэмжээний түүхий мэдээллийг хэрэгтэй мэдлэг болгоход ихээхэн тус болох юм. Хийсэн судалгааны үр дүнг харгах хэрэглэгчид Ундаа их хэмжээгээр тухай дэлгүүрээс худалдаж авч байсан ч эрэлттэй бараа нь холбоо хамаардын хувьд муу байсан нь гаднаас хараад таамаглахад хэцүү юм. Rapid miner Platform нь хэрэглэхэд хялбар мөн ойлгомжтойгоос гадна хэрэглэгчид тодорхой мөн үр ашигтай мэдээллүүдийг гаргаж өгдөг байна.

0

 Ашигласан материал

0

Мэдэгдэх

0

0

×

Саналууд

Санал бичих

Таалагдаж байна

Таалагдахгүй байна

Нэр томъёо оруулаагүй байна.

Хэлэлцүүлгийн Like/dislike

Хэлэлцүүлэг үзсэн