پایان نامه مقطع کارشناسی ارشد رشته فناوری اطلاعات

وزارت علوم، تحقيقات و فناوري

دانشگاه علوم و فنون مازندران

پايان نامه مقطع کارشناسي ارشد

 رشته : فناوري اطلاعات

عنوان:

رهيافتي براي نظرکاوي در متون خبري فارسي

استاد راهنما:

آقاي دکتر مينايي

برای رعایت حریم خصوصی نام نگارنده درج نمی گردد

تکه هایی از متن به عنوان نمونه :

فهرست مطالب:

فصل1 مقدمه…………………………………………………………………………………………. 1

شما می توانید تکه های دیگری از این مطلب را در شماره بندی انتهای صفحه بخوانید              

1-1. مقدمه و ضرورت تحقيق …………………………………………………………………………………….2

1-2. اهداف تحقيق ………………………………………………………………………………………………..5

فصل2 پيشينه‌ي تحقيق……………………………………………………………………………….. 7

2-1. مقدمه……………………………………………………………………………………………. 8

2-2. چالش‌ها و کار‌های مرتبط با حوزه‌ي کاوش در نظرات ……………………………………..8

2-2-1. شناسايي شخص نظریه پرداز…………………………………………………………………. 8

2-2-2. تشخيص هدف نظر اظهار‌شده………………………………………………………………… 9

2-2-3. درجه‌بندي نظر……………………………………………………………………………….. 9

2-2-4. جستجو و يافتن متون هدف…………………………………………………………………. 10

2-2-4-1. تشخيص موضوع………………………………………………………………………. 10

2-2-4-2. تشخيص زبان…………………………………………………………………………. 10

2-2-4-3. تشخيص وجود نظر…………………………………………………………………… 11

2-2-5. سطح مطالعه‌ي گرايش احساس……………………………………………………………… 11

2-2-6. منابع لغوي………………………………………………………………………………….. 11

2-2-7. مشخصه‌هاي بهره گیری‌شده در مطالعات قبلي………………………………………………….. 12

2-2-8. اختصار‌سازي………………………………………………………………………………… 12

2-2-9. وزن‌دهي…………………………………………………………………………………….. 12

2-2-10. شناسايي نظرات نامطلوب………………………………………………………………….. 13

2-2-11. پيش‌پردازش‌هاي لازم بر روي متن………………………………………………………… 13

2-3. ضعف‌هايي در مطالعات قبل که در راستاي رفع آن‌ها کوشش شده می باشد ………………………………. 14

فصل3 معماري پيشنهادي براي يک موتور جستجوي نظرات……………………………………….. 15

3-1. مقدمه………………………………………………………………………………………….. 16

3-2. واسط کاربر……………………………………………………………………………………. 16

3-3. مديريت‌کننده‌ي جستجو………………………………………………………………………… 17

شما می توانید مطالب مشابه این مطلب را با جستجو در همین سایت بخوانید                     

3-4. اختصار‌ساز نتايج……………………………………………………………………………….. 17

3-5. رتبه‌بند…………………………………………………………………………………………. 17

3-6. گسترش‌دهنده‌ي پرس‌و‌جو……………………………………………………………………… 18

3-7. پايگاه‌داده‌ي اطلاعات تحليل‌شده……………………………………………………………….. 18

3-8. خزش‌گر متمرکز……………………………………………………………………………….. 18

3-8-1. شناسايي وجود احساس………………………………………………………………….. 19

3-8-2. تشخيص موضوع…………………………………………………………………………. 19

3-8-3. تشخيص زبان……………………………………………………………………………. 19

3-9. پايگاه‌داده‌ي اسناد خام………………………………………………………………………….. 19

3-10. تجزيه‌و‌تحليل داده‌ها………………………………………………………………………….. 19

3-10-1. تشخيص هدف عقيده…………………………………………………………………… 20

3-10-2. تشخيص شخص بيان کننده‌ي اظهار‌نظر…………………………………………………. 20

3-10-3. رده‌بندي احساس……………………………………………………………………….. 20

3-10-4. تشخيص نظرات نا‌مطلوب………………………………………………………………. 20

3-10-5. وزن‌گذاري نظر…………………………………………………………………………. 20

3-10-6. تجزيه‌و‌تحليل شبکه‌هاي اجتماعي……………………………………………………….. 21

3-11. پيش‌پردازش اسناد و متون……………………………………………………………………. 21

3-11-1. استخراج جملات……………………………………………………………………….. 21

3-11-2. قطعه‌بندي……………………………………………………………………………….. 22

3-11-3. بررسي املا……………………………………………………………………………… 22

3-11-4. ريشه‌يابي……………………………………………………………………………….. 22

3-11-5. نرمال‌سازي……………………………………………………………………………… 22

3-11-6. تجزيه…………………………………………………………………………………… 23

3-11-7. برچسب‌گذاري اجزاء گفتار……………………………………………………………… 23

3-12. پايگاه داده‌ي اطلاعات پيش‌پردازش‌شده………………………………………………………. 23

فصل4 روش تحقيق، آزمايش‌ها، و نتايج…………………………………………………………… 25

4-1. مقدمه………………………………………………………………………………………….. 26

4-2. انتخاب زمينه…………………………………………………………………………………… 26

4-3. انتخاب و استخراج نظرات……………………………………………………………………… 27

4-4. مشخصه‌هاي مورد بهره گیری……………………………………………………………………… 28

4-5. پيش‌پردازش‌هاي انجام‌شده و استخراج بردار‌هاي مشخصه………………………. 30

4-6. انتخاب رده‌بند‌ها……………………………………………………………………………….. 31

4-7. آزمايش‌هاي انجام‌شده………………………………………………………………………….. 32

4-8. تحليل نتايج……………………………………………………………………………………. 41

4-8-1. بهترين نتايج……………………………………………………………………………… 41

4-8-2. بررسي ترکيب دو مشخصه‌ي “گرايش آغازگر”، و “نشانه‌هاي سؤال”………………………. 41

4-8-3. بررسي افزودن مشخصه‌ي “صفات و قيود استخراج شده به صورت خود‌کار” به دو مشخصه‌ي قبل…. 42

4-8-4. بررسي تک‌تک مشخصه‌ها……………………………………………………………….. 43

4-8-5. بررسي لحاظ و عدم لحاظ “نرمال‌سازي” و “تعداد رخداد” مشخصه‌ها…………………….. 44

4-8-6. بررسي رده‌بندهاي مورد بهره گیری…………………………………………………………… 45

4-8-7. بررسي تاثير حذف برخي از صفات و قيود وابسته به زمينه……………………………….. 46

4-8-8. بررسي برخي از رده‌بند‌هاي مهم و شناخته‌شده‌ي ديگر……………………………………. 46

فصل5 نتيجه‌گيري و کار‌هاي آتي…………………………………………………………………… 48

5-1. نتيجه‌گيري……………………………………………………………………………………… 49

5-2. کار‌هاي آتي……………………………………………………………………………………. 50

مراجع و ماخذ……………………………………………………………………………………….. 51

پيوست الف: 50 اظهار‌نظر بهره گیری شده (از 30 خبر)، به‌همراه مشخصه‌هاي استخراج‌شده از داخل آن‌ها. 55

واژه‌نامه‌ فارسي- انگليسي……………………………………………………………………………. 86

واژه‌نامه‌ انگليسي- فارسي……………………………………………………………………………. 88

چکيده‌ي انگليسي………………………………………………………………………………………………….. 90

چکیده:

در اين پايان‌نامه به رده‌بندي و تعيين گرايش يا قطبيت احساس در نظرات کاربران از نقطه‌نظر مثبت يا منفي بودن نظرات بيان‌شده، در يکي از پربازديدترين سايت‌هاي خبري ايران پرداخته‌ايم. براي اين‌کار مشخصه‌هاي جديدي را معرفي کرده‌ايم. پس از جمع‌آوري و پيش‌پردازش متن نظرات و استخراج اين مشخصه‌ها، آن‌ها را با بهره گیری از رده‌بند‌هاي مختلف در حالات و ترکيب‌هاي گوناگون مورد بررسي قرار داده‌ايم. نتايج بدست آمده نشان از کارايي مناسب مشخصه‌هاي معرفي شده و رده‌بند‌هاي مورد بهره گیری دارند به‌طوري‌که بالاترين دقت (نود و سه درصد) در حالتي بدست آمده می باشد که از تمام مشخصه‌ها براي آموزش رده‌بند بهره گیری شده می باشد.

علاوه بر کار رده‌بندي مذکور، با نگاهي به انواع ديگر چالش‌ها، تحقيقات انجام‌شده، و مسائل متنوع مرتبط با کاوش در نظرات متني کاربران (مانند تشخيص شخص بيان کننده‌ي نظر، تشخيص درجه‌ي شدت گرايش، شناسايي نظرات نامطلوب، و…)، ايده‌ي جديد ايجاد يک موتور جستجوي نظرات مطرح و معماري پيشنهادي براي آن ارائه شده می باشد.

فصل اول: مقدمه

1- مقدمه و ضرورت پژوهش

اطلاع از نظر ديگران از نقطه‌نظرات گوناگون داراي اهميت فراواني می باشد. تصور کنيد که قصد داريد کالا يا خدماتي را خريداري کنيد. آگاهي از نظر مثبت يا منفي افرادي که قبلا آن کالا يا خدمات را خريداري کرده‌اند چقدر براي شما اهميت دارد؟ آيا نظر آن‌ها مي‌تواند بر تصميم شما تاثير‌گذار باشد؟ اگر يک شرکت خدماتي داشتيد به چه ميزان علاقه‌مند به اطلاع از نظر مخاطبين خود در ارتباط با مطلوبيت يا عدم مطلوبيت خدمات خود بوديد؟ آيا اطلاع از نظر آن‌ها در اتخاذ تصميمات بهتر به شما کمک مي‌نمود؟ اگر يک کانديداي انتخاباتي بوديد تمايل داشتيد تا از اقبال يا عدم اقبال راي‌دهندگان نسبت به خود خبر داشته باشيد؟

اگر به اطرافمان نگاه کنيم مي‌بينيم که افراد حقيقي و حقوقي گوناگون از شرکت‌هاي بزرگ و سياستمداران گرفته، تا افراد عادي جامعه در تصميمات کوچک و بزرگ خود تحت تاثير نظرات ديگران قرار دارند. طبيعتاً در چنين وضعيتي اطلاع از نظرات افراد اهميت فراواني پيدا مي‌کند.

از طرف ديگر با ظهور وب و گسترش مشارکت کاربران در سال‌هاي اخير به‌خصوص با ظهور پديده‌هايي مثل وبلاگ‌ها[1] و شبکه‌هاي اجتماعي[2]، و تمايل کاربران براي اظهار و به اشتراک‌گذاري نظرات خود پيرامون مسائل مختلف، شاهد حجم انبوهي از نظرات مکتوبي هستيم که هیچگاه تاکنون با اين حجم، تنوع، و آساني در دسترس قرار نداشته‌اند. اين موضوع به‌همراه اهميت ذکر‌شده در مورد اطلاع از نظر ديگران توجه محققين علوم کامپيوتر بويژه محققين حوزه‌ي داده‌کاوي[3] را به‌خود جلب کرده می باشد و موجب شکل‌گيري حوزه‌اي جديد تحت عنوان “کاوش در نظرات[4]” گرديده می باشد. بر اساس [1] شايد بتوان سال 2001 ميلادي را نقطه‌ي عطفي براي اين توجهات دانست.

به مرور زمان ابعاد گوناگون جديدي در حوزه‌ي کاوش در نظرات نمايان گشتند و تحقيقات متنوعي در ارتباط با هر يک از اين ابعاد شکل گرفتند. به عنوان نمونه نياز به اطلاع از هويت و مشخصات شخصي که يک نظر را اظهار کرده می باشد مثلا براي تعيين ميزان سودمندي آن اظهار نظر، و يا نياز به تشخيص نظراتي که براي اهداف نامطلوب (از قبيل تبليغات جهت‌دار به‌نفع يا بر‌عليه يک کالا) درج شده‌اند مانند‌ي اين ابعاد هستند. مروري بر تحقيقات انجام‌شده در حوزه‌ي کاوش در نظرات را مي‌توان در [1] و [2] ديد. در فصل دو به معرفي ابعاد گوناگون اين حوزه و نيز چالش‌هاي مشترک اين حوزه با حوزه‌هاي ديگر متن‌کاوي[5] (نظير قطعه‌بندي متن[6] و برچسب زدن اجزاء گفتار[7]) خواهيم پرداخت.

وقتي شخصي در ارتباط با چيزي نظري را بيان مي‌کند، اين نظر مي‌تواند حاوي ويژگي‌هاي احساسي نظير خشم، ترس، خوشحالي، و … باشد. مانند‌ي ويژگي‌هاي احساسي موجود در نظرات که از مهمترين و اوليه‌ترين بحث‌هايي بوده که در حوزه‌ي کاوش در نظرات مطرح بوده می باشد، گرايش يا به عبارت ديگر مثبت يا منفي بودن نظر اظهار‌شده در مورد هدف اظهار‌نظر می باشد. از تشخيص اين ويژگي احساسي در ادبيات اين حوزه تحت عناوين “رده‌بندي احساس[8]“، “تحليل احساس[9]“، “تشخيص قطبيت احساس[10]“، و “تشخيص گرايش احساس[11]” ياد مي‌گردد. براي مثال اظهار‌نظر “تصوير اين تلويزيون خيلي با کيفيت می باشد” حاوي احساس مثبت نسبت به کيفيت تصوير تلويزيون می باشد و در طبقه‌بندي مثبت قرار مي‌گيرد، و اظهار‌نظر “تماشاي اين فيلم را به کسي توصيه نمي‌کنم” حاوي احساس منفي نسبت به فيلم مورد نظر می باشد.

آگاهي از “گرايش احساس در نظرات[12]” کاربران در حوزه‌هاي مختلف از قبيل تجارت، سياست، تعامل بين بشر و کامپيوتر (براي تعيين نوع عکس‌العمل ماشين بر اساس نظر بشر)، و در انواع تصميم‌گيري‌هاي افراد حقيقي و حقوقي کاربرد فراواني دارد که در آغاز بحث برخي از آن‌ها مورد تصریح قرار گرفتند. اين موضوع به‌همراه حجم پايين کار انجام‌شده‌ي مرتبط در حوزه‌ي زبان فارسي (در جستجوي انجام‌شده هيچ مقاله‌ي منتشر‌شده‌اي در اين حوزه براي زبان فارسي يافت نشد)، انجام مطالعه در اين ارتباط براي نظرات بيان‌شده به زبان فارسي را ضروري مي‌نمايد.

علاوه‌بر نياز به تحقيقات در حوزه‌ي مذکور، اکنون پس از حدود يک دهه که از شروع مطالعات در زمينه‌ي کاوش در نظرات مي‌گذرد و ابعاد گوناگوني از آن روشن شده و تا حدودي برروي آن‌ها تحقيق شده می باشد، جاي خالي سيستمي که از محصولات خروجي از تحقيقات اين حوزه‌هاي تحقيقاتي، به صورت مجتمع و ترکيبي بهره ببرد و با تجميع و هماهنگي بين آن‌ها همراه با بهره گیری از محصولات تحقيقات زمينه‌هاي مرتبط ديگر، به ارائه‌ي سرويس‌هاي کاربردي و ترکيبي‌اي بپردازد که به‌تنهايي توسط هيچ‌يک از اين بخش‌ها و بدون همکاري با بخش‌هاي ديگر امکان‌پذير نخواهد بود ديده مي‌گردد. چنين سيستمي که کاربران بتوانند انواع گوناگون از نياز‌هاي خود را به‌خوبي به آن منتقل کنند و آن‌ها را در مدت زمان کوتاهي دريافت کنند قطعا مورد استقبال شديد کاربران مختلف قرار خواهد گرفت. به عنوان مثال ممکن می باشد توليد کنندگان يک کالاي تخصصي با کاربرد صنعتي، نياز به آگاهي از گرايش نظرات افرادي که داراي تخصص در آن صنعت هستند در ارتباط با آن کالاي خاص و به صورت اختصار‌شده داشته باشند. در چنين حالتي سيستم با بهره گیری از محصول بدست‌آمده از تحقيقات انجام‌شده براي تشخيص هويت اظهارنظرکنندگان و استخراج خصوصيات آن‌ها، نظراتي که توسط افراد مورد‌نظر بيان شده‌اند را شناسايي مي‌کند؛ سپس از ميان آن‌ها با بهره گیری از محصول تحقيقات انجام‌شده براي تشخيص هدف اظهارنظر، نظراتي که در ارتباط با کالاي مورد نظر بيان شده‌اند را جدا مي‌کند؛ بعد از آن مثبت يا منفي بودن گرايش اين نظرات را با بهره گیری از محصول بدست‌آمده از تحقيقات مربوط به “تشخيص گرايش احساس” تعيين مي‌کند؛ و نهايتاً با بهره گیری از محصول بدست‌آمده از تحقيقات انجام‌شده در ارتباط با اختصار‌سازي نتايج حاصل را اختصار‌سازي کرده و به کاربر نمايش مي‌دهد. مثال‌هاي ديگري از نيازهايي متنوعي که کاربران مختلف مي‌توانند با در اختيار داشتن چنين سيستمي به آن‌ها دستيابي پيدا کنند عبارتند از : يافتن اشخاصي که در ارتباط با يک هدف خاص داراي نظر مثبت هستند، يافتن نظرات منفي که در ارتباط با هدفي خاص و در يک بازه‌ي زماني خاص بيان شده‌اند، و يافتن گرايش کاربراني که در يک منطقه‌ي خاص سکونت دارند و در محدوده‌ي سني خاصي هستند نسبت به يک موضوع اجتماعي.

1-2. اهداف تحقيق

بر اساس ضرورتي که براي کار در حوزه‌ي تشخيص گرايش احساس در نظرات کاربران بويژه در زبان فارسي ذکر گردید در فصل چهار از اين پروژه به اين موضوع مي‌پردازيم و سعي در رده‌بندي[13] گرايش نظرات کاربران در غالب دو رده‌ي مثبت و منفي خواهيم داشت.

بنابر [2] اين مسئله مي‌تواند در قالب يک مسئله‌ي “يادگيري تحت نظارت[14]” بيان گردد که داراي رده‌هاي مثبت، منفي، و خنثي می باشد و داده‌هاي بهره گیری‌شده (براي آموزش[15] و آزمايش[16]) در تحقيقات موجود در اين ارتباط، اغلب نظراتي می باشد که کاربران در مورد کالاها اظهار کرده‌اند. مزيت بهره گیری از اين داده‌ها آماده بودن آن‌ها به دليل مشخص بودن مثبت، منفي، يا خنثي بودن آن‌ها ذکر گردیده می باشد.

براي فراهم کردن داده‌هاي مورد بررسي در اين پايان‌نامه، پس از بررسي زمينه‌هاي گوناگون نظير نظرات کاربران در شبکه‌هاي اجتماعي، و نظرات کاربران در مورد گوشي‌هاي موبايل، نهايتا نظرات کاربران در يکي از پربازديد‌ترين پايگاه‌هاي خبري يعني پايگاه خبري تابناک انتخاب گرديد. به‌روز بودن و متنوع بودن اخبار درج‌شده در اين پايگاه بستر مناسبي براي ارزيابي نظرات مردم در ارتباط با موضوعات گوناگون از قبيل سياسي، اجتماعي، و اقتصادي را فراهم مي‌کند.

به‌گونه اختصار هدف از کار انجام‌شده در فصل چهار از اين پايان‌نامه تشخيص مثبت يا منفي بودن گرايش احساس موجود در نظرات کاربران سايت خبري پربازديد تابناک با بهره گیری از برخي رده‌بندهاي شناخته‌شده و مشخصه‌هاي جديد ارائه‌شده می باشد. در اين راستا کوشش مي‌گردد تا قابليت رده‌بند‌هاي مورد بهره گیری و حالات و ترکيب‌هاي گوناگون مشخصه‌هاي معرفي‌شده مورد بررسي قرار گيرند.

در راستاي نياز به بهره گیری‌ي مجتمع از دستاورد‌هاي تحقيقات مختلف زير‌مجموعه‌ي حوزه‌ي کاوش در نظرات و تحقيقات حوزه‌هاي ديگر و ارائه‌ي خدمات ترکيبي مورد درخواست کاربران که در بخش 1-2 مطرح گردید، هدف از فصل سه ارائه‌ي ايده‌ي جديدي در حوزه‌ي کاوش در نظرات می باشد که به رفع اين نياز کمک کند. در اين فصل کوشش خواهد گردید تا با در کنار هم قرار دادن محصولات تحقيقات انجام‌شده در حوزه‌ي کاوش در نظرات و برخي حوزه‌هاي مرتبط پردازش متن، هماهنگي ميان آن‌ها، الهام گرفتن از معماري موتور‌هاي جستجوي ديگر، و ارائه‌ي نوآوري، ايده و معماري پيشنهادي براي سيستمي تحت عنوان “موتور جستجوي نظرات” ارائه گردد.

[1] Weblog

[2] Social Network

[3] Data Mining

[4] Opinion Mining

[5] Text Mining

[6] Tokenization

[7] Pos Tagging

[8] Sentiment Classification

[9] Sentiment Analysis

[10] Sentiment Polarity Identidfication

[11] Sentiment Orientation Identification

[12] Sentiment Orientation of Reviews

[13] Classification

[14] Supervised Learning

[15] Train

[16] Test

***ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود می باشد***

متن کامل را می توانید دانلود نمائید

زیرا فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به گونه نمونه)

اما در فایل دانلودی متن کامل پایان نامه

 با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

موجود می باشد

تعداد صفحه : 100

قیمت : چهارده هزار و هفتصد تومان