جهان امروز، جهان داده است. ذخیرهسازی و استفاده بهینه از داده یکی از چالشهای اصلی در یک دهه گذشته بوده است. دادههای اطراف ما در قالبهای مختلفی مانند فیلم، صدا، تصویر و متن قرار گرفتهاند. دادههای متنی یکی از این قالبهای دادهای بوده که امروزه محبوبیت خاصی را در علوم مختلف پیدا کردهاست. بررسی و پردازش دادههای متنی با توجه به حجم زیاد و بدون ساختاربودن آنها، تنها با استفاده از سامانههای کامپیوتری ممکن است. دادههای متنی را میتوان از منابع مختلفی مانند سایتهای خبری، شبکههای اجتماعی، مقالات علمی و غیره استخراج نمود. یکی از انواع تحلیلهایی که بر روی دادههای متنی اعمال میشود، تشخیص موضع است. در تشخیص موضع، ما موضع یک ادعا را نسبت به اسناد موجود بررسی خواهیم نمود. موضع یک ادعا میتواند به صورت کلی به چهار صورت موافق، مخالف، نامشخص و بیربط باشد. امروزه روشهای مبتنیبر یادگیریعمیق در زمینه تشخیص موضع بسیار رواج پیدا کردند. اما دو مشکل اساسی در این روشها وجود دارد. مشکل اول این است که روشهای موجود، سلسلهمراتب مفهومی متن را درنظر نگرفته و تنها بُعد معنایی متن را درنظر میگیرند. مشکل دوم مرتبط با عدم تفسیرپذیری روشهای مبتنیبر یادگیریعمیق است. در این پیشنهادیه، ما یک رویکرد ترکیبی مبتنیبر گرافدانش دامنهمحور و موضوع اسناد را برای تشخیص موضع ارائه خواهیم داد. گرافدانش باتوجه به در نظر گرفتن مفاهیم و سلسلهمراتب موجودیتها، میتواند در کنار روشهای یادگیریعمیق به بهبود تشخیص موضع کمک کند. در گرافدانش موجودیتهای مختلف دامنه قرار دارد که میتوانیم سلسلهمراتب میان موجودیتها را نیز در تشخیص موضع درنظر بگیریم. همچنین گرافدانش یک بازنمایی از دانش موجود در متن است و به همین علت میتواند تفسیرپذیری مدل تشخیص موضع را افزایش دهد. ما در کنار گرافدانش دامنهمحور، موضوع اسناد را نیز درنظر خواهیم گرفت که در بازیابی اسناد به ما بسیار کمک خواهد کرد تا نتایج دقیقتری را داشته باشیم. استفاده از گرافدانش و موضوع اسناد نقش کلیدی در استخراج اسناد مرتبط در روش پیشنهادی داشته و میتواند دقت و فراخوانی روش پیشنهادی را افزایش دهد. روش پیشنهادی میتواند در دامنههای مختلف مانند دامنه حقوقی، تشخیص اخبار جعلی و تشخیص موضع مقالات جدید کاربرد داشته باشد. به منظور ارزیابی روش پیشنهادی، ما قصد داریم از معیارهای ارزیابی همچون دقت، فراخوانی و معیار F استفاده نماییم. هدف این پیشنهادیه ارائه یک دستیار هوشمند برای کمک به متخصصان دامنههای مختلف، بهمنظور بررسی موضع اسناد جدید است.
در جهان امروز، توليد روزانه متن در قالب رسانههای اجتماعی، ايميل، وبلاگ، اخبار، کتاب، مقالات پژوهشی به طور قابل توجهی افزايش يافته است. اين متن بدون ساختار يا نيمه ساختاريافته حاوی حجم عظیمی از اطلاعات است. یکی از راههای نشان دادن اطلاعات در متن به شکل موجوديتها و روابطی است که پيوندهای بين موجوديتها را نشان میدهد. استخراج رابطه میتواند روابط بين موجوديتها در متن را شناسايی کند. برای اینکار ابتدا مجموعه دادگان آموزشی مناسب جمعآوری شده و سپس پیشپردازشهای لازم را انجام میدهيم. بعد از آن به بررسی و مهندسی ویژگیهای مورد نياز میپردازيم. يکی از روشهای مورد استفاده برای مدل سازی دادگان، روش دورناظر است. همچنين از رويکرد يادگيری عميق به منظور مدلسازی استفاده شده و سپس روابط را با استفاده از گراف دانش نمايش خواهيم داد. همچنين میتوان از مدل BERT برای بالا بردن معيارهای ارزيابی استفاده کرد. درنهايت، روشهای مدنظر باهم ترکيب شده و از روش يادگيری گروهی استفاده می شود. سپس نتايج کار را با روشهای ديگر مقايسه میکنيم.
جهان امروز، جهان داده است. ذخیرهسازی و استفاده بهینه از داده و همچنین استخراج خودکار اطلاعات یکی از چالشهای اصلی در یک دهه گذشته بوده است. دادههای اطراف ما در قالبهای مختلفی مانند فیلم، صدا، تصویر و متن قرار گرفتهاند. دادههای متنی یکی از این قالبهای دادهای بوده که امروزه محبوبیت خاصی را در علوم مختلف پیدا کرده است. بررسی و پردازش دادههای متنی با توجه به حجم زیاد و بدون ساختاربندی آنها، تنها با استفاده از سامانههای رایانهای ممکن است. دادههای متنی را میتوان از منابع مختلفی مانند وبگاههای خبری، شبکههای اجتماعی، مقالات علمی و غیره استخراج نمود. یکی از انواع تحلیلهایی که بر روی دادههای متنی اعمال میشود، تشخیص موضع است. در تشخیص موضع، ما موضع یک ادعا را نسبت به اسناد موجود بررسی خواهیم نمود. موضع یک ادعا میتواند بهصورت کلی به سه صورت موافق، مخالف و بیربط باشد. از موارد کاربرد و اهمیت این تحلیل بر روی دادههای متنی میتوان به تشخیص اخبار جعلی، تشخیص نظر کاربران درمورد یک خدمت یا محصول، تشخیص مغایرت در اسناد مختلف، بخصوص در حوزه حکمرانی نام برد. در این سمینار ما به روشهای متفاوت در این حوزه و بررسی آنها میپردازیم.
در سال هاي اخیر پیدایش تکنولوژي هاي جدید و انقلاب این حوزه باعث شده که اینترنت و تکنولوژي به طور گسترده اي وارد بحث هاي مالی و تجارت شود. تجارت الکترونیک نقش بسیار مهمی در پیشرفت کسب و کار در جهان داشته است. این پیشرفت باعث شد که بسیاري از شرکت هاي بزرگ تراکنش هاي مالی خود را از طریق برخط انجام دهند. این افزایش باعث شده است که فرصت براي مهاجمان مخرب فراهم شود تا با استفاده از راه هاي مختلف کلاهبرداري هزینه ي زیادي را بر اي این شرکت ها بوجود آورند. ابتدا به بررسی و دریافت داده هاي حوزه ي مالی میپردازیم. شناختن داده هاي این حوزه براي بررسی هاي پیش رو امر مهمی است. بعد از به دست آوردن مجموعه داده هاي مناسب باید به پردازش آن و بررسی نکات مورد نیاز و مهم دادگان بپردازیم. سپس باید انواع کلاهبرداري ها و جرایم این حوزه و نحوه ي عملکرد جاعل یا کلاهبردار در هر یک از آن ها بررسی شود تا بتوانیم بفهمیم که باید چه تصمیمی در مقابل این جرایم بگیریم و به کدام قسمت ها توجه کنیم. بعد از آن به بررسی انواع روش هاي داده کاوي که قابلیت استفاده در این حوزه را دارند می پردازیم که با استفاده از آن ها بتوانیم این کلاهبرداري ها را تشخیص دهیم. انتخاب روش و مدل مناسب از اهمیت بالایی برخودار است چرا که روش هاي متعددي با تنظیمات مختلفی وجود دارند که از آنها می توان استفاده کرد. از بین روش هاي داده کاوي در بعضی موارد از روشهاي قدیمی تر مانند Logistic regression و SVM استفاده شده و میشود و در بعضی موارد هم از روش هاي جدیدتري مانند یادگیري عمیق، RNN و CNN استفاده میشود.
امروزه با پیشرفت سریع روشهای موقعیتیابی، دادههای مکانی-زمانی به طور گستردهای در دسترس قرار گرفتهاند؛ از این رو، استخراج دانش ارزشمند از این دادهها برای بسیاری از برنامههای کاربردی در دنیای واقعی حائز اهمیت است. انواع دادههای مکانی-زمانی عبارتند از رویداد، خط سیر، نقاط مرجع، دادههای شطرنجی و ویدئو. با توجه به انواع این دادهها، قالب دادهها میتواند به صورت نقطه، دنباله، گراف، ماتریس دو بعدی یا تنسور سه بعدی باشد. یکی از کاربردهای ناهنجارشناسی در دادههای مکانی-زمانی تحلیل رفتار رانندگان است. به طور کلی تشخیص ناهنجاری در دادههای مکانی-زمانی و تحلیل آنها میتواند باعث کشف دانش ارزشمند دربارهی افراد، گروهها و وقایع مختلف شود. به همین علت این ناهنجارشناسی در زمینههای مختلف برای ما دارای اهمیت است. از طرفی تعداد، حجم و دقت دادههای مکانی-زمانی به سرعت در حال افزایش است؛ از این رو روشهای سنتی دادهکاوی مانند روشهای مبتنی بر آمار دیگر نمیتوانند پاسخگوی نیازهای کنونی بشر در تحلیل دادههای مکانی-زمانی باشند. این در حالیاست که مدلهای یادگیری عمیق در این زمینه به موفقیتهای قابل توجهی رسیدهاند و به طور گسترده در کاربردهای مختلفی از آنها استفاده میشود. با وجود تمام این پیشرفتها، هنوز چالشها و محدودیتهای زیادی مطرح است که غلبه بر آنها نیازمند توجه و تحقیق بیشتری است.
در دنیای امروز، رشد انفجاری دادههای متنی دیجیتال در حوزههای مختلف، چالشها و فرصتهای بسیاری را برای استخراج، سازماندهی و درک دانش ایجاد کرده است. هستانشناسیها به عنوان ابزارهای ارزشمندی برای سازماندهی دانش، روابط معنایی بین مفاهیم را شکل داده و امکان بازیابی اطلاعات، تصمیمگیری و تعامل دادهها را فراهم میکنند. با این حال، پیچیدگی زبان طبیعی و گستردگی تنوع متون، ایجاد خودکار هستانشناسیها را با دشواریهایی مواجه کرده است. مدلهای گرافی به عنوان ابزارهای قدرتمندی برای نمایش دادههای متنی و استخراج روابط معنایی ظهور کردهاند و میتوانند به شکلدهی به ساختارهای معنایی کمک کنند. این پژوهش به دنبال توسعه رویکردی سیستماتیک برای ساخت هستانشناسی از دادههای متنی با استفاده از مدلهای گرافی است تا دقت و مقیاسپذیری ساخت خودکار هستانشناسیها را بهبود بخشد و به پیشرفتهای حوزههای پردازش زبان طبیعی، بازیابی اطلاعات و هوش مصنوعی کمک کند.
در دهه اخیر، مدلهای زبانی بزرگ به دلیل توانمندیهای چشمگیر خود، به عنوان یکی از پیشگامان مهم در زمینه پردازش زبان طبیعی و هوش مصنوعی تبدیل شدهاند. با این حال علیرغم پیشرفتهای فوقالعاده، مدلها برای پاسخ به پرسشهایی که فراتر از دادههای آموزشی هستند یا نیازمند اطلاعات بهروز و خاص دامنه میباشند ممکن است دچار توهم شده و پاسخهایی ارائه دهند که نه تنها نادرست بلکه ممکن است گمراهکننده نیز باشند. با ظهور معماری ترنسفورمرها با استفاده از مکانیزم توجه تحول بزرگی در حوزه پردازش زبان طبیعی رخ داد، اما این مدلهای ترنسفورمر اولیه به دلیل نیاز به حجم زیادی از دادههای آموزشی عمومی، در درک و استفاده از اطلاعات دامنه محور محدود بودند. برای حل این مشکل، رویکرد تنظیم دقیق مطرح شد که امکان آموزش روی دادههای خاص یک حوزه را فراهم میسازد، اما این روش هزینههای محاسباتی بالایی دارد. به دنبال رفع این چالش، رویکرد تولید تقویت شده با بازیابی معرفی شد که در این روش از یک پایگاه داده خارجی برای بازیابی اطلاعات مرتبط استفاده میشود. از این رو به منظور بازیابی و پردازش مؤثر اطلاعات در دامنههای خاص، آگاهی از بهترین روش زمینهسازی برای کمک به مدلهای زبانی بزرگ جهت پاسخگویی به صورت بهینه ضروری است.
در سالهای اخیر، دادههای گرافی موردتوجه زیادی قرار گرفتهاند؛ زیرا از آنها بهمنظور بازنمایی انواع دیگری از دادهها از جمله دادههای شبکه اجتماعی، بانکی، امنیتی، امور مالی، پزشکی و متنی نیز استفاده میشود. ازاینرو تشخیص ناهنجاری در این دادهها به دلیل پیامدهای ناگوار آنها موردتوجه فزایندهای قرار گرفته است و قدرت خود را در جلوگیری از رویدادهای مخربی مانند کلاهبرداری مالی، نفوذ در شبکه و هرزنامههای اجتماعی نشان داده است. بهطورکلی، ناهنجاری، الگوهایی در دادهها هستند که با مفهوم تعریف شده از رفتار عادی مطابقت ندارند. چنین ناهنجارهایی در دادههای گرافی ممکن است به چند صورت دیده شوند ۱- ناهنجاری در گره، ۲- ناهنجاری در یال، 3- ناهنجاری در زیرگراف، 4- ناهنجاری در گراف. ناهنجاری مربوط به گره ممکن است به دلیل غیرعادی بودن ساختار یا ویژگیها یا هر دو باشد. از سوی دیگر ناهنجارهای مربوط به یال برخلاف تشخیص ناهنجاریهای گره که گرههای منفرد را هدف قرار میدهد، هدف تشخیص یال ناهنجار شناسایی پیوندهای غیرعادی است. این پیوندها اغلب روابط غیرمنتظره یا غیرمعمول بین اشیا واقعی، مانند تعاملات غیرعادی بین کلاهبرداران و کاربران خوشخیم، یا تعاملات مشکوک بین گرههای مهاجم و ماشینهای کاربر خوشخیم در شبکههای کامپیوتری هستند. چالش اصلی در این زمینه شناسایی این ناهنجاریها و طبقهبندی آنها است. در سالهای اخیر روشهای محاسباتی بسیاری برای پیشبینی ناهنجاری در گراف ایجاد شده است. این روشها میتوانند ناهنجاریها را در گراف تشخیص دهند. این روشهای محاسباتی بهطورکلی به دودسته مبتنی بر تجزیهوتحلیل آماری و مبتنی بر یادگیری ماشین است.
با گذشت زمان، همواره حجم دادههای متنی به صورت چشمگیری در حال افزایش است. در نتیجه تحلیل و بررسی دادههای حجیم به منظور استخراج اطلاعات مفید به یک مسئله جدی تبدیل شده است. تکنیکهای ردهبندی، برای کمک و بهبود این مشکل به وجود آمدند. این روشها، جستجو در بستر اینترنت را آسانتر و مرتبطتر میکنند، همچنین تجربه کاربر را بهبود میبخشند. بررسی شباهت معنایی متون، به کمک تکنیکهای انطباق معنایی مهمترین بخش از ردهبندی است. در این پژوهش قصد داریم، با بررسی روشهای مختلف انطباق معنایی اسناد، ابتدا به استخراج دادههای متنی از اسناد بپردازیم، سپس در مرحله پیشپردازش از روشهای مختلف استخراج ویژگیهای معنایی، برای بررسی شباهت معنایی اسناد بهره ببریم، تا بر اساس ویژگیهای استخراج شده، بتوانیم روابط معنایی بین اسناد و دادهها را به دست آوریم و سپس به ردهبندی اسناد میپردازیم.
امروزه اینترنت یکی از قسمتهای اصلی جامعه را تشکیل میدهد. با توجه به فراگیر بودن اینترنت، دردسترس بودن آن یک امر ضروری به شمار میرود، از طرفی مهاجمان به دنبال از دسترس خارج کردن خدمات اینترنتی و سواستفاده از شرکتهای خدمات اینترنتی هستند. یکی از متداولترین حملاتی که به این شرکتها صورت میگیرد حملات DDoS است که باعث اختلال در ارائه خدمات شرکتها میشود. اختلال و قطعی سرویس ضررهای زیادی به شرکت وارد میکند تا جایی که 24 ساعت قطعی سرویس در یک شرکت بزرگ تجارت الکترونیک میتواند 30 میلیون دلار ضرر به شرکت برساند. ترافیک جریانهای شبکه را میتوان به دو دسته ترافیک نرمال و ترافیک حمله DDoS تقسیم نمود و براساس ویژگیهای ترافیک میتوان متوجه شد که چه زمان به شبکه قربانی حمله صورت میگیرد . حملات DDoS معمولاً مبتنی بر حجم هستند و برای تشخیص این نوع حملات روش جریانمحور مناسب است. جریانها به عنوان مجموعهای از بستههای IP هستند، که در یک بازه زمانی مشخص از یک نقطه مشخص در شبکه عبور میکنند، به این ترتیب که بستههای متعلق به یک جریان خاص خصوصیات مشترکی دارند. در مرحله اول صادرکنندگان جریان بستههای خام را دریافت کرده و آنها را جمعآوری میکنند. در مرجله بعد جمعکنندههای جریان دادههای جریان را ذخیرهسازی و پیشپردازش میکنند و سرانجام، برنامههای تجزیه و تحلیل، مانند سیستمهای تشخیص نفوذ (IDS) ، دادههای جریان را بازیابی و تحلیل میکنند. الگوریتمهای زیادی در سیستمهای تشخیص نفوذ مانند KNN ،SVM ،RF استفاده میشود که براساس ویژگیهایی که از دادههای ورودی دریافت میشود تصمیمگیری میکنند. با توجه به این که دادههای شبکه معمولا حجم بالایی دارند و جزوه کلان دادهها به حساب میآیند در سالهای اخیر روشهای یادگیری عمیق برای کلان دادهها ارائه شده است. از جمله تکنیکهای معروف آن میتوان به شبکههای باور (DBN) ، شبکه عصبی پیچشی(CNN) و LSTM اشاره کرد. در این سمینار قصد داریم به بررسی روشهای مختلف دادهکاوی به منظور شناسایی رفتارهای ناهنجار شبکه بپردازیم.
تقلب در دادههای اقتصادی یک نگرانی جدی برای سازمانهای تجاری و افراد است. از بین انواع تقلب، تقلب از طریق کارتهای اعتباری رایجترین و پرهزینهترین نوع است که نگرانیهای جدی در سطح جهانی ایجاد کردهاست. تقلب از طریق کارتهای اعتباری به دو دسته کلی تقسیم میشود: 1- دسترسی غیرمجاز به کارت فیزیکی (مانند سرقت کارت) 2- دسترسی غیرمجاز به اطلاعات کارت اعتباری (بدون در اختیار داشتن کارت فیزیکی) اعمال بررسیهای دستی برای شناسایی تقلب زمانبر و پرهزینه است. در چند سال گذشته، مطالعات زیادی با استفاده از روشهای یادگیری ماشین برای شناسایی و جلوگیری از تراکنشهای متقلبانه انجام شدهاست. یک سیستم کشف تقلب (FDS) ایدهآل که بتواند تمام انواع تقلب در این حوزه را شناسایی کند، میبایست بر روی الگوی استفاده کاربران از کارتهای اعتباری و رفتار کلاهبرداران تمرکز نماید. در صورت وجود دادههای تراکنشی بلند مدت از معاملات کاربران و کلاهبرداران، سیستم تشخیص تقلب ما تبدیل به یک مسئله ردهبندی دودویی میشود. از جمله چالشهای شناسایی تراکنشهای متقلبانه میتوان به موارد زیر اشاره کرد: 1- توزیع نامتعادل تراکنشهای متقلبانه و قانونی در مجموعه دادهها 2- دسترسی محدود به مجموعه دادهها در مطالعات گذشته (بهدلیل محرمانگی بانکداری) 3- تفکیکپذیری کم بین تراکنشهای متقلبانه و قانونی (چراکه متقلبان همواره سعی در نزدیکسازی رفتار خود به رفتار کاربران عادی دارند) ما در این سمینار قصد داریم به بررسی راهحلهای تشخیص تقلب در دادههای مالی بپردازیم.
امروزه، با توسعه سریع فناوری اطلاعات و استفاده گسترده از آن، اینترنت به عنوان یک حامل اطلاعات، به تدریج جایگزین رسانههای سنتی مانند روزنامه و تلویزیون شدهاست. دادههای تولیدشده در اینترنت توسط افراد بهصورت نمایی در حال افزایش است. اکنون، اینترنت با داشتن بیش از 5/4 میلیون کاربر فعال و روزانه 2،500،000 ترابایت دیتای تولیدشده، که حجم قابل توجهی از آن را متنها تشکیل میدهند، تاثیر بسزایی در زندگی ما دارد. در مواجهه با این حجم از دادهها، پردازش و چگونگی استخراج اطلاعات به یک نگرانی عمومی تبدیل شدهاست. در دنیای امروز که بررسی این حجم از دادههای متنی فراتر از توان ماست؛ استخراج موضوع متون میتواند راهی برای درک و مدیریت کلاندادههای انباشتهشده در اختیار ما قرار دهد. استخراج موضوع، فرایند گشتوگذار کاربر را نیز در این فضای پیچیده، راحتتر میکند. بنابراین یکی از چالشهای موجود در فضای کلانداده طبقهبندی موضوعی دادههای متنی است. فرایند استخراج موضوع، بر کشف موضوعاتی که مجموعهای از اسناد به آنها پرداختهاند متمرکز شده است، بهطوریکه از موضوعات تعریفشده انتظار میرود که از نظر موضوعی مشابه، منسجم و خودمحور باشند. فرایند استخراج موضوع بهصورت دستی، امری زمانبر و خسته کننده است و با توجه به افزایش حجم و تنوع اسناد بدون برچسب در اینترنت، به امری غیرممکن برای انسان تبدیل شدهاست. بنابراین، فرایند استخراج موضوع از متن به صورت خودکار و کارآمد به امری مهم و حیاتی در دنیای اینترنت تبدیل شدهاست. علاوه بر آن، استخراج موضوع به عنوان یکی از شاخههای پردازش زبانهای طبیعی و متنکاوی، پایهی بسیاری از تحلیلهای متنی مانند پیشبینی روند موضوع، استخراج افکار، خلاصهسازی و طبقهبندی متون است. از روشهای موجود استخراج موضوع میتوان در شخصیسازی و بهینهسازی متورهای جستجو و سیستمهای توصیهگر متنی، سیستمهای پرسش و پاسخ و شبکههای اجتماعی مانند توییتر و وبلاگها استفاده کرد. حتی از استخراج موضوع در شبکههای اجتماعی بهعنوان هشدار دهنده فاجعههای طبیعی نیز استفاده میشود.
با افزایش حجم اطلاعات برخط، سیستمهای توصیهگر یک استراتژی موثر برای غلبه بر این اطلاعات انبوه میباشند. توصیهگرها در زمینههای گوناگونی مانند گردشگری و پزشکی کاربرد دارند. با آنکه سیستمهای توصیهگر کنونی پیشنهادهای خوبی ارائه میکنند اما همچنان با چالشهایی همچون دقت، مقیاسپذیری و شروع سرد مواجه هستند. افزایش حجم دادهها و افزایش قدرت محاسباتی سختافزارها امکان بهرهگیری از یادگیری عمیق برای استخراج ویژگیها و روابط نهان از دادهها را فراهم کردهاست، بنابراین یادگیری عمیق به عنوان یکی گزینههای بسیار کارآمد برای حل چالشهای یاد شده مطرح است. تحقیقات سالهای اخیر با تکیه بر یادگیری عمیق، بهبود چشمگیری در دقت، کاهش ابعاد و شروع سرد سیستمهای توصیهگر را نشان میدهند. افزونبر چالشهای بیان شده، توصیهگرها با بهکار گرفتن بافتار و رفتار کاربر، سعی میکنند پیشنهادهای دقیقتری با مرکزیت کاربر ارائه دهند. همچنین شبکههای عصبی، قادر هستند بخش کوچکی از دادهها که مورد نیاز و توجه کاربران هستند را از میان حجم زیادی از دادهها، تشخیصدهند. برای افزایش کارایی توصیهگرها، محققان و شرکتها به استفاده از توصیهگرهای میان-دامنهای روی آوردهاند، یک نمونه از توصیهگرهای میان-دامنهای، بررسی ارتباط شبکهی کاربران با دادههای محصولات شرکتها میباشد. یادگیری عمیق با وجود دادههای پیچیدهی توصیهگرهای میان-دامنهای، قادر به ایجاد مدلهایی با دقت بالا است. در حال حاضر شرکتهای برخط و کاربران آنها، به پیشنهادهایی دقیقتر و مرتبطتر با شخصیت کاربران نیاز دارند. نتایج بسیار خوبی که یادگیری عمیق در حل چالشها و استخراج زوایای پنهان دادهها تا کنون در زمینههای مختلف داشتهاست، امکان ارتقا و بهبود توصیهگرها را نیز فراهم میکند.
داروها به هدف درمان بیماري ساخته میشوند، با این حال بیشتر آنها هنگام درمان بیماري ممکن است اثرات منفی تحت عنوان عوارض جانبی داشته باشند. اثر جانبی کشفنشده براي یک داروي تاییدشده میتواند براي انسان مضر باشد و همچنین خطرات بزرگی براي یک شرکت دارویی داشته باشد . رویکردهاي متعارف براي پیشبینی اثرات جانبی در طی فرایند تولید دارو سنجشهاي آزمایشگاهی و حیوانی است. با اینحال، چنین پیشبینیهاي تجربی داراي هزینهي بالا و زمانبر هستند . در سالهاي اخیر، روشهاي محاسباتی بسیاري براي پیشبینی عوارض جانبی دارو ایجاد شده است. این روشها میتوانند دامنه اثرات جانبی دارو را کاهش دهند . روشهاي محاسباتی موجود براي پیشبینی عوارض جانبی داروها، فرض میکنند که داروهاي مشابه از نظر خصوصیات شیمیایی و بیولوژیکی مانند ساختارها و اهداف آنها داراي خواص قابل مقایسهاند . چندین روش مبتنی بر دادهکاوي و یادگیري ماشین براي پیشبینی عوارض جانبی داروها بر اساس ویژگیهاي مختلف از جمله ساختارهاي شیمیایی داروها، اثر متقابل دارو–پروتئین، اثر متقابل پروتئین-پروتئین، فعالیت در شبکههاي متابولیکی، مسیرها، اطلاعات فنوتیپی و تفسیر ژن ارائه شده است.
پیشرفتهای اخیر در زمینه ذخیره حجم زیاد دادههای مربوط به سلامت افراد به صورت الکترونیکی باعث شده است فرصتهای جدیدی برای مطالعات دارویی ایجاد شود. یکی از جدیترین نگرانیها در زمینه بهداشت جهانی اثرات متقابل بین داروها است که زمانی ایجاد میشود که چند دارو باهم تجویز و فرد مجبور به مصرف بیش از یک دارو به صورت همزمان باشد. در این صورت تاثیرات داروها میتواند همافزایی یا متعارض باشد. یک ترکیب دارویی در صورتی همافزایی دارد که تاثیر ترکیب داروها بیشتر از مجموع تاثیر آنها به صورت انفرادی باشد و در حالت عکس با یکدیگر در تعارض هستند. همانطور که میدانیم اثر داروها بریکدیگر میتواند شامل افزایش اثر یک دارو، کاهش اثر دارو و در مواردی باعث ایجاد اثرات جدید شود. بروز تداخل دارویی ممکن است باعث بیماری فرد و حتی در شرایطی باعث مرگ مصرفکننده شود بنابراین بر اساس شدت اثر راهکارهای مختلفی همچون تذکر در برگه راهنما یا جمعآوری دارو از سطح بازار درنظر گرفته میشود. به همین دلیل توانایی پیشبینی این اثرات دارویی از زمینه تحقیقاتی مهم و پراهمیت است. از طرفی تحقیقات نشان داده است که ترکیب داروها در مقایسه با تجویز دارو به صورت منفرد در معالجه چندین بیماری پیچیده مانند سرطان، فشارخون و بیماریهای مسری اثر بخشی بیشتر و عوارض جانبی کمتری را بههمراه دارد و توجه محققان و شرکتهای دارویی بسیاری را به خود جلب کرده است. از طرفی شناسایی ترکیبات جدید دارویی (به عنوان مثال ترکیب دوتایی، سهتایی) به عنوان یک روش درمانی موثر به دلیل زیاد بودن تعداد حالات ترکیب داروها زمانبر و پرهزینه است و استفاده از روشهای محاسباتی برای پیشبینی ترکیبات دارویی موثر باعث محدود کردن تعداد آزمایشهای تجربی میشود. بنابراین مطالعه ترکیبات دارویی به وضوح یک زمینه تحقیقاتی مهم و پراهمیت است.
خبر محتوایی غنی و هدفمند است که با هدف مبادله اطلاعات منتخب پیرامون رویدادها و یا بیان دیدگاههای جوامع، گروهها و اشخاص نوشته میشود. برای مدت طولانی اخبار از طریق روزنامهها، رادیو یا تلویزیون در اختیار مخاطب قرار میگرفت اما ظهور تکنولوژیهای مربوط به رسانه و افزایش تعداد کاربران اینترنت، تغییراتی اساسی در الگوی ایجاد، انتشار و مصرف اخبار به وجود آوردهاست. در نتیجهی این تغییرات، اخبار آنلاین به رقیبی جدی برای نسل قبل خود -رسانه چاپی- تبدیل شده و بازار آن به طور قابل توجهی در حال رشد و گسترش است. هماکنون تعداد زیادی وبسایت خبری وجود دارد و آژانسهای خبری، اخبار خود را از طریق همین وبسایتها به مخاطبانشان میرسانند. همچنین شبکههای اجتماعی به منبع پرطرفداری برای دریافت اخبار مبدل گشتهاند. ویژگیهای اخبار آنلاین چون دسترسی آسان، رایگان بودن و همچنین وجود کاربردهای متعدد در حوزههایی چون اقتصاد و سیاست، باعث شدهاست که در سالهای اخیر تحقیقات زیادی به تحلیل و استخراج اطلاعات ارزشمند از اخبار بپردازند. با وجود حجم زیاد اخبار تولیدی، سرعت زیاد بهروزرسانی و مانعهای زبانی، کاربران تنها بخش بسیار کمی از اخبار را دنبال میکنند. لذا استفاده از روشهای اتوماتیک برای تحلیل اخبار ضروری است. اخبار آنلاین شامل محتوای متنی و در بعضی موارد غیرمتنی است، اما عمده محتوا را متن تشکیل میدهد. متنکاوی میتواند نقشی اساسی در تحلیل این متون و استخراج اطلاعات ارزشمند ایفا کند. همچنین استفاده از تکنیکهای یادگیری ماشین، هوش مصنوعی، یادگیری عمیق و البته دانش روزنامهنگاری در تحلیل اخبار ضروری است. ما در این سمینار قصد داریم که با استفاده از تکنیکهای متنکاوی به تحلیل اخبار آنلاین پرداخته و از این راه اطلاعات مفیدی استخراج کنیم.
News is a rich and purposeful content, written to communicate selected information on current events or reflect and form societies’, groups’ and individuals’ views of the events. For a long time news was presented to users via newspapers, television or radio but advent of media technologies and increase in the number of intenet users has made fundamental changes in the patterns of news construction, dissemination and consumption. As a result online news turned into a serious rival for its predecessor – the printed media and the market for online news is growing tremendously. Nowadays plenty of news website have been created by news agecies and social media is also becoming popular for news consumption. Easy access, low cost and applications in numerous fields including Economy and Politics made online news a valueable source for research in recent years. With great volume of created news, high velocity of updating and language barriers, users only follow a small amount of created news so it is crucial to benefit from automatic ways to analyze news. News consist of textual format and in some cases non-textual formats. Text mining can have a great role in analyzing news. Also the roles of machine learning, artificial intelligence, deep learning and knowledge of journalism in the news mining are indispensable. In this seminar we aim to use text mining techniques to analyze news and extract useful information
در سالهای اخیر، شبکههای اجتماعی به عنوان ابزاری برای به اشتراکگذاری موضوعات مختلف از قبیل عقاید، تجربیات، اخبار و دیدگاهها شناخته شدهاند. گاهی اوقات، کاربران شبکههای اجتماعی با وقوع برخی از رویدادها و اخبار در دنیای واقعی، این وقایع را در شبکههای اجتماعی انتشار میدهند. انتشار این وقایع در شبکههای اجتماعی، موجب میشود تا حجم زیادی از پیامها تولید شوند که این پیامها بیانگر این است که موضوع محبوبی در حال رخداد است. مقصود از محبوبیت موضوع، رایجبودن و گسترشیافتن موضوع است. شناسایی موضوعات محبوب در شبکههای اجتماعی، موضوعی چالش برانگیز است که توجه محققان را به خود جلب کردهاست. شناسایی موضوعات محبوب در شبکههای اجتماعی، یکی از موضوعات مطرح در زمینهی دادهکاوی و متنکاوی است. از روشهای متنوع شناسایی موضوعات، برای تشخیص رویدادها و اخبار نهفته در توییتها استفاده میشود. در واقع، شناسایی موضوعات محبوب در شبکههای اجتماعی و شناسایی وقایع در شبکههای اجتماعی، موضوعاتی مشابه و همراستا هستند. هدف ما در این گزارش، بیان تکنیکهایی است که به شناسایی وقایع در شبکههای اجتماعی میپردازند که بیشتر این تکنیکها در شبکهی اجتماعی توییتر انجام شدهاست. شناسایی وقایع در توییتر همراه با چالشهایی است که این چالشها بهعلت ماهیت توییتر به وجود آمدهاند. ما در این گزارش، انواع چالشها و تعاریف مربوط به وقایع را بیان میکنیم. سپس مراحل اصلی شناسایی وقایع در توئیتر که شامل جمعآوری توییتها، پیشپردازش آنها، استخراج ویژگیها، اعمال الگوریتمها و تکنیکها، پساپردازش خوشههای وقایع، خلاصهسازی خوشهها و ارزیابی نتایج است، را بیان میکنیم. در ادامه، انواع دستهبندی تکنیکها و کارهای مرتبط با آنها را ذکر میکنیم. در نهایت، با توجه به شکافهای تحقیقاتی موجود، یک مدل برای شناسایی وقایع در توئیتر پیشنهاد میکنیم.
کلمات کلیدی:شناسایی موضوعات محبوب، تحلیل شبکههای اجتماعی، توییتر، شناسایی وقایع، اخبار، دادهکاوی، متنکاوی.
تعیین ابعاد شخصیتی افراد در تحقیقات روانشناختی بسیار مهم است. روانشناسان این ابعاد را از طریق پرسشنامههای شخصیتی کشف میکنند. یک روش جایگزین برای کشف ابعاد شخصیتی، تحلیل سبک نوشتاری افراد است. مشهورترین نمونه ابعاد شخصیتی، مدل پنج عاملی (Five-Factor Model (FFM)) است که شخصیت را بر اساس پنج بعد بازبودن برای تجربه (Openness to Experience)، وظیفهشناسی (Conscientiousness)، برونگرایی (Extraversion)، روانرنجوری (Neuroticism) و تطابقپذیری (Agreeableness) مدلسازی میکند. اکثر پژوهشهای پیشین از ابزارهایی مانند LIWC برای پیشبینی FFM استفاده کردهاند. اشکال اصلی این روشها داشتن کتابخانهای از تعداد مشخصی کلمه است در نتیجه صحت پیشبینی این ابزارها به این کلمات بستگی دارد. در این پژوهش، ما روشی به نام DENOVA (یادگیری عمیق بر اساس ANOVA) را ارائه دادیم كه FFMرا با استفاده از یادگیری عمیق بر اساس تحلیل واریانس (ANOVA) واژهها پیشبینی میكند. برای این منظور، ابتداDENOVA برای انتخاب موثرترین و جداکنندهترین کلمات، از ANOVA استفاده میکند. سپس، از Word2vec برای استخراج ویژگی کلمات و سرانجام، DENOVA از SVM، Logistic Regression، XGBoost و MLP برای پیشبینی FFMاستفاده میکند. نتایج این تحقیق نشان میدهد که DENOVA به طور متوسط، ۶.۹۱ درصد، از روش های پیشرفته پیشین در پیشبینی FFM با توجه به Accuracy، بهتر عمل میکند.
امروزه در اطراف ما منابع غنی از اطلاعات متنی وجود دارد که میتواند در زمینههای مختلف کاربرد داشته باشد. علمی که به استخراج روابط و الگوهای معنادار از این دادههای متنی میپردازد، متنکاوی نام دارد. یکی از کاربردهای متنکاوی در علم زیستشناسی است. ما در این پایاننامه قصد داریم به کمک چکیده مقالات زیستشناسی، به استخراج روابط معنایی از متن بپردازیم. به همین منظور ما چکیده مقالات سایت PubMed را خزش کرده و به کمک الگوریتم Word2Vec به ساخت یک مدل معنایی از متن پرداختیم. سپس به کمک مدل ساختهشده روابط میان داروها را استخراج کرده و گراف دارو-دارو را ایجاد نمودیم. سپس با استفاده از گراف دارو-دارو ایجاد شده و ارائه روشهای پیشنهادی، به استخراج تغییرکاربری داروها، پیشبینی تاثیرات دارویی و پیشنهاد داروی جایگزین برای تاثیرات منفی دارویی پرداختیم. همچنین ما در این پایاننامه به ارائه گرافی از عوارض جانبی داروها خواهیم پرداخت و به کمک آن فرضیه باهمآیی عوارض جانبی داروها را بررسی خواهیم نمود. نتایج ما نشان میدهد که روش پیشنهادی این پایاننامه نسبت به کارهای پیشین دقت بالاتری دارد.
کلمات کلیدی: متنکاوی، یادگیری عمیق، تغییر کاربری داروها، تاثیرات دارو-دارو، تاثیرات منفی دارویی، عوارض جانبی داروها
Today, there are rich sources of textual information around us that can be used in a variety of contexts. The process of extracting meaningful relationships and patterns from these textual data is called text mining. One of the applications of text mining is in biology. In this dissertation, we extract semantic relationships from the text with the help of biological papers' abstracts. To this end, we crawled PubMed abstracts and built a semantic model of the text using Word2Vec. Next, with the help of the constructed model, we extract the relationships between drugs and creat a drug-drug graph. Finally, we proposed a method that discovers repurposing drugs, predicts drug-drug interactions, and recommends alternatives for drugs with negative health effects. Additionally, we generate a graph of the drugs' side effects and examine the co-occurrence hypothesis of drug side effects. The experimental results show that our proposed method is more accurate than the previous ones.
Keywords: Text Mining, Deep Learning, Drug Repurposing, Drug-Drug Interactions, Negative Health Effects, Drug Side Effects
امروزه شبكههار اجتماعی بسیار فراگیر شدهاند که همین امر باعث میشود تحلیك ا.فعات ثن نتایج مفید و متنوعی دربرداشمته باشمد. در بین این شمبكههار اجتماعی توئیتر یكی از مهمترین و همهگیرترین شمبكههار اجتماعی اسممت. مفهوم هشممتگ برار اولین بار در توئیتر معرفی شممد و امروزه به پرکاربردترین روش برار برچسبگذارر پیامها در شبكههار اجتماعی تبدیك شده است. هشتگها با ارار دادن عفمت "#" در ابتدار کلمه یا عبارت مش د میکنند. در وااع هشتگها نوعی دستهبندر مش د شده توس کاربر هستند که با اسمتفاده از ثن میتوان راحتتر در بین توئیتها جسمتوجو کرد. هشمتگها از اواعد زبانی پیرور نمیکنند و همچنین بسم یار کوتاه هسمتند به همین دلیك اسمت را ا.فعات از ثنها و تحلیك ثنها با روشهار بازیابی ا.فعات کف مسم یک کار دشموارر اسمت اما امروزه با اسمتفاده از ابزارهار هوش مصمنوعی و یادگیرر عمیق میتوان تحلیمكهمار گویماتر و معنمادارترر در این حوزه انجمام داد. بما اسممتفماده از هشممتمگ توئیمتهمار بمدون سماختار نیمه سماختاریافته میشموند و این موضموع تحلیكهار م تلم در شمبكه اجتماعی توئیتر را سمهولت میب مشد. به همین دلیك پیشمنهاد دادن هشمتگ در این شمبكه اجتماعی عفوه بر تشمویق کاربران به اسمتفاده از هشمتگ مناسمب فواید بسمیارر برار تحلیكگران دارد. پیشمنهاد هشمتگ به کاربرانی که اصمد اسمتفاده از هشممتگ را ندارند یا هشممتگ متناسممب با توئیت خود را نمیشممناسممند کمک میکند تا توئیت خود را در دسمتهبندر مناسمب ارار دهند. در این پووهش یک روش جدید برار پیشمنهاد هشمتگ در شمبكه اجتماعی توئیتر ارائه میدهیم. روش پیشمنهادر یک روش مبتنی بر یادگیرر عمیق و شمبكه عصمبی اسمت. در ابتدا پ از اعمال پیش پردازش رور توئیتها توئیتها و هشممتگها را با اسممتفاده از تعبیه کلمه )BERT( به بردار تبدیك میکنیم. سپ هشتگها را بر اساس بردارشان خوشهبندر میکنیم. در این روش با اعمال یک شبكه عصمبی مدلی میسمازیم که با اسمتفاده از تعبیه توئیت خوشمهار که هشمتگهار توئیت در ثن وااع میشموند را پیشبینی کند. در نهایت در خوشممه پیشبینی شممده بر اسمماس معیار شممباهت کسممینوسممی نزدیکترین و شمبیهترین هشمتگ خوشمه را به بردار توئیت یافته و به کاربر پیشمنهاد میدهیم. در این روش رواب معنایی همه کلمات و هشتگها با استفاده از تعبیه کلمه به خوبی درنظرگرفته میشوند.
کلمات کلیدی: توئیتر- پیشنهاد هشتگ- تعبیه کلمه- شبكه عصبی- شباهت کسینوسی- خوشهبندر
Social media like Twitter have become very popular in recent decades. Today’s hashtag concept have represented by Twitter for the first time. Hashtags on twitter creates by adding the “#” sign to the beginning of a word or phrase. Today, people use hashtags to categorize and make tweets searchable. By using hashtags, non-structured tweets become semi-structured. Hashtag recommendation helps and encourages users to find and use proper hashtags. In this paper, we propose a novel method to recommend appropriate hashtag using a neural network based on BERT embedding called EmHash. First, we extract tweet’s embedding and hashtags’ embedding. Each embedding construct with considering the concept of the tweet and the context of it. Then we cluster hashtags by their vectors. Finally, by using the neural network we build a model that learns to predict hashtag’s cluster, having the tweet’s vector. Whenever a new tweet has been written by a user, after preprocessing we convert it to a vector and give it to the model as the input to predict hashtag’s cluster. In the predicted cluster, by computing the cosine similarity between each hashtag and given tweet’s vector, we recommend the most similar hashtag to the user’s tweet.
Keywords: hashtag recommendation, neural network, deep-learning, clustering, cosine similarity, BERT embedding
تطبیق موجوديت به فرآيند شناسايی و ادغام رکوردهای متعلق به موجوديتهای يكتا اشاره دارد. روش استاندارد، استفاده از يک مدل مبتنی بر حانون يا مدل يادگیری ماشین، برای مقايسه و اختصاص يک امتیاز برای نشان دادن وطعیت تطبیق و عدم تطبیق جفت رکوردها است. با اين حال، انجام يک مقايسه جامع در تمام جفت رکوردها منجر به پیچیدگی تطبیق درجه دوم میشود و در نتیجه حبل از تطبیق، بلاکبندی انجام میشود تا موجوديتهای مشابه را به بلاکهای کوچک گروهبندی کند و سپس عملیات تطبیق به طور جامع انجام شود. برای بلاکبندی کارآمد و موثر مجموعه دادههای ورودی به گروههايی حابل مديريت، چندين روش بلاکبندی ارائه شده است که عموما به روشهای بلاکبندی مبتنی بر شِما، شِما آگنوستیک، روشهای پردازش بلاک و فرابلاکبندی تقسیمبندی میشوند. با اينحال عموم اين روشها هیچ معیار معنايی برای بلاکبندی رکوردها در نظر نگرفتند. روشهای مبتنی بر يادگیری عمیق از جمله روشهای تعبیه کلمات به طور خودکار شباهت معنايی و نحوی رکوردهای متنی را استخراج میکنند. در اين پژوهش يک روش کارا برای بلاکبندی در تطبیق موجوديت با استفاده از يادگیری عمیق ارائه میدهیم. روش پیشنهادی يک روش فرابلاکبندی آگاه بهمعنیاست.شباهتمعنايیرکوردهابااستفادهازروشدرهمسازیحساسبهموحعیت LSH)مبتنیبر تعبیهکلمات BERT)محاسبهمیشودتاازاينطريقبهبلاکبندیسريعوحابلاعتماددرمحیردادهدر مقیاس بزرگ برسیم. برای بهبود کیفیت بلاکهای ايجاد شده، ما يک گراف وزنی از رکوردهای معنايی مشابه ايجاد میکنیم و بر اساس وزن محاسبه شده برای يالها، يالهای گراف را هرس میکنیم. نتايج تجربی نشان دادکهروشپیشنهادی،باتوجهبهمعیارهایعمومیکیفیتجفت PQ)ومعیارFM F)برایارزيابیکیفیت بلاک، از 18 روش بلاکبندی موجود در سه منبع داده دنیای واحعی بهتر است.
کلمات کلیدی: تطبیق موجوديت، بلاکبندی، فرابلاکبندی، يادگیری عمیق، تعبیه کلمات، درهمسازی حساس به موحعیت
Entity resolution refers to the process of identifying and integrating records belonging to unique entities. The standard methods are using a rule-based or machine learning models to compare and assign a point, to indicate the status of matching or non-matching the pair of records. However, a comprehensive comparison across all the records pairs leads to quadratic matching complexity. Therefore blocking methods are using before the matching, to group the same entities into small blocks. Then the matching operation is done comprehensively. Several blocking methods provided to efficiently block the input data into manageable groups, which generally categorized into schema-based blocking techniques, schema-agnostic blocking techniques, block processing techniques, and meta-blocking techniques. Most of these methods typically do not consider semantic relationships among records. In this paper, we propose an efficient blocking strategy in entity resolution using deep learning. The proposed method is a semantic-aware meta-blocking approach. It considers the semantic similarity of records by applying locality-sensitive hashing (LSH) based on word embedding to achieve fast and reliable blocking in a large-scale data environment. To improve the quality of the blocks created, it builds a weighted graph of semantically similar records and prunes the graph edges. We extensively compare our proposed method with 18 existing blocking methods, using three real-world data sets. The experimental results show that our proposed method significantly outperforms all 18 methods with respect to two relevant measures, F-measure and pair-quality measure.
Keywords: Entity Resolution, Blocking, Meta-Blocking, Deep-Learning, Word Embedding, Locality- Sensitive Hashing
در دادهکاوی جهت ردهبندی دادهها الگوریتمهای زیادی وجود دارد که هر یک ویژگیهای منحصر بهه فهرد خودشان را دارند. به همین دلیل در بحث ردهبندی، انتخاب الگوریتم مناسبی که بیشترین دقهت را داشهته باشد یک چالش محسوب میشود. از طرفی نمیتوان گفت برخی الگوریتمها نسبت به برخهی دیگهر برتهری دارند زیرا عملكرد و دقت الگوریتمهای مختلهف بهر روی مجموعهه دادهههای مختلهف برحسهب شرایطشهان متفاوت است. تشخیص بهترین الگوریتم ردهبندی برای هر مجموعه داده براساس مقادیر فراویژگیههای ههر مجموعه داده انجام میشود و درواقع فراویژگیها قادر هستند بین مجموعه دادهههای مختلهف تمهایز ایجهاد کنند. ازطرفی دیگر میتوان با ترکیب برخی الگوریتمها با یكدیگر عملكرد و دقت نتیجه ردهبندی را نسهبت به حالتی که الگوریتمها بهصورت انفرادی اعمال میشوند بهبود داد امها انتخهاب مناسهبتهرین مجموعهه از الگوریتمها نیز یكی از مهمترین چالشهایی است که با آن روبهرو هستیم. هدف اصلی این مطالعه ارائه سیستمی هوشمند است که قادر است مناسهبتهرین ترکیهب از الگهوریتمههای ردهبندی را برای مجموعه دادههای مختلف پیشنهاد دهد. به همین منوور ابتدا با ههدف ایجهاد تمهایز بهین مجموعه دادههای مختلف به استخراج و انتخاب مناسبترین فراویژگهیهها مهیپهردازیم. همچنهین بهتهرین ترکیب از الگوریتمها برای مجموعه دادههای آموزشی شناسایی میشوند. درنهایت به منوور معرفی بهتهرین ترکیب از الگوریتمها برای هر مجموعه داده روابط بین فراویژگیها و الگوریتمهای منتخب مورد بررسی قرار میگیرند و بنابر قواعد و روابط کشف شده هنگام مواجهه با یک مجموعه داده جدید تنها با محاسبه برخی از فراویژگیهای مجموعه داده، بهترین ترکیب از الگوریتمهای ردهبندی پیشنهاد داده خواهد شد. پس از ساخت مدل، جهت آزمایش مدل ارائه شده از تعدادی مجموعه داده جدید اسهتفاده کهردیم. یكهی از این مجموعه دادهها، مجموعه داده عیوب انكساری است. عیوب انكساری اصلاح نشده اولین علت دید کهم و دومین علت نابینایی قابل اصلاح در جهان است. استفاده از دادهکاوی در یافتن علل ابتلا به عیوب انكساری بسیار مؤثر بوده است. بنابراین در این مطالعه ضهمن اسهتفاده از مجموعهه داده عیهوب انكسهاری بههعنهوان مجموعه داده آزمایشی، قصد داریم با استفاده از روش پیشنهادی به بررسی مجموعهه داده عیهوب انكسهاری پرداخته و مهمترین عوامل مؤثر در ابتلا به عیوب انكساری را کشف و معرفی کنیم.
کلمات کلیدی: فرایادگیری، الگوریتم ترکیبي، فراویژگي، عیوب انكساری
There are many classification algorithms in data mining. On the other hand, it can’t be said that a special algorithm is the best, since the performance and accuracy of different algorithms differ from one set to another according to their characteristics. So classification algorithm selection is one of the most important challenges in data mining. By combining set of the algorithms, it is possible to improve the performance and accuracy of the result of the classification, as compared to each algorithm. In this study we proposed a method based on meta-learning and Ensemble methods. This method aims to reduce the selection time by automatic recommendation of the best classifier combination for a given dataset considering it’s meta-features. For evaluation, we compared the error rate of proposed method with the average error rate of individual classifiers for several unseen datasets. One of these unseen datasets is named Refractive error. Uncorrected refractive errors are the first reason of low-vision and the second cause of curable blindness in the world. Data mining can, therefore, be used as an effective method to determine the causes of refractive errors. In this study, we will introduce the risk factors of refractive errors, by applying the model presented on the refractive errors dataset.
Keywords: Meta-Learning, Ensemble Methods, Meta-Features, Refractive Errors
امروزه با پیشرفت روزافزون فنآوری اطتعا و ارتباطا ، انسان در هر لصظه با حجم انبوهی از دادههاا مواجاه است، که اين دادههای عظیم از مناب مختلفی ازجمله کسبوکار، تعامت اجتماعی، مهندسی و غیره، استخراج میشوند. تصلیل و پردازش اين حجم از دادهها با روشهای سنتی میسر نیست و مستلزم استفاده از روشهاايی نوين است. دادهکاوی از بهترين راهكارها، جهت شناسايی الگوهای موجود در حجم زياادی از دادههاا مصساوب میشود. يكی از زمینههايی که دادهکاوی نقش مؤثری در آن ايفا میکند، کشف تقلب و مخاطرا در تعاامت (اجتماعی، اقتيادی و غیره است. مصققین با اساتفاده از ماد ها و الگوهاای حاصال از روشهاای دادهکااوی، مخاطرا موجود در اينگونه از تعامت را بهصور خودکار، کشف و شناسايی میکنند. در اين پاهوهش قياد داريم، ابتدا به معرفی و بررسی برخی از روشهای خودکار مبتنی بر دادهکاوی کاه در ساالیان اخیار باهمنظور تشخیص و کشف تقلب ارائهشدهاند بپردازيم، سپس اهمیت روشهای مبتنی بر گراف کاوی و مزايای آن را مورد بصث قرار میدهیم و در بخش انتهايی يكی از مسائل دنیای واقعی، که مربوط به اختيااص اعتباار و تشاخیص مخاطره اشخاص است را در مجموعه دادگان اعتبار آلمانی بهصور دقیقتر مورد تصلیل و بررسی قرار دهایم و به معرفی روش پیشنهادی خود، که تلفیقی از روشهای KMedoids، گرافکاوی و شبكه عيبی چندلايه اسات میپردازيم. نشان میدهیم روش نوين ارائهشده در اين پهوهش، نسبت به ديگر الگوريتمهاای ارائهشاده در ايان دامنه، در راستای پیشبینی و تشخیص مخاطره اشخاص عملكرد بهتری به نمايش میگذارد.
کلمات کلیدی:دادهکاوی، گرافکاوی، يادگیری ماشین، کشف تقلب، اعتبارسنجی
Nowadays with the daily development of Information Technology and Communications the man is facing a huge volume of data. These data are extracted from different resources such as business, social interaction, engineering, etc. Traditional methods are not able to analyze and process this volume of data, so the novel approaches should be used for solving this kind of problems. Data mining is one of the best approaches for detecting patterns from massive data. Fraud detection and risks discovery in interactions (Social, financial, etc.) is one the important fields in which data mining is very influencer. Researchers detect and discover risks automatically from interaction by the use of data mining models and patterns. In this research first; novel data mining fraud detection algorithms will be introduced, after that; the benefits and importance of graph mining methods will be discussed in this field. In conclusion part, one of the real world problems, which is related to credit scoring challenge and individual’s risk diagnoses in German credit datasets will be analyzed and checked in a more accurate way, and also the method of this research which is a combination of K-Medoid, graph mining and multi layer networks will be introduced in this part. The results shows that the accuracy of this method (GMLP) in types of evaluation approaches is better than other algorithms in this field.
Keywords: Data mining, Graph mining, Machine learning, Fraud Detection, Credit Scoring
امروزه با گسترش دانش، دادهکاوی توانسته از دادههای عظیم پزشكی استفاده کند و از میان حجم انبوهی از اين دادهها دانش مفید و الگوهای مؤثر استخراج کند، از طرفی با افزايش برخی بیماریها و پیچیدگی انتخاب روش درمان، نیاز به علوم دادهای بهوضوح حس میشود، تكنیکها و الگوريتمهای دادهکاوی نقشی مهم در به دست آوردن مدلهای پیشگو برای تشخیص و انتخاب بهترين و مؤثرترين راه درمانی دارند. از طرفی دادههای موجود در دنیای واقعی با مشكلات و چالشهای بسیاری روبهرو هستند که ممكن است در دقت الگوريتمها و کارايی آنها خلل ايجاد کند، ازاينرو بهرهگیری از روشهای مناسب و سودمند دادهکاوی نظیر الگوريتمهای ترکیبی میتواند تا اندازهای بر پیچیدگیهای دادهها فائق آيد و در پیشبینی روشهای درمان ناباروری و نرخ موفقیت روشهای درمان مؤثر باشد.
کلمات کلیدی:دادهکاوی، الگوريتمهای ترکیبی، چالشهای مجموعه داده، ناباروری، پیشبینی روش درمان
With the development of knowledge, Data mining has been able to use Big Data in order to produce useful patterns and effective algorithms. With the rising number of some diseases and the complexity of choosing a treatment method, there is a clear need for data science. Data mining techniques and algorithms play an important role in generating predictive models in disease diagnosis and the selection of the best and most effective treatment method. On the other hand, real-world data faces many challenges that can decrease the accuracy and the performance of these algorithms. Using appropriate and useful data mining techniques such as Ensemble methods can overcome these complexities and therefore be very useful in predicting infertility treatment methods and increasing the success rate of treatment methods.
Keywords: Data mining, Ensembles Classifier, Imperfect Data, Infertility, prediction
یکی از مهمترین مسائل تحقیقاتی مطرح شده در زمینه شبکههای اجتماعی، مسئله شناسایی گرههای مهم است. منظور از گرههای مهم، گرههایی است که سرعت انتشار اطلاعات در شبکه را افزایش داده و یا به نوعی از قابلیت تأثیرگذاری بالایی بر روی سایر گرههای موجود در شبکه برخوردارند. مفهوم تأثیرگذاری گرهها در کاربردهای مختلف، متفاوت است. شناسایی گرههای مهم در شبکههای اجتماعی با اهداف گوناگونی صورت میگیرد. از جمله این اهداف میتوان به پیدا کردن رهبران موجود در شبکههای اجتماعی، افراد مناسب در تسریع انتشار تبلیغات و غیره، اشاره کرد. تاکنون معیارهای متفاوتی جهت شناسایی گرههای مهم معرفی شدهاند. با توجه به تنوع ساختارهای گرافی، به کارگیری هر معیار به تنهایی و بدون توجه به ساختار گراف، ممکن است ناکارآمد باشد. در شماری از پژوهشهای انجام گرفته در سالهای اخیر، ترکیبی از معیارها، جهت شناسایی گرههای مهم به کارگرفته شده است. تعیین اهمیت هر معیار در این ترکیبها به صورت دستی انجام گرفته است. در این پژوهش با بهرهگیری از علوم گرافکاوی و ژنتیک، راهکاری برای شناسایی گرههای مهم در دادههای گرافی مربوط به شبکههای اجتماعی با ساختاری نامعلوم، معرفی شده است. هدف از این پژوهش به کارگیری ترکیبی از معیارهای شناسایی گرههای مهم و ارائه راهکاری جهت وزندهی هوشمند به این ترکیب، با توجه به ساختار گراف مورد بررسی است. کارایی راهکار پیشنهادی از طریق شبیهسازی بر روی 4 شبکه جهان واقعی بررسی شده است. نتایج حاصل در مقایسه با استفاده از روشهای پیشین و همچنین وزندهی تصادفی به معیارهای موجود در ترکیب، بیانگر بهبود چشمگیری در شناسایی گرههای مهم است.
کلمات کلیدی: 1- شبکههای اجتماعی 2- شناسایی گرههای مهم 3- دادههای گرافی 4- گرافکاوی 5- الگوریتم ژنتیک
Nowadays, the discovery of important nodes is one of the main problems in social networks. This problem has been addressed in varied purposes, such as finding the leaders in social networks, i.e., detecting high impact people, etc. So far, several criteria have been proposed for this problem. Due to the diversity of graph structures, the application of each criterion may be inefficient without taking the graph structure into account. In a number of studies in recent years, a combination of criteria has been used in the discovery of important nodes. The main drawbacks of existing methods is determining the weight of each criterion manually. In this study, using genetic algorithm, a system called DINGA for discovery of important nodes in social networks with an unknown structure has been proposed. Our proposed system discovers the important nodes in social networks by employing a combination of eight informative criteria of important nodes and their intelligent weighting. The efficiency of the proposed solution has been investigated through simulation on four real networks. The results of this study, compared to the previous methods, as well as randomized weighting to the criteria in the combination, indicate a significant improvement in the discovery of important nodes.
Keywords: Graph Mining, Social Networks , Important Nodes, Genetic algorithm.
أطٚظٜ ثب افعايف فبنّٝ ٔحُ ظ٘سٌی افطاز، ثب ٔطاوع اقشغبَ ٚ اضائٝ ذسٔبر ٔب٘ٙس آٔٛظـ، سفطيح، ذطيس، ؾلأز ٚ غیطٜ ٘یبظ ثٝ ؾفطٞبی ضٚظا٘ٝ افعايف يبفشٝ اؾز. ذسٔبرزٞی ثطای ايٗ حدٓ ثبلای ؾفط، ٘یبظٔٙس ثؿشطٞبی ٔٙبؾت ؾیؿشٓٞبی حُٕ ٚ٘مُ اؾز. ثب سٛخٝ ثٝ ٔحسٚزيز زض افعايف ْطفیز قجىٝ ضاٜٞب ٚ ٞٓچٙیٗ ْطفیز وٓسط سبوؿی ٚ اسٛثٛؼ ٘ؿجز ثٝ ؾیؿشٓٞبی حُٕٚ٘مُ ضيّی زضٖٚ قٟطی ٚ ٔكىلاسی ٔب٘ٙس آِٛزٌی نٛسی ٚ ٞٛا، سطافیه ؾٍٙیٗ زض ثعضٌطاٜٞب ٚ ذیبثبٖٞب ٚ ٞعيٙٝ ثبلای ا٘طغی، سٕبيُ ثیفسطی ثٝ اؾشفبزٜ اظ ؾیؿشٓٞبی ضيّی ثطلی ظيطظٔیٙی ثٝ خبی ؾبيط ؾیؿشٓٞبی حُٕٚ٘مُ ٚخٛز زاضز. ثٙبثطايٗ ٔشطٚ زض ولاٖقٟط سٟطاٖ خبيٍبٜ ٚيػٜای زاضز وٝ افعايف ویفیز ؾطٚيؽزٞی آٖ ٟٔٓ ثٝ ٘ٓط ٔیضؾس. زض سٛؾٗٝ ؾیؿشٓٞبی حُٕ ٚ٘مُ ٖٕٛٔی ٔب٘ٙس ضاٜآٞٗ قٟطی، ٖلاٜٚ ثط َطاحی ٔؿیط قجىٝ ٚ ٔىبٖ ايؿشٍبٜٞب، اضائٝ ظٔبٖثٙسی حطوز ٘بٌٚبٖ ٘یع ٔطحّٝای اظ َطاحی اؾز. خسَٚ ظٔبٖثٙسی حطوز لُبضٞب ثٝ ٖٙٛاٖ ٖبّٔی سأثیطٌصاض ثط ٔیعاٖ ضيبيز ٔكشطيبٖ، ٞعيٙٝٞبی ثٟطٜثطزاضی ٔشطٚ ٚ ٞٓچٙیٗ ؾلأز ٔحیٍ ظيؿز إٞیز زاضز ٚ زض٘شیدٝ ثٟیٙٝؾبظی ظٔب٘ی حطوبر لُبضٞب ٔٛخت افعايف ویفیز ؾطٚيؽزٞی ٔیقٛز. زض دػٚٞفٞبی ثٟیٙٝؾبظی ظٔب٘ی سبوٖٙٛ اظ سحّیُٞبی ضيبيی ٚ اٍِٛضيشٓٞبی زازٜوبٚی ثب قجیٝؾبظی ثطای سغییطار وّی زض خسَٚ ظٔب٘ی اؾشفبزٜ قسٜ اؾز، زض ايٗ دطٚغٜ زازٜٞب ثٝ قىُ خعئی ثب ٞسف يبفشٗ سفبٚرٞبی ٔٗٙبزاض ثب ؾبيط زازٜٞب ٔٛضز ثطضؾی لطاض ٔیٌیط٘س. اظ آ٘دبيیوٝ ٔسر ظٔبٖ حًٛض ٚ ا٘شٓبض زض ايؿشٍبٜ ٔشطٚ يىی اظ قبذمٞبی ٟٔٓ زض ضيبيزٔٙسی ٔؿبفطاٖ اظ ؾیؿشٓ ذسٔبسی ٔشطٚ اؾز ِصا زض ايٗ دػٚٞف زازٜٞبی ثبظٜ 6 ٔبٞٝ ؾفطٞبی سبذیطزاض زض ٔشطٚی سٟطاٖ زضيبفز اظ ؾبظٔبٖ ٔطثَٛٝ زضيبفز وطزٜ ٚ ثب اؾشفبزٜ اظ ضٚـٞبی زازٜوبٚی ٔٛضز ثطضؾی لطاض زازيٓ ٚ ثٝ سحّیُ ٚيػٌیٞبی زازٜٞب دطزاذشیٓ. دؽ اظ قٙبذز ٘ؿجی ٚيػٌیٞبی ٟٔٓ ٔدٕٖٛٝ زازٜ، اظ ضٚـ سحّیُ افشطالی خٟز قٙبؾبيی ؾفطٞبی سبذیطزاض ثب سفبٚر ٔٗٙبزاض ثب ؾبيط ؾفطٞب اؾشفبزٜ قسٜ اؾز. ثب سٛخٝ ثٝ لسضر اٍِٛضيشٓ غ٘شیه ثطای زؾزيبفشٗ ثٝ ضاٞىبض ثٟیٙٝ، ضٚقی ثب سطویت ايٗ اٍِٛضيشٓ ٚ ضٚـ سحّیُ افشطالی ثطای قٙبؾبيی ظٔبٖٞبی سأذیط ٚ ثٟیٙٝؾبظی آٖ َطاحی قسٜ اؾز ٚ ثٝ ٖٙٛاٖ ضاٜحُ دیكٟٙبزی زض ايٗ دػٚٞف اضائٝ ٔیٌطزز.
کلمات کلیدی: زازٜوبٚی، ٔدٕٖٛٝ زازٜ، ثٟیٙٝؾبظی، ٔشطٚ، ظٔبٖ سأذیط، سحّیُ افشطالی، اٍِٛضيشٓ غ٘شیه
Today, the need for day trips has increased with the increasing distance of people's places of residence, with employment centers and services such as education, recreation, shopping, health and so on. Serving for this high volume of travel requires proper platforms for transportation systems. Given the limitations in increasing the capacity of the road network as well as the reduced capacity of taxis and buses compared to inter-city rail transport systems and problems such as noise and air pollution, heavy traffic on highways and roads, and high energy costs, There is a greater tendency to use underground electric rail systems than other transportation systems. Therefore, the metro has a special place in the metropolis of Tehran, which seems to increase the quality of its service. In the development of public transport systems such as urban rail, in addition to the design of the network route and the location of stations, the provision of fleet scheduling is also a stage of design. Schedules of trains are important as a factor affecting customer satisfaction, subway operating costs and environmental health, thus improving the timing of trains to improve service quality. Mathematical analysis and simulation data mining algorithms have been used in temporal optimization research to simulate overall changes in the timetable. In this project, the data are examined in detail for the purpose of finding significant differences with other data. Since the time of waiting and waiting at the metro station is one of the important indicators in the satisfaction of the passengers with the metro service system, in this study the data of 6 months delayed trips to the Tehran metro were received from the relevant organization and analyzed using data mining methods. And analyzed the data properties. After relative recognition of the important features of the dataset, the discriminant analysis method was used to identify delayed trips with significant differences with other trips. Due to the power of the genetic algorithm to obtain the optimal solution, a method by combining this algorithm and a discriminant analysis method is designed to identify latencies and optimize it and is proposed as a solution in this study.
Keywords: Data Mining, DataSet, Time Optimization, Metro, Delay Time, Discriminant Analysis, Genetic Algorithm
کلماتی که ما در زندگی روزمره و يا شبكههای اجفماعی اسفااده میکنیم ااكار، عواطاف و احساساات ماا را منعكس میکنند. واژهها، بهعنوان منبعی هسفند که از آنها مایتاوان بارای شاناخت بشار در روانشناسای اسفااده کرد. همچنین کلماتی که در يک زمینه مشابه بهصورت همزمان باهم اتااق میاافناد جهاتگیاری معنايی و احساسی يكسانی دارند. در سالهای اخیر تداعی واژهها نقش کلیدی در تحقیقات علاوم شاناخفی داشفه است. در اين مطالعه يک سیسفم جديدی که تارواژه نامیده میشود، طراحی و پیادهسازی میشود و اين سیسافم منجر به ايجاد يک پايگاه دادهای از واژگان تداعی شده در زبان اارسی است. اين پايگاه داده تهیه شده بارای تحلیل گراف هشفگهای توئیفر اسفااده میشود. برای جم آوری دادهها کلمات کلیدی به گروههايی طبقهبندی میشوند.3۰ کلمه به هر شرکتکننده در دو ااز جداگانه نمايش داده میشود سپس از شرکتکنندهها خواسفه میشود تا با ديدن هر کلماه، ساهکلمهای که در ابفدا به ذهنشان میرسد و مرتبط با کلمات کلیدی اولیه هسفند را بنويسند. بعد از جم آوری دادههاا تارواژه شامل 24۰ کلمه پرکاربرد اارسی و بیش از 2۰۰۰۰ پاسخ مفاااوت بارای آنهاسات. در انفهاا نفاايج بهدستآمده از شبكه تداعی واژها در زبان اارسی را با شبكه موجود در زبانهای ديگر مقايسه میکنیم. ايان مقايسه نشان میدهد برای بعضی کلمات کلیدی، بیشفر کلمات تداعی شده يكسان هسافند و بارای برخای ديگر نیز بسیاری از پاسخهای پرتكرار منحير به ارهنگ و زبان آن کشور است. بار احساسی 5۰ کلمه کلیدی منفخب تارواژه و گراف هشفگهای اين کلمات کلیدی در توئیفر از طرياق دو روش گشت تيادای و لیست کلمات همزمان اتااق اافاده هر يک، به صورت مجزا محاسبه شد و نفايج نشان داد هر کلمه در شبكه تداعی واژهها و توئیفر با وجود اينكه ممكن است کلمات مفاااوتی را در ذهان انساان تداعی نمايند اما بار احساسی يكسانی دارند. همچنین شبكه تارواژه و گراف هشفگهای توئیفر بررسی شد و با اسفااده از معیارهای مرکزيت، گرههای مهم در شبكه تداعی واژهها و گراف هشفگهای توئیفر ارائاه مای- شوند.
کلمات کلیدی: تداعي واژهها، شبكه تداعي واژهها، هشتگهای توئیتر، تحلیل احساسي
The words we use in everyday life or on social networks reflect our thoughts, emotions, and emotions. Words are a resource that can be used to understand human beings in psychology. Words that occur simultaneously in the same context have the same semantic and emotional orientation. In recent years, the association of words has played a key role in cognitive science research. In this study, a new system called “Tarvajeh” is designed and implemented, which results in the creation of a database of associative vocabulary in Persian. This database is used to analyze Twitter hashtags. To collect the data, the keywords are categorized into groups. 30 words are displayed to each participant in two separate phases, and then participants are asked to see each word, and write the three words that first come to mind. After data collection, Tarvajeh consisted of 240 Persian frequent words and more than 20000 different responses to them. Finally, we compare the results of the association of words in Persian with those of other languages. This comparison shows that for some keywords, most associative words are the same, and for others many of the most frequent responses are unique to that country's culture and language. The sentiment of 50 selected keywords of Tarvajeh and hashtag graph of these keywords on Twitter was calculated separately by two random patrol methods and a list of simultaneous words each occurring, and the results showed that each word in the association of words and Twitter has the same emotional sentiment, though it may sound different in the human mind. Also, Tarvajeh and Twitter hashtag graph have been reviewed and the key nodes in the Tarvajeh and Twitter hashtag graph are presented using centrality measures.
Keywords: Word Association, Word Association Network, Twitter Hashtags, Sentiment Analysis
امروزه با پیشرفتهايی که در حوزهی زيستی صورت گرفتهاست، امكان مدلسازی دادههای زيستی فراهم شده است. همین امر منجر به پیدايش انواع شبكههای زيستی مانند شبكه تعاملی پروتئین-پروتئین، شبكه تعاملی دارو-پروتئین، شبكه تعاملی دارو-دارو و ... شده است. اين شبكهها بازنمايی کننده موجوديتها و روابط بین آنها هستند. به عنوان مثال در شبكه تعاملی پروتئین-پروتئین، گرهها بازنمايیکننده پروتئینها و يالها بازنمايیکننده روابط بین آنها هستند. به دلیل حجم بالای دادهها و پیچیدگیهای دادهها و پیچیدگی ساختار آنها، امكان تحلیل دستی اين شبكهها امكانپذير نیست. به همین دلیل استفاده از راهحلهای گرافکاوی به منظور تحلیل اين نوع از دادهها مورد توجه واقع شدهاست. زيرا بهکمک روشهای گرافکاوی، با استفاده از اطلاعاتی که در ساختار اين شبكهها وجود دارد و همچنین لحاظ کردن ويژگیهايی که مربوط به اين دامنهی خاق است، امكان استخراج روابط و الگوهای پنهان را برای ما فراهم میکند. هدف اصلی اين پژوهش بررسی شبكههای مختلف زيستی به منظور استخراج رابطه میان اثرات جانبی داروها ارائه شده است.
کلمات کلیدی: گرافکاوی، ردهبندی گراف، خوشهبندی، پیشبینی لبه، بیوانفورماتیک، اثرات جانبی داروها
Today, with the advances made in the field of biology, it is possible to model biological data. The same has led to the emergence of a variety of biological networks such as protein-protein intecraction network, drug-protein-target network, drug-drug interaction network, and so on. These networks represent the entities and relationships between them. For example, in a protein-protein interaction network, nodes and edges representing the proteins and relationships respectively. Because of the large volume of data and the complexity of them and their complex structure, it is not possible to manually analyze these networks. For this reason, the use of graph mining solutions to analyze this type of data has been considered. Because of the help of graph-mining methods, using information contained in the structure of these networks and As well as incorporating the features associated with this particular domain, it allows us to extract hidden relationships and patterns. The main objective of this study is to investigate the various biological networks in order to extract the hidden relationship among drug side effects.
Keywords: Graph mining, Clustering, Link precition, Bioinformatics, Drug side effects, Advers drug reaction