ABDAL

Advanced Big Data Analysis Laboratory




PHD Candidates


Milad Allahgholi

Milad Allahgholi

PHD Student


Thesis Title:
Domain Specific Knowledge Graph for Stance Detection of New Documents
چکیده :

جهان امروز، جهان داده‌ است. ذخیره‌سازی و استفاده بهینه از داده‌ یکی از چالش‌های اصلی در یک دهه گذشته بوده است. داده‌های اطراف ما در قالب‌های مختلفی مانند فیلم، صدا، تصویر و متن قرار گرفته‌اند. داده‌های متنی یکی از این قالب‌های داده‌ای بوده که امروزه محبوبیت خاصی را در علوم مختلف پیدا کرده‌است. بررسی و پردازش داده‌های متنی با توجه به حجم زیاد و بدون ساختار‌بودن آن‌ها، تنها با استفاده از سامانه‌های کامپیوتری ممکن است. داده‌های متنی را می‌توان از منابع مختلفی مانند سایت‌های خبری، شبکه‌های اجتماعی، مقالات علمی و غیره استخراج نمود. یکی از انواع تحلیل‌هایی که بر روی داده‌های متنی اعمال می‌شود، تشخیص موضع است. در تشخیص موضع، ما موضع یک ادعا را نسبت به اسناد موجود بررسی خواهیم نمود. موضع یک ادعا می‌تواند به صورت کلی به چهار صورت موافق، مخالف، نامشخص و بی‌ربط باشد. امروزه روش‌های مبتنی‌بر یادگیری‌عمیق در زمینه تشخیص موضع بسیار رواج پیدا کردند. اما دو مشکل اساسی در این روش‌ها وجود دارد. مشکل اول این است که روش‌های موجود، سلسله‌مراتب مفهومی متن را درنظر نگرفته و تنها بُعد معنایی متن را درنظر می‌گیرند. مشکل دوم مرتبط با عدم تفسیرپذیری روش‌های مبتنی‌بر یادگیری‌عمیق است. در این پیشنهادیه، ما یک رویکرد ترکیبی مبتنی‌بر گراف‌دانش دامنه‌محور و موضوع اسناد را برای تشخیص موضع ارائه خواهیم داد. گراف‌دانش باتوجه به در نظر گرفتن مفاهیم و سلسله‌مراتب موجودیت‌ها، می‌تواند در کنار روش‌های یادگیری‌عمیق به بهبود تشخیص موضع کمک کند. در گراف‌دانش موجودیت‌های مختلف دامنه قرار دارد که می‌توانیم سلسله‌مراتب میان موجودیت‌ها را نیز در تشخیص موضع درنظر بگیریم. هم‌چنین گراف‌دانش یک بازنمایی از دانش موجود در متن است و به همین علت می‌تواند تفسیرپذیری مدل تشخیص موضع را افزایش دهد. ما در کنار گراف‌دانش دامنه‌محور، موضوع اسناد را نیز درنظر خواهیم گرفت که در بازیابی اسناد به ما بسیار کمک خواهد کرد تا نتایج دقیق‌تری را داشته باشیم. استفاده از گراف‌دانش و موضوع اسناد نقش کلیدی در استخراج اسناد مرتبط در روش پیشنهادی داشته و می‌تواند دقت و فراخوانی روش پیشنهادی را افزایش دهد. روش پیشنهادی می‌تواند در دامنه‌های مختلف مانند دامنه حقوقی، تشخیص اخبار جعلی و تشخیص موضع مقالات جدید کاربرد داشته باشد. به منظور ارزیابی روش پیشنهادی، ما قصد داریم از معیارهای ارزیابی هم‌چون دقت، فراخوانی و معیار F استفاده نماییم. هدف این پیشنهادیه ارائه یک دستیار هوشمند برای کمک به متخصصان دامنه‌های مختلف، به‌منظور بررسی موضع اسناد جدید است.



MSC Students


Parinaz Soltanzade

Parinaz Soltanzade

Master Student


Thesis Title:
Relation Extraction from Textual Data
چکیده :

در جهان امروز، توليد روزانه متن در قالب رسانه‌های اجتماعی، ايميل، وبلاگ، اخبار، کتاب، مقالات پژوهشی به طور قابل توجهی افزايش يافته است. اين متن بدون ساختار يا نيمه ساختاريافته حاوی حجم عظیمی از اطلاعات است. یکی از راه‌های نشان دادن اطلاعات در متن به شکل موجوديت‌ها و روابطی است که پيوندهای بين موجوديت‌ها را نشان می‌دهد. استخراج رابطه می‌تواند روابط بين موجوديت‌ها در متن را شناسايی کند. برای این‌کار ابتدا مجموعه دادگان آموزشی مناسب جمع‌آوری شده و سپس پیش‌پردازش‌های لازم را انجام می‌دهيم. بعد از آن به بررسی و مهندسی ویژگی‌های مورد نياز می‌پردازيم. يکی از روش‌های مورد استفاده برای مدل سازی دادگان، روش دورناظر است. همچنين از رويکرد يادگيری عميق به منظور مدل‌سازی استفاده شده و سپس روابط را با استفاده از گراف دانش نمايش خواهيم داد. همچنين می‌توان از مدل BERT برای بالا بردن معيارهای ارزيابی استفاده کرد. درنهايت، روش‌های مدنظر باهم ترکيب شده و از روش يادگيری گروهی استفاده می شود. سپس نتايج کار را با روش‌های ديگر مقايسه می‌کنيم.

Alireza Binesh

Alireza Binesh

Master Student


Thesis Title:
Stance Detection in Textual Data
چکیده :

جهان امروز، جهان داده است. ذخیره‌سازی و استفاده بهینه از داده و همچنین استخراج خودکار اطلاعات یکی از چالش‌های اصلی در یک دهه گذشته بوده است. داده‌های اطراف ما در قالب‌های مختلفی مانند فیلم، صدا، تصویر و متن قرار گرفته‌اند. داده‌های متنی یکی از این قالب‌های داده‌ای بوده که امروزه محبوبیت خاصی را در علوم مختلف پیدا کرده است. بررسی و پردازش داده‌های متنی با توجه‌ به حجم زیاد و بدون ساختاربندی آن‌ها، تنها با استفاده از سامانه‌های رایانه‌ای ممکن است. داده‌های متنی را می‌توان از منابع مختلفی مانند وبگاه‌های خبری، شبکه‌های اجتماعی، مقالات علمی و غیره استخراج نمود. یکی از انواع تحلیل‌هایی که بر روی داده‌های متنی اعمال می‌شود، تشخیص موضع است. در تشخیص موضع، ما موضع یک ادعا را نسبت به اسناد موجود بررسی خواهیم نمود. موضع یک ادعا می‌تواند به‌صورت کلی به سه صورت موافق، مخالف و بی‌ربط باشد. از موارد کاربرد و اهمیت این تحلیل بر روی داده‌های متنی می‌توان به تشخیص اخبار جعلی، تشخیص نظر کاربران درمورد یک خدمت یا محصول، تشخیص مغایرت در اسناد مختلف، بخصوص در حوزه حکمرانی نام برد. در این سمینار ما به روش‌های متفاوت در این حوزه و بررسی آن‌ها می‌پردازیم.

Mohamad Mahdi Yadegar

Mohamad Mahdi Yadegar

Master Student


Thesis Title:
Fraud detection in financial data using deep learning methods
:چکیده

در سال هاي اخیر پیدایش تکنولوژي هاي جدید و انقلاب این حوزه باعث شده که اینترنت و تکنولوژي به طور گسترده اي وارد بحث هاي مالی و تجارت شود. تجارت الکترونیک نقش بسیار مهمی در پیشرفت کسب و کار در جهان داشته است. این پیشرفت باعث شد که بسیاري از شرکت هاي بزرگ تراکنش هاي مالی خود را از طریق برخط انجام دهند. این افزایش باعث شده است که فرصت براي مهاجمان مخرب فراهم شود تا با استفاده از راه هاي مختلف کلاهبرداري هزینه ي زیادي را بر اي این شرکت ها بوجود آورند. ابتدا به بررسی و دریافت داده هاي حوزه ي مالی میپردازیم. شناختن داده هاي این حوزه براي بررسی هاي پیش رو امر مهمی است. بعد از به دست آوردن مجموعه داده هاي مناسب باید به پردازش آن و بررسی نکات مورد نیاز و مهم دادگان بپردازیم. سپس باید انواع کلاهبرداري ها و جرایم این حوزه و نحوه ي عملکرد جاعل یا کلاهبردار در هر یک از آن ها بررسی شود تا بتوانیم بفهمیم که باید چه تصمیمی در مقابل این جرایم بگیریم و به کدام قسمت ها توجه کنیم. بعد از آن به بررسی انواع روش هاي داده کاوي که قابلیت استفاده در این حوزه را دارند می پردازیم که با استفاده از آن ها بتوانیم این کلاهبرداري ها را تشخیص دهیم. انتخاب روش و مدل مناسب از اهمیت بالایی برخودار است چرا که روش هاي متعددي با تنظیمات مختلفی وجود دارند که از آنها می توان استفاده کرد. از بین روش هاي داده کاوي در بعضی موارد از روشهاي قدیمی تر مانند Logistic regression و SVM استفاده شده و میشود و در بعضی موارد هم از روش هاي جدیدتري مانند یادگیري عمیق، RNN و CNN استفاده میشود.

Fateme Rezaeian

Fateme Rezaeian

Master Student


Thesis Title:
Spatio-temporal anomaly detection using ensemble learning
چکیده :

امروزه با پیشرفت سریع روش‌های موقعیت‌یابی، داده‌های مکانی-زمانی به طور گسترده‌ای در دسترس قرار گرفته‌اند؛ از این رو، استخراج دانش ارزشمند از این داده‌ها برای بسیاری از برنامه‌های کاربردی در دنیای واقعی حائز اهمیت است. انواع داده‌های مکانی-زمانی عبارتند از رویداد، خط سیر، نقاط مرجع، داده‌های شطرنجی و ویدئو. با توجه به انواع این داده‌ها، قالب داده‌ها می‌تواند به صورت نقطه، دنباله، گراف، ماتریس دو بعدی یا تنسور سه بعدی باشد. یکی از کاربردهای ناهنجارشناسی در داده‌های مکانی-زمانی تحلیل رفتار رانندگان است. به طور کلی تشخیص ناهنجاری در داده‌های مکانی-زمانی و تحلیل آن‌ها می‌تواند باعث کشف دانش ارزشمند درباره‌ی افراد، گروه‌ها و وقایع مختلف شود. به همین علت این ناهنجارشناسی در زمینه‌های مختلف برای ما دارای اهمیت است. از طرفی تعداد، حجم و دقت داده‌های مکانی-زمانی به سرعت در حال افزایش است؛ از این رو روش‌های سنتی داده‌کاوی مانند روش‌های مبتنی بر آمار دیگر نمی‌توانند پاسخگوی نیازهای کنونی بشر در تحلیل داده‌های مکانی-زمانی باشند. این در حالی‌است که مدل‌های یادگیری عمیق در این زمینه به موفقیت‌های قابل توجهی رسیده‌اند و به طور گسترده در کاربردهای مختلفی از آن‌ها استفاده می‌شود. با وجود تمام این پیشرفت‌ها، هنوز چالش‌ها و محدودیت‌های زیادی مطرح است که غلبه بر آن‌ها نیازمند توجه و تحقیق بیشتری است.

Ali Fata

Ali Fata

Master Student


Thesis Title:
Ontology construction from textual data using graph-based models
چکیده :

در دنیای امروز، رشد انفجاری داده‌های متنی دیجیتال در حوزه‌های مختلف، چالش‌ها و فرصت‌های بسیاری را برای استخراج، سازماندهی و درک دانش ایجاد کرده است. هستان‌شناسی‌ها به عنوان ابزارهای ارزشمندی برای سازماندهی دانش، روابط معنایی بین مفاهیم را شکل داده و امکان بازیابی اطلاعات، تصمیم‌گیری و تعامل داده‌ها را فراهم می‌کنند. با این حال، پیچیدگی زبان طبیعی و گستردگی تنوع متون، ایجاد خودکار هستان‌شناسی‌ها را با دشواری‌هایی مواجه کرده است. مدل‌های گرافی به عنوان ابزارهای قدرتمندی برای نمایش داده‌های متنی و استخراج روابط معنایی ظهور کرده‌اند و می‌توانند به شکل‌دهی به ساختارهای معنایی کمک کنند. این پژوهش به دنبال توسعه رویکردی سیستماتیک برای ساخت هستان‌شناسی از داده‌های متنی با استفاده از مدل‌های گرافی است تا دقت و مقیاس‌پذیری ساخت خودکار هستان‌شناسی‌ها را بهبود بخشد و به پیشرفت‌های حوزه‌های پردازش زبان طبیعی، بازیابی اطلاعات و هوش مصنوعی کمک کند.

Maryam Shafiei

Maryam Shafiei

Master Student


Thesis Title:
Contextualization in Retrieval-Augmented Generation
چکیده :

در دهه اخیر، مدل‌های زبانی بزرگ به دلیل توانمندی‌های چشمگیر خود، به عنوان یکی از پیشگامان مهم در زمینه پردازش زبان طبیعی و هوش مصنوعی تبدیل شده‌اند. با این حال علی‌رغم پیشرفت‌های فوق‌العاده، مدل‌ها برای پاسخ به پرسش‌هایی که فراتر از داده‌های آموزشی هستند یا نیازمند اطلاعات به‌روز و خاص دامنه می‌باشند ممکن است دچار توهم شده و پاسخ‌هایی ارائه دهند که نه تنها نادرست بلکه ممکن است گمراه‌کننده نیز باشند. با ظهور معماری ترنسفورمرها با استفاده از مکانیزم توجه تحول بزرگی در حوزه پردازش زبان طبیعی رخ داد، اما این مدل‌های ترنسفورمر اولیه به دلیل نیاز به حجم زیادی از داده‌های آموزشی عمومی، در درک و استفاده از اطلاعات دامنه محور محدود بودند. برای حل این مشکل، رویکرد تنظیم دقیق مطرح شد که امکان آموزش روی داده‌های خاص یک حوزه را فراهم می‌سازد، اما این روش هزینه‌های محاسباتی بالایی دارد. به دنبال رفع این چالش، رویکرد تولید تقویت شده با بازیابی معرفی شد که در این روش از یک پایگاه داده خارجی برای بازیابی اطلاعات مرتبط استفاده می‌شود. از این رو به منظور بازیابی و پردازش مؤثر اطلاعات در دامنه‌های خاص، آگاهی از بهترین روش زمینه‌سازی برای کمک به مدل‌های زبانی بزرگ جهت پاسخگویی به صورت بهینه ضروری است.

FatemeZahra Feyzi

FatemeZahra Feyzi

Master Student


Thesis Title:
Anomaly detection in graph data using deep learning
:چکیده

در سال‌های اخیر، داده‌های گرافی موردتوجه زیادی قرار گرفته‌اند؛ زیرا از آنها به‌منظور بازنمایی انواع دیگری از داده‌ها از جمله داده‌های شبکه اجتماعی، بانکی، امنیتی، امور مالی، پزشکی و متنی نیز استفاده می‌شود. ازاین‌رو تشخیص ناهنجاری در این داده‌ها به دلیل پیامدهای ناگوار آن‌ها موردتوجه فزاینده‌ای قرار گرفته است و قدرت خود را در جلوگیری از رویدادهای مخربی مانند کلاهبرداری مالی، نفوذ در شبکه و هرزنامه‌های اجتماعی نشان داده است. به‌طورکلی، ناهنجار‌ی، الگوهایی در داده‌ها هستند که با مفهوم تعریف شده از رفتار عادی مطابقت ندارند. چنین ناهنجار‌هایی در داده‌های گرافی ممکن است به چند صورت دیده شوند ۱- ناهنجاری در گره، ۲- ناهنجاری در یال، 3- ناهنجاری در زیرگراف، 4- ناهنجاری در گراف. ناهنجاری مربوط به گره ممکن است به دلیل غیرعادی بودن ساختار یا ویژگی‌ها یا هر دو باشد. از سوی دیگر ناهنجار‌های مربوط به یال برخلاف تشخیص ناهنجاری‌های گره که گره‌های منفرد را هدف قرار می‌دهد، هدف تشخیص یال ناهنجار شناسایی پیوندهای غیرعادی است. این پیوندها اغلب روابط غیرمنتظره یا غیرمعمول بین اشیا واقعی، مانند تعاملات غیرعادی بین کلاهبرداران و کاربران خوش‌خیم، یا تعاملات مشکوک بین گره‌های مهاجم و ماشین‌های کاربر خوش‌خیم در شبکه‌های کامپیوتری هستند. چالش اصلی در این زمینه شناسایی این ناهنجاری‌ها و طبقه‌بندی آن‌ها است. در سال‌های اخیر روش‌های محاسباتی بسیاری برای پیش‌بینی ناهنجاری در گراف ایجاد شده است. این روش‌ها می‌توانند ناهنجاری‌ها را در گراف تشخیص دهند. این روش‌های محاسباتی به‌طورکلی به دودسته مبتنی بر تجزیه‌وتحلیل آماری و مبتنی بر یادگیری ماشین است.

Fateme Qambari

Fateme Qambari

Master Student


Thesis Title:
Classification of textual data using semantic document matching techniques
:چکیده

با گذشت زمان، همواره حجم داده‌های متنی به صورت چشم‌گیری در حال افزایش است. در نتیجه تحلیل و بررسی داده‌های حجیم به منظور استخراج اطلاعات مفید به یک مسئله جدی تبدیل شده است. تکنیک‌های رده‌بندی، برای کمک و بهبود این مشکل به وجود آمدند. این روش‌ها، جستجو در بستر اینترنت را آسان‌تر و مرتبط‌تر می‌کنند، همچنین تجربه کاربر را بهبود می‌بخشند. بررسی شباهت معنایی متون، به کمک تکنیک‌های انطباق معنایی مهم‌ترین بخش از رده‌بندی است. در این پژوهش قصد داریم، با بررسی روش‌های مختلف انطباق معنایی اسناد، ابتدا به استخراج داده‌های متنی از اسناد بپردازیم، سپس در مرحله پیش‌پردازش از روش‌های مختلف استخراج ویژگی‌های معنایی، برای بررسی شباهت معنایی اسناد بهره ببریم، تا بر اساس ویژگی‌های استخراج شده، بتوانیم روابط معنایی بین اسناد و داده‌ها را به دست آوریم و سپس به رده‌بندی اسناد می‌پردازیم.



ALUMNI


Seyed Mojtaba Abtahi

Seyed Mojtaba Abtahi

Master Student


Thesis Title:
data mining methods for anomaly detection in network data
:چکیده

امروزه اینترنت یکی از قسمت‌های اصلی جامعه را تشکیل می‌دهد. با توجه به فراگیر بودن اینترنت، دردسترس بودن آن یک امر ضروری به شمار می‌رود، از طرفی مهاجمان به دنبال از دسترس خارج کردن خدمات اینترنتی و سواستفاده از شرکت‌های خدمات اینترنتی هستند. یکی از متداول‌ترین حملاتی که به این شرکت‌ها صورت می‌گیرد حملات DDoS است که باعث اختلال در ارائه خدمات شرکت‌ها می‌شود. اختلال و قطعی سرویس ضرر‌های زیادی به شرکت وارد می‌کند تا جایی که 24 ساعت قطعی سرویس در یک شرکت بزرگ تجارت الکترونیک می‌تواند 30 میلیون دلار ضرر به شرکت برساند. ترافیک جریان‌های شبکه را می‌توان به دو دسته ترافیک نرمال و ترافیک حمله DDoS تقسیم نمود و براساس ویژگی‌های ترافیک می‌توان متوجه شد که چه زمان به شبکه قربانی حمله صورت می‌گیرد . حملات DDoS معمولاً مبتنی بر حجم هستند و برای تشخیص این نوع حملات روش جریان‌محور مناسب است. جریان‌ها به عنوان مجموعه‌ای از بسته‌های IP هستند، که در یک بازه زمانی مشخص از یک نقطه مشخص در شبکه عبور می‌کنند، به این ترتیب که بسته‌های متعلق به یک جریان خاص خصوصیات مشترکی دارند. در مرحله اول صادرکنندگان جریان بسته‌های خام را دریافت کرده و آن‌ها را جمع‌آوری می‌کنند. در مرجله بعد جمع‌کننده‌های جریان داده‌های جریان را ذخیره‌سازی و پیش‌پردازش می‌کنند و سرانجام، برنامه‌های تجزیه و تحلیل، مانند سیستم‌های تشخیص نفوذ (IDS) ، داده‌های جریان را بازیابی و تحلیل می‌کنند. الگوریتم‌های زیادی در سیستم‌های تشخیص نفوذ مانند KNN‌ ،SVM‌ ،RF‌ استفاده می‌شود که براساس ویژگی‌هایی که از داده‌های ورودی دریافت می‌شود تصمیم‌گیری می‌کنند. با توجه به این که داده‌های شبکه معمولا حجم بالایی دارند و جزوه کلان داده‌ها به حساب می‌آیند در سال‌های اخیر روش‌های یادگیری عمیق برای کلان داده‌ها ارائه شده است. از جمله تکنیک‌های معروف آن می‌توان به شبکه‌های باور (DBN) ، شبکه عصبی پیچشی(CNN) و LSTM‌ اشاره کرد. در این سمینار قصد داریم به بررسی روش‌های مختلف داده‌کاوی به منظور شناسایی رفتار‌های ناهنجار شبکه بپردازیم.

Sajjad Alizadeh

Sajjad Alizadeh

Master Student


Thesis Title:
Review of data mining methods for fraud detection in financial data
:چکیده

تقلب در داده‌های اقتصادی یک نگرانی جدی برای سازمان‌های تجاری و افراد است. از بین انواع تقلب، تقلب از طریق کارت‌های اعتباری رایج‌ترین و پرهزینه‌ترین نوع است که نگرانی‌های جدی در سطح جهانی ایجاد کرده‌است. تقلب از طریق کارت‌های اعتباری به دو دسته کلی تقسیم می‌شود: 1- دسترسی غیرمجاز به کارت فیزیکی (مانند سرقت کارت) 2- دسترسی غیرمجاز به اطلاعات کارت اعتباری (بدون در اختیار داشتن کارت فیزیکی) اعمال بررسی‌های دستی برای شناسایی تقلب زمان‌بر و پرهزینه است. در چند سال گذشته، مطالعات زیادی با استفاده از روش‌های یادگیری ماشین برای شناسایی و جلوگیری از تراکنش‌های متقلبانه انجام شده‌است. یک سیستم کشف تقلب (FDS) ایده‌آل که بتواند تمام انواع تقلب در این حوزه را شناسایی کند، می‌بایست بر روی الگوی استفاده کاربران از کارت‌های اعتباری و رفتار کلاه‌برداران تمرکز نماید. در صورت وجود داده‌های تراکنشی بلند مدت از معاملات کاربران و کلاه‌برداران، سیستم تشخیص تقلب ما تبدیل به یک مسئله رده‌بندی دودویی می‌شود. از جمله چالش‌های شناسایی تراکنش‌های متقلبانه می‌توان به موارد زیر اشاره کرد: 1- توزیع نامتعادل تراکنش‌های متقلبانه و قانونی در مجموعه داده‌ها 2- دسترسی محدود به مجموعه داده‌ها در مطالعات گذشته (به‌دلیل محرمانگی بانکداری) 3- تفکیک‌پذیری کم بین تراکنش‌های متقلبانه و قانونی (چراکه متقلبان همواره سعی در نزدیک‌سازی رفتار خود به رفتار کاربران عادی دارند) ما در این سمینار قصد داریم به بررسی راه‌حل‌های تشخیص تقلب در داده‌های مالی بپردازیم.

Mohammad Nazari

Mohammad Nazari

Master Student


Thesis Title:
survey of topic extraction approaches from textual data
:چکیده

امروزه، با توسعه سریع فناوری اطلاعات و استفاده گسترده از آن، اینترنت به عنوان یک حامل اطلاعات، به تدریج جایگزین رسانه‌های سنتی مانند روزنامه و تلویزیون شده‌است. داده‌های تولید‌شده در اینترنت توسط افراد به‌صورت نمایی در حال افزایش است. اکنون، اینترنت با داشتن بیش از 5/4 میلیون کاربر فعال و روزانه 2،500،000 ترابایت دیتای تولیدشده، که حجم قابل توجهی از آن را متن‌ها تشکیل می‌دهند، تاثیر بسزایی در زندگی ما دارد. در مواجهه با این حجم از داده‌ها، پردازش و چگونگی استخراج اطلاعات به یک نگرانی عمومی تبدیل شده‌است. در دنیای امروز که بررسی این حجم از داده‌های متنی فراتر از توان ماست؛ استخراج موضوع متون می‌تواند راهی برای درک و مدیریت کلان‌داده‌های انباشته‌شده در اختیار ما قرار دهد. استخراج موضوع، فرایند گشت‌وگذار کاربر را نیز در این فضای پیچیده، راحت‌تر می‌کند. بنابراین یکی از چالش‌های موجود در فضای کلان‌داده طبقه‌بندی موضوعی داده‌های متنی است. فرایند استخراج موضوع، بر کشف موضوعاتی که مجموعه‌ای از اسناد به آن‌ها پرداخته‌اند متمرکز شده است، به‌طوری‌که از موضوعات تعریف‌شده انتظار می‌رود که از نظر موضوعی مشابه، منسجم و خودمحور باشند. فرایند استخراج موضوع به‌صورت دستی، امری زمانبر و خسته کننده است و با توجه به افزایش حجم و تنوع اسناد بدون برچسب در اینترنت، به امری غیرممکن برای انسان تبدیل شده‌است. بنابراین، فرایند استخراج موضوع از متن به صورت خودکار و کارآمد به امری مهم و حیاتی در دنیای اینترنت تبدیل شده‌است. علاوه بر آن، استخراج موضوع به عنوان یکی از شاخه‌های پردازش زبان‌های طبیعی و متن‌کاوی، پایه‌ی بسیاری از تحلیل‌های متنی مانند پیش‌بینی روند موضوع، استخراج افکار، خلاصه‌سازی و طبقه‌بندی متون است. از روش‌های موجود استخراج موضوع می‌توان در شخصی‌سازی و بهینه‌سازی متورهای جستجو و سیستم‌های توصیه‌گر متنی، سیستم‌های پرسش و پاسخ و شبکه‌های اجتماعی مانند توییتر و وبلاگ‌ها استفاده کرد. حتی از استخراج موضوع در شبکه‌های اجتماعی به‌عنوان هشدار دهنده فاجعه‌های طبیعی نیز استفاده می‌شود.

Mohammad Aqajani

Mohammad Aqajani

Master Student


Thesis Title:
Deep Learning Based Recommender Systems
:چکیده

با افزایش حجم اطلاعات برخط، سیستم‌های توصیه‌گر یک استراتژی موثر برای غلبه بر این اطلاعات انبوه می‌باشند. توصیه‌گرها در زمینه‌های گوناگونی مانند گردشگری و پزشکی کاربرد دارند. با آن‌که سیستم‌های توصیه‌گر کنونی پیشنهادهای خوبی ارائه می‌کنند اما هم‌چنان با چالش‌هایی هم‌چون دقت، مقیاس‌پذیری و شروع سرد مواجه هستند. افزایش حجم داده‌‌ها و افزایش قدرت محاسباتی سخت‌افزارها امکان بهره‌گیری از یادگیری عمیق برای استخراج ویژگی‌ها و روابط نهان از داده‌‌ها را فراهم کرده‌است، بنابراین یادگیری عمیق به عنوان یکی گزینه‌ها‌ی بسیار کارآمد برای حل چالش‌های یاد شده مطرح است. تحقیقات سال‌های اخیر با تکیه بر یادگیری عمیق، بهبود چشم‌گیری در دقت، کاهش ابعاد و شروع سرد سیستم‌های توصیه‌گر را نشان می‌دهند. افزون‌بر چالش‌های بیان شده، توصیه‌گرها با به‌کار گرفتن بافتار و رفتار کاربر، سعی می‌کنند پیشنهادهای دقیق‌تری با مرکزیت کاربر ارائه دهند. هم‌چنین شبکه‌های عصبی، قادر هستند بخش کوچکی از داده‌ها که مورد نیاز و توجه کاربران هستند را از میان حجم زیادی از داده‌ها، تشخیص‌دهند. برای افزایش کارایی توصیه‌گرها، محققان و شرکت‌ها به استفاده از توصیه‌گرهای میان-دامنه‌ای روی آورده‌اند، یک نمونه از توصیه‌گرهای میان-دامنه‌ای، بررسی ارتباط شبکه‌ی کاربران با داده‌های محصولات ‌شرکت‌ها می‌باشد. یادگیری عمیق با وجود داده‌های پیچیده‌ی توصیه‌گرهای میان-دامنه‌ای، قادر به ایجاد مدل‌هایی با دقت بالا است. در حال حاضر شرکت‌های برخط و کاربران آن‌ها، به پیشنهادهایی دقیق‌تر و مرتبط‌تر با شخصیت کاربران نیاز دارند. نتایج بسیار خوبی که یادگیری عمیق در حل چالش‌ها و استخراج زوایای پنهان داده‌ها تا کنون در زمینه‌های مختلف داشته‌است، امکان ارتقا و بهبود توصیه‌گرها را نیز فراهم می‌کند.

Maryam Sabahi

Maryam Sabahi

Master Student


Thesis Title:
Examining a variety of data mining methods in Predicting drug side effects
:چکیده

داروها به هدف درمان بیماري ساخته می‌شوند، با این حال بیشتر آنها هنگام درمان بیماري ممکن است اثرات منفی تحت عنوان عوارض جانبی داشته باشند. اثر جانبی کشف‌نشده براي یک داروي تاییدشده میتواند براي انسان مضر باشد و همچنین خطرات بزرگی براي یک شرکت دارویی داشته باشد . رویکردهاي متعارف براي پیشبینی اثرات جانبی در طی فرایند تولید دارو سنجش‌هاي آزمایشگاهی و حیوانی است. با این‌حال، چنین پیش‌بینی‌هاي تجربی داراي هزینه‌ي بالا و زمانبر هستند . در سال‌هاي اخیر، روش‌هاي محاسباتی بسیاري براي پیش‌بینی عوارض جانبی دارو ایجاد شده است. این روش‌ها میتوانند دامنه اثرات جانبی دارو را کاهش دهند . روش‌هاي محاسباتی موجود براي پیشبینی عوارض جانبی داروها، فرض می‌کنند که داروهاي مشابه از نظر خصوصیات شیمیایی و بیولوژیکی مانند ساختارها و اهداف آنها داراي خواص قابل مقایسه‌اند . چندین روش مبتنی بر داده‌کاوي و یادگیري ماشین براي پیش‌بینی عوارض جانبی داروها بر اساس ویژگی‌هاي مختلف از جمله ساختارهاي شیمیایی داروها، اثر متقابل دارو–پروتئین، اثر متقابل پروتئین-پروتئین، فعالیت در شبکه‌هاي متابولیکی، مسیرها، اطلاعات فنوتیپی و تفسیر ژن ارائه شده است.

Mina Tabatabaei

Mina Tabatabaei

Master Student


Thesis Title:
Examining a variety of data mining methods in Predicting effective drug combinations
:چکیده

پیشرفت‌های اخیر در زمینه ذخیره حجم زیاد داده‌های‌ مربوط به سلامت افراد به صورت الکترونیکی باعث شده است فرصت‌های جدیدی برای مطالعات دارویی ایجاد شود. یکی از جدی‌ترین نگرانی‌ها در زمینه بهداشت جهانی اثرات متقابل بین دارو‌ها است که زمانی ایجاد می‌شود که چند دارو باهم تجویز و فرد مجبور به مصرف بیش از یک دارو به صورت همزمان باشد. در این صورت تاثیرات دارو‌ها می‌تواند هم‌افزایی یا متعارض باشد. یک ترکیب دارویی در صورتی هم‌افزایی دارد که تاثیر ترکیب داروها بیشتر از مجموع تاثیر آن‌ها به صورت انفرادی باشد و در حالت عکس با یکدیگر در تعارض هستند. همان‌طور که می‌دانیم اثر دارو‌ها بریکدیگر می‌تواند شامل افزایش اثر یک دارو، کاهش اثر دارو و در مواردی باعث ایجاد اثرات جدید شود. بروز تداخل دارویی ممکن است باعث بیماری فرد و حتی در شرایطی باعث مرگ مصرف‌کننده شود بنابراین بر اساس شدت اثر راهکار‌های مختلفی همچون تذکر در برگه راهنما یا جمع‌آوری دارو از سطح بازار درنظر گرفته می‌شود. به همین دلیل توانایی پیش‌بینی این اثرات دارویی از زمینه تحقیقاتی مهم و پراهمیت است. از طرفی تحقیقات نشان داده است که ترکیب داروها در مقایسه با تجویز دارو به صورت منفرد در معالجه چندین بیماری پیچیده مانند سرطان، فشار‌خون و بیماری‌های مسری اثر بخشی بیشتر و عوارض جانبی کمتری را به‌همراه دارد و توجه محققان و شرکتهای دارویی بسیاری را به خود جلب کرده است. از طرفی شناسایی ترکیبات جدید دارویی (به عنوان مثال ترکیب دوتایی، سه‌تایی) به عنوان یک روش درمانی موثر به دلیل زیاد بودن تعداد حالات ترکیب داروها زمان‌بر و پرهزینه است و استفاده از روش‌های محاسباتی برای پیش‌بینی ترکیبات دارویی موثر باعث محدود کردن تعداد آزمایش‌های تجربی می‌شود. بنابراین مطالعه ترکیبات دارویی به وضوح یک زمینه تحقیقاتی مهم و پراهمیت است.

Fatemeh Modaber

Fatemeh Modaber

Master Student


Thesis Title:
ReputationAssessment in textual media
:چکیده

خبر محتوایی غنی و هدفمند است که با هدف مبادله اطلاعات منتخب پیرامون رویدادها و یا بیان دیدگاه‌های جوامع، گروه‌ها و اشخاص نوشته می‌شود. برای مدت طولانی اخبار از طریق روزنامه‌ها، رادیو یا تلویزیون در اختیار مخاطب قرار می‌گرفت اما ظهور تکنولوژی‌های مربوط به رسانه و افزایش تعداد کاربران اینترنت، تغییراتی اساسی در الگوی ایجاد، انتشار و مصرف اخبار به وجود آورده‌است. در نتیجه‌ی این تغییرات، اخبار آنلاین به رقیبی جدی برای نسل قبل خود -رسانه چاپی- تبدیل شده‌ و بازار آن به طور قابل توجهی در حال رشد و گسترش است. هم‌اکنون تعداد زیادی وب‌سایت خبری وجود دارد و آژانس‌های خبری،‌ اخبار خود را از طریق همین وب‌سایت‌ها به مخاطبانشان می‌رسانند. همچنین شبکه‌های اجتماعی به منبع پرطرفداری برای دریافت اخبار مبدل گشته‌اند. ویژگی‌های اخبار آنلاین چون دسترسی آسان، رایگان بودن و همچنین وجود کاربردهای متعدد در حوزه‌هایی چون اقتصاد و سیاست، باعث شده‌است که در سال‌های اخیر تحقیقات زیادی به تحلیل و استخراج اطلاعات ارزشمند از اخبار بپردازند. با وجود حجم زیاد اخبار تولیدی، سرعت زیاد به‌روزرسانی و مانع‌های زبانی، کاربران تنها بخش بسیار کمی از اخبار را دنبال می‌کنند. لذا استفاده از روش‌های اتوماتیک برای تحلیل اخبار ضروری است. اخبار آنلاین شامل محتوای متنی و در بعضی موارد غیرمتنی است، اما عمده محتوا را متن تشکیل می‌دهد. متن‌کاوی می‌تواند نقشی اساسی در تحلیل این متون و استخراج اطلاعات ارزشمند ایفا کند. همچنین استفاده از تکنیک‌های یادگیری ماشین، هوش مصنوعی، یادگیری عمیق و البته دانش روزنامه‌نگاری در تحلیل اخبار ضروری است. ما در این سمینار قصد داریم که با استفاده از تکنیک‌های متن‌کاوی به تحلیل اخبار آنلاین پرداخته و از این راه اطلاعات مفیدی استخراج کنیم.

Abstract:

News is a rich and purposeful content, written to communicate selected information on current events or reflect and form societies’, groups’ and individuals’ views of the events. For a long time news was presented to users via newspapers, television or radio but advent of media technologies and increase in the number of intenet users has made fundamental changes in the patterns of news construction, dissemination and consumption. As a result online news turned into a serious rival for its predecessor – the printed media and the market for online news is growing tremendously. Nowadays plenty of news website have been created by news agecies and social media is also becoming popular for news consumption. Easy access, low cost and applications in numerous fields including Economy and Politics made online news a valueable source for research in recent years. With great volume of created news, high velocity of updating and language barriers, users only follow a small amount of created news so it is crucial to benefit from automatic ways to analyze news. News consist of textual format and in some cases non-textual formats. Text mining can have a great role in analyzing news. Also the roles of machine learning, artificial intelligence, deep learning and knowledge of journalism in the news mining are indispensable. In this seminar we aim to use text mining techniques to analyze news and extract useful information

Zahra Akhgari

Zahra Akhgari

Master Student


Thesis Title:
Event detection in twitter using deep learning
:چکیده

در سال‌های اخیر، شبکه‌های اجتماعی به عنوان ابزاری برای به اشتراک‌گذاری موضوعات مختلف از قبیل عقاید، تجربیات، اخبار و دیدگاه‌ها شناخته شده‌اند. گاهی اوقات، کاربران شبکه‌های اجتماعی با وقوع برخی از رویدادها و اخبار در دنیای واقعی، این وقایع را در شبکه‌های اجتماعی انتشار می‌دهند. انتشار این وقایع در شبکه‌های اجتماعی، موجب می‌شود تا حجم زیادی از پیام‌ها تولید شوند که این پیام‌ها بیانگر این است که موضوع محبوبی در حال رخداد است. مقصود از محبوبیت موضوع، رایج‌بودن و گسترش‌یافتن موضوع است. شناسایی موضوعات محبوب در شبکه‌های اجتماعی، موضوعی چالش برانگیز است که توجه محققان را به خود جلب کرده‌است. شناسایی موضوعات محبوب در شبکه‌های اجتماعی، یکی از موضوعات مطرح در زمینه‌ی داده‌کاوی و متن‌کاوی است. از روش‌های متنوع شناسایی موضوعات، برای تشخیص رویدادها و اخبار نهفته در توییت‌ها استفاده می‌شود. در واقع، شناسایی موضوعات محبوب در شبکه‌های اجتماعی و شناسایی وقایع در شبکه‌های اجتماعی، موضوعاتی مشابه و هم‌راستا هستند. هدف ما در این گزارش، بیان تکنیک‌هایی است که به شناسایی وقایع در شبکه‌های اجتماعی می‌پردازند که بیشتر این تکنیک‌ها در شبکه‌ی اجتماعی توییتر انجام شده‌است. شناسایی وقایع در توییتر همراه با چالش‌هایی است که این چالش‌ها به‌علت ماهیت توییتر به وجود آمده‌اند. ما در این گزارش، انواع چالش‌ها و تعاریف مربوط به وقایع را بیان می‌کنیم. سپس مراحل اصلی شناسایی وقایع در توئیتر که شامل جمع‌آوری توییت‌ها، پیش‌پردازش آن‌ها، استخراج ویژگی‌ها، اعمال الگوریتم‌ها و تکنیک‌ها، پساپردازش خوشه‌های وقایع، خلاصه‌سازی خوشه‌ها و ارزیابی نتایج است، را بیان می‌کنیم. در ادامه، انواع دسته‌بندی تکنیک‌ها و کارهای مرتبط با آن‌ها را ذکر می‌کنیم. در نهایت، با توجه به شکاف‌های تحقیقاتی موجود، یک مدل برای شناسایی وقایع در توئیتر پیشنهاد می‌کنیم.

کلمات کلیدی:شناسایی موضوعات محبوب، تحلیل شبکه‌های اجتماعی، توییتر، شناسایی وقایع، اخبار، داده‌کاوی، متن‌کاوی.

Motahare Nasiri

Motahare Nasiri

Master Student


Thesis Title:
Predicting people personality dimensions from their textual data using deep learning algorithms
:چکیده

تعیین ابعاد شخصیتی افراد در تحقیقات روانشناختی بسیار مهم است. روانشناسان این ابعاد را از طریق پرسشنامه‌های شخصیتی کشف می‌کنند. یک روش جایگزین برای کشف ابعاد شخصیتی، تحلیل سبک نوشتاری افراد است. مشهورترین نمونه ابعاد شخصیتی، مدل پنج عاملی (Five-Factor Model (FFM)) است که شخصیت را بر اساس پنج بعد باز‌بودن برای تجربه (Openness to Experience)، وظیفه‌شناسی (Conscientiousness)، برونگرایی (Extraversion)، روان‌رنجوری (Neuroticism) و تطابق‌پذیری (Agreeableness) مدل‌سازی می‌کند. اکثر پژوهش‌های پیشین از ابزارهایی مانند LIWC برای پیش‌بینی FFM استفاده کرده‌اند. اشکال اصلی این روش‌ها داشتن کتابخانه‌ای از تعداد مشخصی کلمه است در نتیجه صحت پیش‌بینی این ابزارها به این کلمات بستگی دارد. در این پژوهش، ما روشی به نام DENOVA (یادگیری عمیق بر اساس ANOVA) را ارائه دادیم كه FFMرا با استفاده از یادگیری عمیق بر اساس تحلیل واریانس (ANOVA) واژه‌ها پیش‌بینی می‌كند. برای این منظور، ابتداDENOVA برای انتخاب موثرترین و جداکننده‌ترین کلمات، از ANOVA استفاده می‌کند. سپس، از Word2vec برای استخراج ویژگی کلمات و سرانجام، DENOVA از SVM، Logistic Regression، XGBoost و MLP برای پیش‌بینی FFMاستفاده می‌کند. نتایج این تحقیق نشان می‌دهد که DENOVA به طور متوسط، ۶.۹۱ درصد، از روش های پیشرفته پیشین در پیش‌بینی FFM با توجه به Accuracy، بهتر عمل می‌کند.

Milad Allahgholi

Milad Allahgholi

Master Student


Thesis Title:
Using deep learning to extract semantic relationships from textual data
:چکیده

امروزه در اطراف ما منابع غنی از اطلاعات متنی وجود دارد که می‌تواند در زمینه‌های مختلف کاربرد داشته باشد. علمی که به استخراج روابط و الگوهای معنادار از این داده‌های متنی می‌پردازد، متن‌کاوی نام دارد. یکی از کاربردهای متن‌کاوی در علم زیست‌شناسی است. ما در این پایان‌نامه قصد داریم به کمک چکیده مقالات زیست‌شناسی، به استخراج روابط معنایی از متن بپردازیم. به همین‌ منظور ما چکیده مقالات سایت PubMed را خزش کرده و به کمک الگوریتم Word2Vec به ساخت یک مدل معنایی از متن پرداختیم. سپس به کمک مدل ساخته‌شده روابط میان داروها را استخراج کرده و گراف دارو-دارو را ایجاد نمودیم. سپس با استفاده از گراف دارو-دارو ایجاد شده و ارائه روش‌های پیشنهادی، به استخراج تغییرکاربری داروها، پیش‌بینی تاثیرات دارویی و پیشنهاد داروی جایگزین برای تاثیرات منفی دارویی پرداختیم. همچنین ما در این پایان‌نامه به ارائه گرافی از عوارض جانبی داروها خواهیم پرداخت و به کمک آن فرضیه باهم‌آیی عوارض جانبی داروها را بررسی خواهیم نمود. نتایج ما نشان می‌دهد که روش پیشنهادی این پایان‌نامه نسبت به کارهای پیشین دقت بالاتری دارد.

کلمات کلیدی: متن‌کاوی، یادگیری عمیق، تغییر کاربری داروها، تاثیرات دارو-دارو، تاثیرات منفی دارویی، عوارض جانبی داروها

Abstract:

Today, there are rich sources of textual information around us that can be used in a variety of contexts. The process of extracting meaningful relationships and patterns from these textual data is called text mining. One of the applications of text mining is in biology. In this dissertation, we extract semantic relationships from the text with the help of biological papers' abstracts. To this end, we crawled PubMed abstracts and built a semantic model of the text using Word2Vec. Next, with the help of the constructed model, we extract the relationships between drugs and creat a drug-drug graph. Finally, we proposed a method that discovers repurposing drugs, predicts drug-drug interactions, and recommends alternatives for drugs with negative health effects. Additionally, we generate a graph of the drugs' side effects and examine the co-occurrence hypothesis of drug side effects. The experimental results show that our proposed method is more accurate than the previous ones.

Keywords: Text Mining, Deep Learning, Drug Repurposing, Drug-Drug Interactions, Negative Health Effects, Drug Side Effects

Hamed Zangooei

Hamed Zangooei

Master Student


Thesis Title:
Annotated graphs classification based on topological attributes
Mohadeseh Kaviani

Mohadeseh Kaviani

Master Student


Thesis Title:
Hashtag Recommendation using neutral network based on BERT embedding
:چکیده

امروزه شبكههار اجتماعی بسیار فراگیر شدهاند که همین امر باعث میشود تحلیك ا.فعات ثن نتایج مفید و متنوعی دربرداشمته باشمد. در بین این شمبكههار اجتماعی توئیتر یكی از مهمترین و همهگیرترین شمبكههار اجتماعی اسممت. مفهوم هشممتگ برار اولین بار در توئیتر معرفی شممد و امروزه به پرکاربردترین روش برار برچسبگذارر پیامها در شبكههار اجتماعی تبدیك شده است. هشتگها با ارار دادن عفمت "#" در ابتدار کلمه یا عبارت مش د میکنند. در وااع هشتگها نوعی دستهبندر مش د شده توس کاربر هستند که با اسمتفاده از ثن میتوان راحتتر در بین توئیتها جسمتوجو کرد. هشمتگها از اواعد زبانی پیرور نمیکنند و همچنین بسم یار کوتاه هسمتند به همین دلیك اسمت را ا.فعات از ثنها و تحلیك ثنها با روشهار بازیابی ا.فعات کف مسم یک کار دشموارر اسمت اما امروزه با اسمتفاده از ابزارهار هوش مصمنوعی و یادگیرر عمیق میتوان تحلیمكهمار گویماتر و معنمادارترر در این حوزه انجمام داد. بما اسممتفماده از هشممتمگ توئیمتهمار بمدون سماختار نیمه سماختاریافته میشموند و این موضموع تحلیكهار م تلم در شمبكه اجتماعی توئیتر را سمهولت میب مشد. به همین دلیك پیشمنهاد دادن هشمتگ در این شمبكه اجتماعی عفوه بر تشمویق کاربران به اسمتفاده از هشمتگ مناسمب فواید بسمیارر برار تحلیكگران دارد. پیشمنهاد هشمتگ به کاربرانی که اصمد اسمتفاده از هشممتگ را ندارند یا هشممتگ متناسممب با توئیت خود را نمیشممناسممند کمک میکند تا توئیت خود را در دسمتهبندر مناسمب ارار دهند. در این پووهش یک روش جدید برار پیشمنهاد هشمتگ در شمبكه اجتماعی توئیتر ارائه میدهیم. روش پیشمنهادر یک روش مبتنی بر یادگیرر عمیق و شمبكه عصمبی اسمت. در ابتدا پ از اعمال پیش پردازش رور توئیتها توئیتها و هشممتگها را با اسممتفاده از تعبیه کلمه )BERT( به بردار تبدیك میکنیم. سپ هشتگها را بر اساس بردارشان خوشهبندر میکنیم. در این روش با اعمال یک شبكه عصمبی مدلی میسمازیم که با اسمتفاده از تعبیه توئیت خوشمهار که هشمتگهار توئیت در ثن وااع میشموند را پیشبینی کند. در نهایت در خوشممه پیشبینی شممده بر اسمماس معیار شممباهت کسممینوسممی نزدیکترین و شمبیهترین هشمتگ خوشمه را به بردار توئیت یافته و به کاربر پیشمنهاد میدهیم. در این روش رواب معنایی همه کلمات و هشتگها با استفاده از تعبیه کلمه به خوبی درنظرگرفته میشوند.

کلمات کلیدی: توئیتر- پیشنهاد هشتگ- تعبیه کلمه- شبكه عصبی- شباهت کسینوسی- خوشهبندر

Abstract:

Social media like Twitter have become very popular in recent decades. Today’s hashtag concept have represented by Twitter for the first time. Hashtags on twitter creates by adding the “#” sign to the beginning of a word or phrase. Today, people use hashtags to categorize and make tweets searchable. By using hashtags, non-structured tweets become semi-structured. Hashtag recommendation helps and encourages users to find and use proper hashtags. In this paper, we propose a novel method to recommend appropriate hashtag using a neural network based on BERT embedding called EmHash. First, we extract tweet’s embedding and hashtags’ embedding. Each embedding construct with considering the concept of the tweet and the context of it. Then we cluster hashtags by their vectors. Finally, by using the neural network we build a model that learns to predict hashtag’s cluster, having the tweet’s vector. Whenever a new tweet has been written by a user, after preprocessing we convert it to a vector and give it to the model as the input to predict hashtag’s cluster. In the predicted cluster, by computing the cosine similarity between each hashtag and given tweet’s vector, we recommend the most similar hashtag to the user’s tweet.

Keywords: hashtag recommendation, neural network, deep-learning, clustering, cosine similarity, BERT embedding

Delaram Javdani

Delaram Javdani

Master Student


Thesis Title:
Examining a variety of blocking methods in Entity Resolution
:چکیده

تطبیق موجوديت به فرآيند شناسايی و ادغام رکوردهای متعلق به موجوديتهای يكتا اشاره دارد. روش استاندارد، استفاده از يک مدل مبتنی بر حانون يا مدل يادگیری ماشین، برای مقايسه و اختصاص يک امتیاز برای نشان دادن وطعیت تطبیق و عدم تطبیق جفت رکوردها است. با اين حال، انجام يک مقايسه جامع در تمام جفت رکوردها منجر به پیچیدگی تطبیق درجه دوم میشود و در نتیجه حبل از تطبیق، بلاکبندی انجام میشود تا موجوديتهای مشابه را به بلاکهای کوچک گروهبندی کند و سپس عملیات تطبیق به طور جامع انجام شود. برای بلاکبندی کارآمد و موثر مجموعه دادههای ورودی به گروههايی حابل مديريت، چندين روش بلاکبندی ارائه شده است که عموما به روشهای بلاکبندی مبتنی بر شِما، شِما آگنوستیک، روشهای پردازش بلاک و فرابلاکبندی تقسیمبندی میشوند. با اينحال عموم اين روشها هیچ معیار معنايی برای بلاکبندی رکوردها در نظر نگرفتند. روشهای مبتنی بر يادگیری عمیق از جمله روشهای تعبیه کلمات به طور خودکار شباهت معنايی و نحوی رکوردهای متنی را استخراج میکنند. در اين پژوهش يک روش کارا برای بلاکبندی در تطبیق موجوديت با استفاده از يادگیری عمیق ارائه میدهیم. روش پیشنهادی يک روش فرابلاکبندی آگاه بهمعنیاست.شباهتمعنايیرکوردهابااستفادهازروشدرهمسازیحساسبهموحعیت LSH)مبتنیبر تعبیهکلمات BERT)محاسبهمیشودتاازاينطريقبهبلاکبندیسريعوحابلاعتماددرمحیردادهدر مقیاس بزرگ برسیم. برای بهبود کیفیت بلاکهای ايجاد شده، ما يک گراف وزنی از رکوردهای معنايی مشابه ايجاد میکنیم و بر اساس وزن محاسبه شده برای يالها، يالهای گراف را هرس میکنیم. نتايج تجربی نشان دادکهروشپیشنهادی،باتوجهبهمعیارهایعمومیکیفیتجفت PQ)ومعیارFM F)برایارزيابیکیفیت بلاک، از 18 روش بلاکبندی موجود در سه منبع داده دنیای واحعی بهتر است.

کلمات کلیدی: تطبیق موجوديت، بلاکبندی، فرابلاکبندی، يادگیری عمیق، تعبیه کلمات، درهمسازی حساس به موحعیت

Abstract:

Entity resolution refers to the process of identifying and integrating records belonging to unique entities. The standard methods are using a rule-based or machine learning models to compare and assign a point, to indicate the status of matching or non-matching the pair of records. However, a comprehensive comparison across all the records pairs leads to quadratic matching complexity. Therefore blocking methods are using before the matching, to group the same entities into small blocks. Then the matching operation is done comprehensively. Several blocking methods provided to efficiently block the input data into manageable groups, which generally categorized into schema-based blocking techniques, schema-agnostic blocking techniques, block processing techniques, and meta-blocking techniques. Most of these methods typically do not consider semantic relationships among records. In this paper, we propose an efficient blocking strategy in entity resolution using deep learning. The proposed method is a semantic-aware meta-blocking approach. It considers the semantic similarity of records by applying locality-sensitive hashing (LSH) based on word embedding to achieve fast and reliable blocking in a large-scale data environment. To improve the quality of the blocks created, it builds a weighted graph of semantically similar records and prunes the graph edges. We extensively compare our proposed method with 18 existing blocking methods, using three real-world data sets. The experimental results show that our proposed method significantly outperforms all 18 methods with respect to two relevant measures, F-measure and pair-quality measure.

Keywords: Entity Resolution, Blocking, Meta-Blocking, Deep-Learning, Word Embedding, Locality- Sensitive Hashing

Paria Golshan-Rad

Paria Golshan-Rad

Master Student


Thesis Title:
An Intelligent Ensemble Classification based System for Identifying Risk Factors of Refractive Errors
:چکیده

در دادهکاوی جهت ردهبندی دادهها الگوریتمهای زیادی وجود دارد که هر یک ویژگیهای منحصر بهه فهرد خودشان را دارند. به همین دلیل در بحث ردهبندی، انتخاب الگوریتم مناسبی که بیشترین دقهت را داشهته باشد یک چالش محسوب میشود. از طرفی نمیتوان گفت برخی الگوریتمها نسبت به برخهی دیگهر برتهری دارند زیرا عملكرد و دقت الگوریتمهای مختلهف بهر روی مجموعهه دادهههای مختلهف برحسهب شرایطشهان متفاوت است. تشخیص بهترین الگوریتم ردهبندی برای هر مجموعه داده براساس مقادیر فراویژگیههای ههر مجموعه داده انجام میشود و درواقع فراویژگیها قادر هستند بین مجموعه دادهههای مختلهف تمهایز ایجهاد کنند. ازطرفی دیگر میتوان با ترکیب برخی الگوریتمها با یكدیگر عملكرد و دقت نتیجه ردهبندی را نسهبت به حالتی که الگوریتمها بهصورت انفرادی اعمال میشوند بهبود داد امها انتخهاب مناسهبتهرین مجموعهه از الگوریتمها نیز یكی از مهمترین چالشهایی است که با آن روبهرو هستیم. هدف اصلی این مطالعه ارائه سیستمی هوشمند است که قادر است مناسهبتهرین ترکیهب از الگهوریتمههای ردهبندی را برای مجموعه دادههای مختلف پیشنهاد دهد. به همین منوور ابتدا با ههدف ایجهاد تمهایز بهین مجموعه دادههای مختلف به استخراج و انتخاب مناسبترین فراویژگهیهها مهیپهردازیم. همچنهین بهتهرین ترکیب از الگوریتمها برای مجموعه دادههای آموزشی شناسایی میشوند. درنهایت به منوور معرفی بهتهرین ترکیب از الگوریتمها برای هر مجموعه داده روابط بین فراویژگیها و الگوریتمهای منتخب مورد بررسی قرار میگیرند و بنابر قواعد و روابط کشف شده هنگام مواجهه با یک مجموعه داده جدید تنها با محاسبه برخی از فراویژگیهای مجموعه داده، بهترین ترکیب از الگوریتمهای ردهبندی پیشنهاد داده خواهد شد. پس از ساخت مدل، جهت آزمایش مدل ارائه شده از تعدادی مجموعه داده جدید اسهتفاده کهردیم. یكهی از این مجموعه دادهها، مجموعه داده عیوب انكساری است. عیوب انكساری اصلاح نشده اولین علت دید کهم و دومین علت نابینایی قابل اصلاح در جهان است. استفاده از دادهکاوی در یافتن علل ابتلا به عیوب انكساری بسیار مؤثر بوده است. بنابراین در این مطالعه ضهمن اسهتفاده از مجموعهه داده عیهوب انكسهاری بههعنهوان مجموعه داده آزمایشی، قصد داریم با استفاده از روش پیشنهادی به بررسی مجموعهه داده عیهوب انكسهاری پرداخته و مهمترین عوامل مؤثر در ابتلا به عیوب انكساری را کشف و معرفی کنیم.

کلمات کلیدی: فرایادگیری، الگوریتم ترکیبي، فراویژگي، عیوب انكساری

Abstract:

There are many classification algorithms in data mining. On the other hand, it can’t be said that a special algorithm is the best, since the performance and accuracy of different algorithms differ from one set to another according to their characteristics. So classification algorithm selection is one of the most important challenges in data mining. By combining set of the algorithms, it is possible to improve the performance and accuracy of the result of the classification, as compared to each algorithm. In this study we proposed a method based on meta-learning and Ensemble methods. This method aims to reduce the selection time by automatic recommendation of the best classifier combination for a given dataset considering it’s meta-features. For evaluation, we compared the error rate of proposed method with the average error rate of individual classifiers for several unseen datasets. One of these unseen datasets is named Refractive error. Uncorrected refractive errors are the first reason of low-vision and the second cause of curable blindness in the world. Data mining can, therefore, be used as an effective method to determine the causes of refractive errors. In this study, we will introduce the risk factors of refractive errors, by applying the model presented on the refractive errors dataset.

Keywords: Meta-Learning, Ensemble Methods, Meta-Features, Refractive Errors

Amirreza Farahani

Amirreza Farahani

Master Student


Thesis Title:
Detection and discovery of risk and suspected of fraud person in financial interactions network using automated methods based on graph mining
:چکیده

امروزه با پیشرفت روزافزون فنآوری اطتعا و ارتباطا ، انسان در هر لصظه با حجم انبوهی از دادههاا مواجاه است، که اين دادههای عظیم از مناب مختلفی ازجمله کسبوکار، تعامت اجتماعی، مهندسی و غیره، استخراج میشوند. تصلیل و پردازش اين حجم از دادهها با روشهای سنتی میسر نیست و مستلزم استفاده از روشهاايی نوين است. دادهکاوی از بهترين راهكارها، جهت شناسايی الگوهای موجود در حجم زياادی از دادههاا مصساوب میشود. يكی از زمینههايی که دادهکاوی نقش مؤثری در آن ايفا میکند، کشف تقلب و مخاطرا در تعاامت (اجتماعی، اقتيادی و غیره است. مصققین با اساتفاده از ماد ها و الگوهاای حاصال از روشهاای دادهکااوی، مخاطرا موجود در اينگونه از تعامت را بهصور خودکار، کشف و شناسايی میکنند. در اين پاهوهش قياد داريم، ابتدا به معرفی و بررسی برخی از روشهای خودکار مبتنی بر دادهکاوی کاه در ساالیان اخیار باهمنظور تشخیص و کشف تقلب ارائهشدهاند بپردازيم، سپس اهمیت روشهای مبتنی بر گراف کاوی و مزايای آن را مورد بصث قرار میدهیم و در بخش انتهايی يكی از مسائل دنیای واقعی، که مربوط به اختيااص اعتباار و تشاخیص مخاطره اشخاص است را در مجموعه دادگان اعتبار آلمانی بهصور دقیقتر مورد تصلیل و بررسی قرار دهایم و به معرفی روش پیشنهادی خود، که تلفیقی از روشهای KMedoids، گرافکاوی و شبكه عيبی چندلايه اسات میپردازيم. نشان میدهیم روش نوين ارائهشده در اين پهوهش، نسبت به ديگر الگوريتمهاای ارائهشاده در ايان دامنه، در راستای پیشبینی و تشخیص مخاطره اشخاص عملكرد بهتری به نمايش میگذارد.

کلمات کلیدی:دادهکاوی، گرافکاوی، يادگیری ماشین، کشف تقلب، اعتبارسنجی

Abstract:

Nowadays with the daily development of Information Technology and Communications the man is facing a huge volume of data. These data are extracted from different resources such as business, social interaction, engineering, etc. Traditional methods are not able to analyze and process this volume of data, so the novel approaches should be used for solving this kind of problems. Data mining is one of the best approaches for detecting patterns from massive data. Fraud detection and risks discovery in interactions (Social, financial, etc.) is one the important fields in which data mining is very influencer. Researchers detect and discover risks automatically from interaction by the use of data mining models and patterns. In this research first; novel data mining fraud detection algorithms will be introduced, after that; the benefits and importance of graph mining methods will be discussed in this field. In conclusion part, one of the real world problems, which is related to credit scoring challenge and individual’s risk diagnoses in German credit datasets will be analyzed and checked in a more accurate way, and also the method of this research which is a combination of K-Medoid, graph mining and multi layer networks will be introduced in this part. The results shows that the accuracy of this method (GMLP) in types of evaluation approaches is better than other algorithms in this field.

Keywords: Data mining, Graph mining, Machine learning, Fraud Detection, Credit Scoring

Rana Mahdavi

Rana Mahdavi

Master Student


Thesis Title:
Prediction of the best methodology to treat infertile couple using data mining algorithms
:چکیده

امروزه با گسترش دانش، دادهکاوی توانسته از دادههای عظیم پزشكی استفاده کند و از میان حجم انبوهی از اين دادهها دانش مفید و الگوهای مؤثر استخراج کند، از طرفی با افزايش برخی بیماریها و پیچیدگی انتخاب روش درمان، نیاز به علوم دادهای بهوضوح حس میشود، تكنیکها و الگوريتمهای دادهکاوی نقشی مهم در به دست آوردن مدلهای پیشگو برای تشخیص و انتخاب بهترين و مؤثرترين راه درمانی دارند. از طرفی دادههای موجود در دنیای واقعی با مشكلات و چالشهای بسیاری روبهرو هستند که ممكن است در دقت الگوريتمها و کارايی آنها خلل ايجاد کند، ازاينرو بهرهگیری از روشهای مناسب و سودمند دادهکاوی نظیر الگوريتمهای ترکیبی میتواند تا اندازهای بر پیچیدگیهای دادهها فائق آيد و در پیشبینی روشهای درمان ناباروری و نرخ موفقیت روشهای درمان مؤثر باشد.

کلمات کلیدی:دادهکاوی، الگوريتمهای ترکیبی، چالشهای مجموعه داده، ناباروری، پیشبینی روش درمان

Abstract:

With the development of knowledge, Data mining has been able to use Big Data in order to produce useful patterns and effective algorithms. With the rising number of some diseases and the complexity of choosing a treatment method, there is a clear need for data science. Data mining techniques and algorithms play an important role in generating predictive models in disease diagnosis and the selection of the best and most effective treatment method. On the other hand, real-world data faces many challenges that can decrease the accuracy and the performance of these algorithms. Using appropriate and useful data mining techniques such as Ensemble methods can overcome these complexities and therefore be very useful in predicting infertility treatment methods and increasing the success rate of treatment methods.

Keywords: Data mining, Ensembles Classifier, Imperfect Data, Infertility, prediction

Hasti Kamali

Hasti Kamali

Master Student


Thesis Title:
Discovery of important nodes in the graph data of social networks using graph mining algorithms
:چکیده

یکی از مهمترین مسائل تحقیقاتی مطرح شده در زمینه شبکههای اجتماعی، مسئله شناسایی گرههای مهم است. منظور از گرههای مهم، گرههایی است که سرعت انتشار اطلاعات در شبکه را افزایش داده و یا به نوعی از قابلیت تأثیرگذاری بالایی بر روی سایر گرههای موجود در شبکه برخوردارند. مفهوم تأثیرگذاری گرهها در کاربردهای مختلف، متفاوت است. شناسایی گرههای مهم در شبکههای اجتماعی با اهداف گوناگونی صورت میگیرد. از جمله این اهداف میتوان به پیدا کردن رهبران موجود در شبکههای اجتماعی، افراد مناسب در تسریع انتشار تبلیغات و غیره، اشاره کرد. تاکنون معیارهای متفاوتی جهت شناسایی گرههای مهم معرفی شدهاند. با توجه به تنوع ساختارهای گرافی، به کارگیری هر معیار به تنهایی و بدون توجه به ساختار گراف، ممکن است ناکارآمد باشد. در شماری از پژوهشهای انجام گرفته در سالهای اخیر، ترکیبی از معیارها، جهت شناسایی گرههای مهم به کارگرفته شده است. تعیین اهمیت هر معیار در این ترکیبها به صورت دستی انجام گرفته است. در این پژوهش با بهرهگیری از علوم گرافکاوی و ژنتیک، راهکاری برای شناسایی گرههای مهم در دادههای گرافی مربوط به شبکههای اجتماعی با ساختاری نامعلوم، معرفی شده است. هدف از این پژوهش به کارگیری ترکیبی از معیارهای شناسایی گرههای مهم و ارائه راهکاری جهت وزندهی هوشمند به این ترکیب، با توجه به ساختار گراف مورد بررسی است. کارایی راهکار پیشنهادی از طریق شبیهسازی بر روی 4 شبکه جهان واقعی بررسی شده است. نتایج حاصل در مقایسه با استفاده از روشهای پیشین و همچنین وزندهی تصادفی به معیارهای موجود در ترکیب، بیانگر بهبود چشمگیری در شناسایی گرههای مهم است.

کلمات کلیدی: 1- شبکههای اجتماعی 2- شناسایی گرههای مهم 3- دادههای گرافی 4- گرافکاوی 5- الگوریتم ژنتیک

Abstract:

Nowadays, the discovery of important nodes is one of the main problems in social networks. This problem has been addressed in varied purposes, such as finding the leaders in social networks, i.e., detecting high impact people, etc. So far, several criteria have been proposed for this problem. Due to the diversity of graph structures, the application of each criterion may be inefficient without taking the graph structure into account. In a number of studies in recent years, a combination of criteria has been used in the discovery of important nodes. The main drawbacks of existing methods is determining the weight of each criterion manually. In this study, using genetic algorithm, a system called DINGA for discovery of important nodes in social networks with an unknown structure has been proposed. Our proposed system discovers the important nodes in social networks by employing a combination of eight informative criteria of important nodes and their intelligent weighting. The efficiency of the proposed solution has been investigated through simulation on four real networks. The results of this study, compared to the previous methods, as well as randomized weighting to the criteria in the combination, indicate a significant improvement in the discovery of important nodes.

Keywords: Graph Mining, Social Networks , Important Nodes, Genetic algorithm.

Elham Ashraf

Elham Ashraf

Master Student


Thesis Title:
Credit scoring of bank customers by datamining algorithms
:چکیده

أطٚظٜ ثب افعايف فبنّٝ ٔحُ ظ٘سٌی افطاز، ثب ٔطاوع اقشغبَ ٚ اضائٝ ذسٔبر ٔب٘ٙس آٔٛظـ، سفطيح، ذطيس، ؾلأز ٚ غیطٜ ٘یبظ ثٝ ؾفطٞبی ضٚظا٘ٝ افعايف يبفشٝ اؾز. ذسٔبرزٞی ثطای ايٗ حدٓ ثبلای ؾفط، ٘یبظٔٙس ثؿشطٞبی ٔٙبؾت ؾیؿشٓٞبی حُٕ ٚ٘مُ اؾز. ثب سٛخٝ ثٝ ٔحسٚزيز زض افعايف ْطفیز قجىٝ ضاٜٞب ٚ ٞٓچٙیٗ ْطفیز وٓسط سبوؿی ٚ اسٛثٛؼ ٘ؿجز ثٝ ؾیؿشٓٞبی حُٕٚ٘مُ ضيّی زضٖٚ قٟطی ٚ ٔكىلاسی ٔب٘ٙس آِٛزٌی نٛسی ٚ ٞٛا، سطافیه ؾٍٙیٗ زض ثعضٌطاٜٞب ٚ ذیبثبٖٞب ٚ ٞعيٙٝ ثبلای ا٘طغی، سٕبيُ ثیفسطی ثٝ اؾشفبزٜ اظ ؾیؿشٓٞبی ضيّی ثطلی ظيطظٔیٙی ثٝ خبی ؾبيط ؾیؿشٓٞبی حُٕٚ٘مُ ٚخٛز زاضز. ثٙبثطايٗ ٔشطٚ زض ولاٖقٟط سٟطاٖ خبيٍبٜ ٚيػٜای زاضز وٝ افعايف ویفیز ؾطٚيؽزٞی آٖ ٟٔٓ ثٝ ٘ٓط ٔیضؾس. زض سٛؾٗٝ ؾیؿشٓٞبی حُٕ ٚ٘مُ ٖٕٛٔی ٔب٘ٙس ضاٜآٞٗ قٟطی، ٖلاٜٚ ثط َطاحی ٔؿیط قجىٝ ٚ ٔىبٖ ايؿشٍبٜٞب، اضائٝ ظٔبٖثٙسی حطوز ٘بٌٚبٖ ٘یع ٔطحّٝای اظ َطاحی اؾز. خسَٚ ظٔبٖثٙسی حطوز لُبضٞب ثٝ ٖٙٛاٖ ٖبّٔی سأثیطٌصاض ثط ٔیعاٖ ضيبيز ٔكشطيبٖ، ٞعيٙٝٞبی ثٟطٜثطزاضی ٔشطٚ ٚ ٞٓچٙیٗ ؾلأز ٔحیٍ ظيؿز إٞیز زاضز ٚ زض٘شیدٝ ثٟیٙٝؾبظی ظٔب٘ی حطوبر لُبضٞب ٔٛخت افعايف ویفیز ؾطٚيؽزٞی ٔیقٛز. زض دػٚٞفٞبی ثٟیٙٝؾبظی ظٔب٘ی سبوٖٙٛ اظ سحّیُٞبی ضيبيی ٚ اٍِٛضيشٓٞبی زازٜوبٚی ثب قجیٝؾبظی ثطای سغییطار وّی زض خسَٚ ظٔب٘ی اؾشفبزٜ قسٜ اؾز، زض ايٗ دطٚغٜ زازٜٞب ثٝ قىُ خعئی ثب ٞسف يبفشٗ سفبٚرٞبی ٔٗٙبزاض ثب ؾبيط زازٜٞب ٔٛضز ثطضؾی لطاض ٔیٌیط٘س. اظ آ٘دبيیوٝ ٔسر ظٔبٖ حًٛض ٚ ا٘شٓبض زض ايؿشٍبٜ ٔشطٚ يىی اظ قبذمٞبی ٟٔٓ زض ضيبيزٔٙسی ٔؿبفطاٖ اظ ؾیؿشٓ ذسٔبسی ٔشطٚ اؾز ِصا زض ايٗ دػٚٞف زازٜٞبی ثبظٜ 6 ٔبٞٝ ؾفطٞبی سبذیطزاض زض ٔشطٚی سٟطاٖ زضيبفز اظ ؾبظٔبٖ ٔطثَٛٝ زضيبفز وطزٜ ٚ ثب اؾشفبزٜ اظ ضٚـٞبی زازٜوبٚی ٔٛضز ثطضؾی لطاض زازيٓ ٚ ثٝ سحّیُ ٚيػٌیٞبی زازٜٞب دطزاذشیٓ. دؽ اظ قٙبذز ٘ؿجی ٚيػٌیٞبی ٟٔٓ ٔدٕٖٛٝ زازٜ، اظ ضٚـ سحّیُ افشطالی خٟز قٙبؾبيی ؾفطٞبی سبذیطزاض ثب سفبٚر ٔٗٙبزاض ثب ؾبيط ؾفطٞب اؾشفبزٜ قسٜ اؾز. ثب سٛخٝ ثٝ لسضر اٍِٛضيشٓ غ٘شیه ثطای زؾزيبفشٗ ثٝ ضاٞىبض ثٟیٙٝ، ضٚقی ثب سطویت ايٗ اٍِٛضيشٓ ٚ ضٚـ سحّیُ افشطالی ثطای قٙبؾبيی ظٔبٖٞبی سأذیط ٚ ثٟیٙٝؾبظی آٖ َطاحی قسٜ اؾز ٚ ثٝ ٖٙٛاٖ ضاٜحُ دیكٟٙبزی زض ايٗ دػٚٞف اضائٝ ٔیٌطزز.

کلمات کلیدی: زازٜوبٚی، ٔدٕٖٛٝ زازٜ، ثٟیٙٝؾبظی، ٔشطٚ، ظٔبٖ سأذیط، سحّیُ افشطالی، اٍِٛضيشٓ غ٘شیه

Abstract:

Today, the need for day trips has increased with the increasing distance of people's places of residence, with employment centers and services such as education, recreation, shopping, health and so on. Serving for this high volume of travel requires proper platforms for transportation systems. Given the limitations in increasing the capacity of the road network as well as the reduced capacity of taxis and buses compared to inter-city rail transport systems and problems such as noise and air pollution, heavy traffic on highways and roads, and high energy costs, There is a greater tendency to use underground electric rail systems than other transportation systems. Therefore, the metro has a special place in the metropolis of Tehran, which seems to increase the quality of its service. In the development of public transport systems such as urban rail, in addition to the design of the network route and the location of stations, the provision of fleet scheduling is also a stage of design. Schedules of trains are important as a factor affecting customer satisfaction, subway operating costs and environmental health, thus improving the timing of trains to improve service quality. Mathematical analysis and simulation data mining algorithms have been used in temporal optimization research to simulate overall changes in the timetable. In this project, the data are examined in detail for the purpose of finding significant differences with other data. Since the time of waiting and waiting at the metro station is one of the important indicators in the satisfaction of the passengers with the metro service system, in this study the data of 6 months delayed trips to the Tehran metro were received from the relevant organization and analyzed using data mining methods. And analyzed the data properties. After relative recognition of the important features of the dataset, the discriminant analysis method was used to identify delayed trips with significant differences with other trips. Due to the power of the genetic algorithm to obtain the optimal solution, a method by combining this algorithm and a discriminant analysis method is designed to identify latencies and optimize it and is proposed as a solution in this study.

Keywords: Data Mining, DataSet, Time Optimization, Metro, Delay Time, Discriminant Analysis, Genetic Algorithm

Arezoo Zare

Arezoo Zare

Master Student


Thesis Title:
Social network semantic analysis with cognitive science approach
:چکیده

کلماتی که ما در زندگی روزمره و يا شبكههای اجفماعی اسفااده میکنیم ااكار، عواطاف و احساساات ماا را منعكس میکنند. واژهها، بهعنوان منبعی هسفند که از آنها مایتاوان بارای شاناخت بشار در روانشناسای اسفااده کرد. همچنین کلماتی که در يک زمینه مشابه بهصورت همزمان باهم اتااق میاافناد جهاتگیاری معنايی و احساسی يكسانی دارند. در سالهای اخیر تداعی واژهها نقش کلیدی در تحقیقات علاوم شاناخفی داشفه است. در اين مطالعه يک سیسفم جديدی که تارواژه نامیده میشود، طراحی و پیادهسازی میشود و اين سیسافم منجر به ايجاد يک پايگاه دادهای از واژگان تداعی شده در زبان اارسی است. اين پايگاه داده تهیه شده بارای تحلیل گراف هشفگهای توئیفر اسفااده میشود. برای جم آوری دادهها کلمات کلیدی به گروههايی طبقهبندی میشوند.3۰ کلمه به هر شرکتکننده در دو ااز جداگانه نمايش داده میشود سپس از شرکتکنندهها خواسفه میشود تا با ديدن هر کلماه، ساهکلمهای که در ابفدا به ذهنشان میرسد و مرتبط با کلمات کلیدی اولیه هسفند را بنويسند. بعد از جم آوری دادههاا تارواژه شامل 24۰ کلمه پرکاربرد اارسی و بیش از 2۰۰۰۰ پاسخ مفاااوت بارای آنهاسات. در انفهاا نفاايج بهدستآمده از شبكه تداعی واژها در زبان اارسی را با شبكه موجود در زبانهای ديگر مقايسه میکنیم. ايان مقايسه نشان میدهد برای بعضی کلمات کلیدی، بیشفر کلمات تداعی شده يكسان هسافند و بارای برخای ديگر نیز بسیاری از پاسخهای پرتكرار منحير به ارهنگ و زبان آن کشور است. بار احساسی 5۰ کلمه کلیدی منفخب تارواژه و گراف هشفگهای اين کلمات کلیدی در توئیفر از طرياق دو روش گشت تيادای و لیست کلمات همزمان اتااق اافاده هر يک، به صورت مجزا محاسبه شد و نفايج نشان داد هر کلمه در شبكه تداعی واژهها و توئیفر با وجود اينكه ممكن است کلمات مفاااوتی را در ذهان انساان تداعی نمايند اما بار احساسی يكسانی دارند. همچنین شبكه تارواژه و گراف هشفگهای توئیفر بررسی شد و با اسفااده از معیارهای مرکزيت، گرههای مهم در شبكه تداعی واژهها و گراف هشفگهای توئیفر ارائاه مای- شوند.

کلمات کلیدی: تداعي واژهها، شبكه تداعي واژهها، هشتگهای توئیتر، تحلیل احساسي

Abstract:

The words we use in everyday life or on social networks reflect our thoughts, emotions, and emotions. Words are a resource that can be used to understand human beings in psychology. Words that occur simultaneously in the same context have the same semantic and emotional orientation. In recent years, the association of words has played a key role in cognitive science research. In this study, a new system called “Tarvajeh” is designed and implemented, which results in the creation of a database of associative vocabulary in Persian. This database is used to analyze Twitter hashtags. To collect the data, the keywords are categorized into groups. 30 words are displayed to each participant in two separate phases, and then participants are asked to see each word, and write the three words that first come to mind. After data collection, Tarvajeh consisted of 240 Persian frequent words and more than 20000 different responses to them. Finally, we compare the results of the association of words in Persian with those of other languages. This comparison shows that for some keywords, most associative words are the same, and for others many of the most frequent responses are unique to that country's culture and language. The sentiment of 50 selected keywords of Tarvajeh and hashtag graph of these keywords on Twitter was calculated separately by two random patrol methods and a list of simultaneous words each occurring, and the results showed that each word in the association of words and Twitter has the same emotional sentiment, though it may sound different in the human mind. Also, Tarvajeh and Twitter hashtag graph have been reviewed and the key nodes in the Tarvajeh and Twitter hashtag graph are presented using centrality measures.

Keywords: Word Association, Word Association Network, Twitter Hashtags, Sentiment Analysis

MohammadReza Jafari

MohammadReza Jafari

Master Student


Thesis Title:
Discovering hidden relationships among drug side effect using graph mining algorithms
:چکیده

امروزه با پیشرفتهايی که در حوزهی زيستی صورت گرفتهاست، امكان مدلسازی دادههای زيستی فراهم شده است. همین امر منجر به پیدايش انواع شبكههای زيستی مانند شبكه تعاملی پروتئین-پروتئین، شبكه تعاملی دارو-پروتئین، شبكه تعاملی دارو-دارو و ... شده است. اين شبكهها بازنمايی کننده موجوديتها و روابط بین آنها هستند. به عنوان مثال در شبكه تعاملی پروتئین-پروتئین، گرهها بازنمايیکننده پروتئینها و يالها بازنمايیکننده روابط بین آنها هستند. به دلیل حجم بالای دادهها و پیچیدگیهای دادهها و پیچیدگی ساختار آنها، امكان تحلیل دستی اين شبكهها امكانپذير نیست. به همین دلیل استفاده از راهحلهای گرافکاوی به منظور تحلیل اين نوع از دادهها مورد توجه واقع شدهاست. زيرا بهکمک روشهای گرافکاوی، با استفاده از اطلاعاتی که در ساختار اين شبكهها وجود دارد و همچنین لحاظ کردن ويژگیهايی که مربوط به اين دامنهی خاق است، امكان استخراج روابط و الگوهای پنهان را برای ما فراهم میکند. هدف اصلی اين پژوهش بررسی شبكههای مختلف زيستی به منظور استخراج رابطه میان اثرات جانبی داروها ارائه شده است.

کلمات کلیدی: گرافکاوی، ردهبندی گراف، خوشهبندی، پیشبینی لبه، بیوانفورماتیک، اثرات جانبی داروها

Abstract:

Today, with the advances made in the field of biology, it is possible to model biological data. The same has led to the emergence of a variety of biological networks such as protein-protein intecraction network, drug-protein-target network, drug-drug interaction network, and so on. These networks represent the entities and relationships between them. For example, in a protein-protein interaction network, nodes and edges representing the proteins and relationships respectively. Because of the large volume of data and the complexity of them and their complex structure, it is not possible to manually analyze these networks. For this reason, the use of graph mining solutions to analyze this type of data has been considered. Because of the help of graph-mining methods, using information contained in the structure of these networks and As well as incorporating the features associated with this particular domain, it allows us to extract hidden relationships and patterns. The main objective of this study is to investigate the various biological networks in order to extract the hidden relationship among drug side effects.

Keywords: Graph mining, Clustering, Link precition, Bioinformatics, Drug side effects, Advers drug reaction