Skip Navigation Linksلیست مقالات ترجمه شده / مقالات ترجمه شده مهندسی كامپيوتر /

عنوان ترجمه شده مقاله: یک مدل موضوعی Biterm برای متون کوتاه

کشف موضوعات در متن‌های کوتاه، مانند توییت‌ها و پیام‌های فوری، برای بسیاری از برنامه‌های کاربردی تحلیل محتوا به وظیفه مهمی تبدیل شده است
Abstract

Uncovering the topics within short texts, such as tweets and instant messages, has become an important task for many content analysis applications. However, directly applying conventional topic models (e.g. LDA and PLSA) on such short texts may not work well. The fundamental reason lies in that conventional topic models implicitly capture the document-level word co-occurrence patterns to reveal topics, and thus suffer from the severe data sparsity in short documents. In this paper, we propose a novel way for modeling topics in short texts, referred as biterm topic model (BTM). Specifically, in BTM we learn the topics by directly modeling the generation of word co-occurrence patterns (i.e. biterms) in the whole corpus. The major advantages of BTM are that 1) BTM explicitly models the word co-occurrence patterns to enhance the topic learning; and 2) BTM uses the aggregated patterns in the whole corpus for learning topics to solve the problem of sparse word co-occurrence patterns at document-level. We carry out extensive experiments on real-world short text collections. The results demonstrate that our approach can discover more prominent and coherent topics, and significantly outperform baseline methods on several evaluation metrics. Furthermore, we find that BTM can outperform LDA even on normal texts, showing the potential generality and wider usage of the new topic model

چکیده

کشف موضوعات در متن های کوتاه، مانند توییت ها و پیام های فوری، برای بسیاری از برنامه های کاربردی تحلیل محتوا به وظیفه مهمی تبدیل شده است. به هر حال، اعمال مستقیم مدل‌ های موضوعی معمولی (برای مثال LDA و PLSA) ممکن است خیلی خوب کار نکند. دلیل اصلی این است که مدل‌ های موضوعی معمولی به صورت ضمنی الگوهای هم رخدادی کلمه را در سطح سند، برای نشان دادن موضوع اتخاذ می کنند، و بنابراین از پراکندگی شدید داده در سند کوتاه رنج می برند. در این مقاله، راه جدیدی را برای مدلسازی موضوعی در متن های کوتاه پیشنهاد می کنیم، که به آن مدل موضوعی Biterm (BTM) می گوییم. به صورت ویژه، در BTM با مدلسازی مستقیم تولید الگو هم رخدادی کلمه (برای مثال، Biterm) در کل مجموعه، موضوعات را یاد می‌گیریم. مزیت اصلی BTM است که 1) BTM به صورت صریح الگوی هم رخدادی کلمات را برای ارتقای یادگیری موضوع مدل می کند، و 2) BTM از الگوی تجمعی در کل مجموعه برای یادگیری موضوعات برای حل مسئله الگوی هم رخدادی کلمات پراکنده در سطح سند استفاده می کند. ما آزمایشات گسترده ای را بر روی مجموعه متن های کوتاه جهان واقعی انجام دادیم. نتایج تشریح می کنند که رویکرد ما می تواند موضوعات برجسته تر و منسجم تری را کشف کند، و به طور قابل توجهی از روش‌ های مبنا در چندین متریک ارزیابی بهتر اجرا می شود. علاوه بر این، دریافتیم که BTM می تواند حتی در متن های معمولی بهتر از LDA اجرا شود، که نشان دهنده عمومیت بالقوه و استفاده گسترده تر از مدل موضوعی جدید است.

1-مقدمه

متن های کوتاه در وب، هم در وب سایت‌ های سنتی، برای مثال عناوین صفحه وب، آگهی‌ های متنی، یک عنوان تصویر، هم در رسانه اجتماعی در حال ظهور، برای مثال توییت ها، پیام های استاتوس (status)، و سوالات وب سایت Q&A، شایع هستند. کشف موضوعات در متن های کوتاه برای طیف وسیعی از وظایف تحلیل محتوا، مانند تعیین مشخصات محتوا [26,35,14]، پروفایل سازی علایق کاربر [32]، و تشخیص موضوعات در حال ظهور [20] و غیره، حیاتی است...


موسسه ترجمه البرز اقدام به ترجمه مقاله " مهندسی فناوری اطلاعات " با موضوع " یک مدل موضوعی Biterm برای متون کوتاه " نموده است که شما کاربر عزیز می توانید پس از دانلود رایگان مقاله انگلیسی و مطالعه ترجمه چکیده و بخشی از مقدمه مقاله، ترجمه کامل مقاله را خریداری نمایید.
عنوان ترجمه فارسی
یک مدل موضوعی Biterm برای متون کوتاه
نویسنده/ناشر/نام مجله :
Proceedings of the 22nd international conference on World Wide Web
سال انتشار
2013
کد محصول
1009120
تعداد صفحات انگليسی
11
تعداد صفحات فارسی
29
قیمت بر حسب ریال
970,000
نوع فایل های ضمیمه
Pdf+Word
حجم فایل
1 مگا بایت
تصویر پیش فرض


این مقاله ترجمه شده را با دوستان خود به اشتراک بگذارید
سایر مقالات ترجمه شده مهندسی فناوری اطلاعات , مهندسی كامپيوتر را مشاهده کنید.
کاربر عزیز، بلافاصله پس از خرید مقاله ترجمه شده مقاله ترجمه شده و با یک کلیک می توانید مقاله ترجمه شده خود را دانلود نمایید. مقاله ترجمه شده خوداقدام نمایید.
جهت خرید لینک دانلود ترجمه فارسی کلیک کنید
جستجوی پیشرفته مقالات ترجمه شده
برای کسب اطلاعات بیشتر، راهنمای فرایند خرید و دانلود محتوا را ببینید
هزینه این مقاله ترجمه شده 970000 ریال بوده که در مقایسه با هزینه ترجمه مجدد آن بسیار ناچیز است.
اگر امکان دانلود از لینک دانلود مستقیم به هر دلیل برای شما میسر نبود، کد دانلودی که از طریق ایمیل و پیامک برای شما ارسال می شود را در کادر زیر وارد نمایید


این مقاله ترجمه شده مهندسی فناوری اطلاعات در زمینه کلمات کلیدی زیر است:




Short Text
Topic Model
Biterm

تاریخ انتشار در سایت: 2016-10-24
جستجوی پیشرفته مقالات ترجمه شده
نظرتان در مورد این مقاله ترجمه شده چیست؟

ثبت سفارش جدید