خرید و دانلود مقاله ترجمه شده درباره متن کوتاه

جستجو کن

لیست مقالات ترجمه شده / خرید و دانلود

مشاهده چکیده

شما در حال خرید ترجمه فارسی مقاله A Biterm Topic Model for Short Texts هستید:

نام و نام خانوادگی:

تلفن همراه :

ایمیل :

مبلغ با احتساب مالیات بر ارزش افزوده: 2,948,000 ریال

شما در حال خرید ترجمه فارسی مقاله A Biterm Topic Model for Short Texts هستید:

پیش از اقدام به خرید ترجمه فارسی می توایند نسخه انگلیسی را به صورت رایگان دانلود و بررسی نمایید. متن چکیده و ترجمه آن در پایین همین صفحه قابل مشاهده است.

دانلود رایگان مقاله انگلیسی
پسورد: www.ir-translate.com

موسسه ترجمه البرز اقدام به ترجمه مقاله " مهندسی فناوری اطلاعات " با موضوع " یک مدل موضوعی Biterm برای متون کوتاه " نموده است که شما کاربر عزیز می توانید پس از دانلود رایگان مقاله انگلیسی و مطالعه ترجمه چکیده و بخشی از مقدمه مقاله، ترجمه کامل مقاله را خریداری نمایید.

عنوان ترجمه فارسی

یک مدل موضوعی Biterm برای متون کوتاه

نویسنده/ناشر/نام مجله :

Proceedings of the 22nd international conference on World Wide Web

سال انتشار

2013

کد محصول

1009120

تعداد صفحات انگليسی

تعداد صفحات فارسی

قیمت بر حسب ریال

2,948,000

نوع فایل های ضمیمه

Pdf+Word

حجم فایل

1 مگا بایت

عنوان مقاله انگليسی

A Biterm Topic Model for Short Texts

Abstract

Uncovering the topics within short texts, such as tweets and instant messages, has become an important task for many content analysis applications. However, directly applying conventional topic models (e.g. LDA and PLSA) on such short texts may not work well. The fundamental reason lies in that conventional topic models implicitly capture the document-level word co-occurrence patterns to reveal topics, and thus suffer from the severe data sparsity in short documents. In this paper, we propose a novel way for modeling topics in short texts, referred as biterm topic model (BTM). Specifically, in BTM we learn the topics by directly modeling the generation of word co-occurrence patterns (i.e. biterms) in the whole corpus. The major advantages of BTM are that 1) BTM explicitly models the word co-occurrence patterns to enhance the topic learning; and 2) BTM uses the aggregated patterns in the whole corpus for learning topics to solve the problem of sparse word co-occurrence patterns at document-level. We carry out extensive experiments on real-world short text collections. The results demonstrate that our approach can discover more prominent and coherent topics, and significantly outperform baseline methods on several evaluation metrics. Furthermore, we find that BTM can outperform LDA even on normal texts, showing the potential generality and wider usage of the new topic model

چکیده

کشف موضوعات در متن های کوتاه، مانند توییت ها و پیام های فوری، برای بسیاری از برنامه های کاربردی تحلیل محتوا به وظیفه مهمی تبدیل شده است. به هر حال، اعمال مستقیم مدل‌ های موضوعی معمولی (برای مثال LDA و PLSA) ممکن است خیلی خوب کار نکند. دلیل اصلی این است که مدل‌ های موضوعی معمولی به صورت ضمنی الگوهای هم رخدادی کلمه را در سطح سند، برای نشان دادن موضوع اتخاذ می کنند، و بنابراین از پراکندگی شدید داده در سند کوتاه رنج می برند. در این مقاله، راه جدیدی را برای مدلسازی موضوعی در متن های کوتاه پیشنهاد می کنیم، که به آن مدل موضوعی Biterm (BTM) می گوییم. به صورت ویژه، در BTM با مدلسازی مستقیم تولید الگو هم رخدادی کلمه (برای مثال، Biterm) در کل مجموعه، موضوعات را یاد می‌گیریم. مزیت اصلی BTM است که 1) BTM به صورت صریح الگوی هم رخدادی کلمات را برای ارتقای یادگیری موضوع مدل می کند، و 2) BTM از الگوی تجمعی در کل مجموعه برای یادگیری موضوعات برای حل مسئله الگوی هم رخدادی کلمات پراکنده در سطح سند استفاده می کند. ما آزمایشات گسترده ای را بر روی مجموعه متن های کوتاه جهان واقعی انجام دادیم. نتایج تشریح می کنند که رویکرد ما می تواند موضوعات برجسته تر و منسجم تری را کشف کند، و به طور قابل توجهی از روش‌ های مبنا در چندین متریک ارزیابی بهتر اجرا می شود. علاوه بر این، دریافتیم که BTM می تواند حتی در متن های معمولی بهتر از LDA اجرا شود، که نشان دهنده عمومیت بالقوه و استفاده گسترده تر از مدل موضوعی جدید است.

1-مقدمه

متن های کوتاه در وب، هم در وب سایت‌ های سنتی، برای مثال عناوین صفحه وب، آگهی‌ های متنی، یک عنوان تصویر، هم در رسانه اجتماعی در حال ظهور، برای مثال توییت ها، پیام های استاتوس (status)، و سوالات وب سایت Q&A، شایع هستند. کشف موضوعات در متن های کوتاه برای طیف وسیعی از وظایف تحلیل محتوا، مانند تعیین مشخصات محتوا [26,35,14]، پروفایل سازی علایق کاربر [32]، و تشخیص موضوعات در حال ظهور [20] و غیره، حیاتی است...