Skip Navigation Links

عنوان ترجمه شده مقاله: SISC: یک روش طبقه بندی با استفاده از خوشه بندی زیرفضای شبه ناظر

در این مقاله، ما یک روش ناخالصی نیمه نظارتی بر پایه روش خوشه بندی نیمه نظارتی (Semi-supervised Impurity based Subspace Clustering (SISC)) در زیرمجموعه فضای ترکیب شده با روش نزدیک ترین همسایه k ام (κ-Nearest Neighbor) ارائه کرده ایم
Abstract

Text classification poses some specific challenges. One such challenge is its high dimensionality where each document (data point) contains only a small subset of them. In this paper, we propose Semi-supervised Impurity based Subspace Clustering (SISC) in conjunction with k-Nearest Neighbor approach, based on semi-supervised subspace clustering that considers the high dimensionality as well as the sparse nature of them in text data. SISC finds clusters in the subspaces of the high dimensional text data where each text document has fuzzy cluster membership. This fuzzy clustering exploits two factors - chi square statistic of the dimensions and the impurity measure within each cluster. Empirical evaluation on real world data sets reveals the effectiveness of our approach as it significantly outperforms other state-of-the-art text classification and subspace clustering algorithms.

چکیده

طبقه بندی متن (Text classification)، چالش های ویژه ای دارد. یکی از این چالش ها، تعداد ابعاد زیاد آن است، که هر سندی (نقطه داده) تنها تعداد بسیار کمی از آن ها را شامل می شود. در این مقاله، ما یک روش ناخالصی نیمه نظارتی بر پایه روش خوشه بندی نیمه نظارتی (Semi-supervised Impurity based Subspace Clustering (SISC)) در زیرمجموعه فضای ترکیب شده با روش نزدیک ترین همسایه k ام (κ-Nearest Neighbor) ارائه کرده ایم. این روش برپایه خوشه بندی نیمه نظارتی زیرفضا می باشد که ابعاد بالا را به همان اندازه ماهیت پراکنده شان در داده های متنی مورد بررسی قرار می دهد. SISC، خوشه هایی را در زیرفضاهای داده های متنی چند بعدی پیدا می کند که در آن هر سندی عضوی از یک خوشه فازی (fuzzy) است. این خوشه بندی فازی، از دو عامل استفاده می کند. آمار مجذور چی (chi square statistic) ابعاد و اندازه ناخالصی درون هر خوشه ارزیابی تجربی این روش بر روی مجموعه داده های دنیای واقعی، موثر بودن روش ما را نشان داده است. این روش، کارایی بهتری نسبت به آخرین روش های دیگر طبقه بندی متن و الگوریتم های دیگر خوشه بندی زیر فضا دارد.

1-مقدمه

داده های متنی، یک تفاوت اساسی با داده های غیرمتنی دارند. این تفاوت در ابعاد یا در ویژگی هایی که در فرایند طبقه بندی شرکت دارند، می باشد. همچنین آنها ذاتا پراکنده هستند به گونه ای که ممکن است یک سند تنها شامل تعداد کمی از ابعاد انتخابی باشد. مفهوم خوشه بندی زیرفضا، ویژگی های داده های متنی را با یکدیگر ادغام می کند. در خوشه بندی زیرفضا، به هر بعد یک وزن اختصاص داده شده­ است که بر پایه توزیع آن در تفکیک اسناد از هر دسته در یک خوشه، می باشد. بر پایه این وزن ابعاد، خوشه بندی زیرفضا این امکان را فراهم می سازد تا خوشه ها را در ابرفضای سنگین (weighted hyperspace) بیابیم [1]، و می تواند ما را در یافتن اسنادی که خوشه ها را تنها در یک زیرفضای ابعاد فرم می دهند، یاری دهد...


گروه ترجمه تخصصی البرز اقدام به ترجمه مقاله " مهندسی فناوری اطلاعات " با موضوع " SISC: یک روش طبقه بندی با استفاده از خوشه بندی زیرفضای شبه ناظر " نموده است که شما کاربر گرامی می توانید پس از دانلود رایگان مقاله انگلیسی و مطالعه ترجمه چکیده و بخشی از مقدمه مقاله، ترجمه کامل مقاله را خریداری نمایید.
عنوان ترجمه فارسی
SISC: یک روش طبقه بندی با استفاده از خوشه بندی زیرفضای شبه ناظر
نویسنده/ناشر/نام مجله :
IEEE International Conference on Data Mining Workshops
سال انتشار
2009
کد محصول
1010174
تعداد صفحات انگليسی
6
تعداد صفحات فارسی
18
قیمت بر حسب ریال
245,000
نوع فایل های ضمیمه
Pdf+Word
حجم فایل
856 کیلو بایت
تصویر پیش فرض


این مقاله ترجمه شده را با دوستان خود به اشتراک بگذارید
سایر مقالات ترجمه شده مهندسی فناوری اطلاعات , مهندسی كامپيوتر را مشاهده کنید.
کاربر گرامی، بلافاصله پس از خرید مقاله ترجمه شده مقاله ترجمه شده و با یک کلیک می توانید مقاله ترجمه شده خود را دانلود نمایید. مقاله ترجمه شده خوداقدام نمایید.
جهت خرید لینک دانلود ترجمه فارسی کلیک کنید
جستجوی پیشرفته مقالات ترجمه شده
برای کسب اطلاعات بیشتر، راهنمای فرایند خرید و دانلود محتوا را ببینید
هزینه این مقاله ترجمه شده 245000 ریال بوده که در مقایسه با هزینه ترجمه مجدد آن بسیار ناچیز است.
اگر امکان دانلود از لینک دانلود مستقیم به هر دلیل برای شما میسر نبود، کد دانلودی که از طریق ایمیل و پیامک برای شما ارسال می شود را در کادر زیر وارد نمایید


این مقاله ترجمه شده مهندسی فناوری اطلاعات در زمینه کلمات کلیدی زیر است:





SISC
Semi Supervised Subspace Clustering

تاریخ انتشار در سایت: 2017-04-04
جستجوی پیشرفته مقالات ترجمه شده
نظرتان در مورد این مقاله ترجمه شده چیست؟

ثبت سفارش جدید