Skip Navigation Linksلیست مقالات ترجمه شده / مقالات ترجمه شده مهندسی كامپيوتر /

عنوان ترجمه شده مقاله: مطالعه ای بر استخراج محتوا از صفحات وب مبتنی بر پیوندها

یک روش استخراج محتوا در این مقاله پیشنهاد شده است
 Abstract

Extracting main content from web page is the preprocessing of web information system. The content extraction approach based on wrapper is limited to one specific information source, and greatly depends on web page structure. It is seldom employed in practice. A new content extraction method is thus proposed in this paper, which can discover web page content according to the number of punctuations and the ratio of non-hyperlink character number to character number that hyperlinks contain. It can eliminate noise and extract main content blocks from web page effectively. Experimental results show that this approach is accurate and suitable for most web sites

چکیده

استخراج محتوای اصلی از صفحات وب پیش­ پردازش سیستم اطلاعاتی وب است. رویه­ی استخراج محتوای بر مبنای wrapper محدود به یک منبع اطلاعاتی خاص بوده و به میزان زیادی به ساختار صفحه­ی وب بستگی دارد. این رویه در عمل به ندرت به کار گرفته شده است. بنابراین یک روش استخراج محتوا در این مقاله پیشنهاد شده است، که می­ تواند محتوای صفحه­ ی وب را با توجه به تعداد نشان ­گذاری ­ها و نسبت تعداد کاراکتر های غیر ­ابر­پیوند به کاراکتر های شامل ابر­پیوند کشف نماید. این روش می ­تواند نویز و حذف نموده و محتوای اصلی صفحه وب را به خوبی از آن استخراج نمود نتایج آزمایشی نشان می­ دهند که این روش دقیق بوده و برای بسیاری از سایت­ های وب مناسب است.

1-مقدمه

جهش اینترنت باعث موفقیت بسیاری از برنامه­های کاربردی از قبیل بازیابی اطلاعات، به اشتراک­ گذاری دانش و ... شده و باعث سربار اطلاعات در همان زمان شده است. بنابراین به دست آورد اطلاعات دقیق و دانش از اینترنت به مشکل بغرنجی تبدیل شده است. استخراج اطلاعات صفحه­ ی وب محتوای صفحات نیمه­ ساخت­ یافته ­ی وب را به متن ساختار­ یافته تبدیل می ­کند، که می­ تواند به سادگی توسط کاربران مورد ­پرس­ و ­جو قرار گیرد. این روزها، استخراج محتوا از صفحه­ ی وب یک گام کلیدی برای کسب دانش و پیش ­پردازش و طرح یک بنیان خوب برای پردازش متن ­های آتی است...


موسسه ترجمه البرز اقدام به ترجمه مقاله " مهندسی فناوری اطلاعات " با موضوع " مطالعه ای بر استخراج محتوا از صفحات وب مبتنی بر پیوندها " نموده است که شما کاربر عزیز می توانید پس از دانلود رایگان مقاله انگلیسی و مطالعه ترجمه چکیده و بخشی از مقدمه مقاله، ترجمه کامل مقاله را خریداری نمایید.
عنوان ترجمه فارسی
مطالعه ای بر استخراج محتوا از صفحات وب مبتنی بر پیوندها
نویسنده/ناشر/نام مجله :
International Journal of Data Mining & Knowledge Management Process
سال انتشار
2012
کد محصول
1008024
تعداد صفحات انگليسی
8
تعداد صفحات فارسی
8
قیمت بر حسب ریال
841,500
نوع فایل های ضمیمه
Pdf+Word
حجم فایل
1 مگا بایت
تصویر پیش فرض


این مقاله ترجمه شده را با دوستان خود به اشتراک بگذارید
سایر مقالات ترجمه شده مهندسی فناوری اطلاعات , مهندسی كامپيوتر را مشاهده کنید.
کاربر عزیز، بلافاصله پس از خرید مقاله ترجمه شده مقاله ترجمه شده و با یک کلیک می توانید مقاله ترجمه شده خود را دانلود نمایید. مقاله ترجمه شده خوداقدام نمایید.
جهت خرید لینک دانلود ترجمه فارسی کلیک کنید
جستجوی پیشرفته مقالات ترجمه شده
برای کسب اطلاعات بیشتر، راهنمای فرایند خرید و دانلود محتوا را ببینید
هزینه این مقاله ترجمه شده 841500 ریال بوده که در مقایسه با هزینه ترجمه مجدد آن بسیار ناچیز است.
اگر امکان دانلود از لینک دانلود مستقیم به هر دلیل برای شما میسر نبود، کد دانلودی که از طریق ایمیل و پیامک برای شما ارسال می شود را در کادر زیر وارد نمایید


این مقاله ترجمه شده مهندسی فناوری اطلاعات در زمینه کلمات کلیدی زیر است:





content extraction
wrapper
HTML tree
web pagenoise

تاریخ انتشار در سایت: 2016-05-25
جستجوی پیشرفته مقالات ترجمه شده
نظرتان در مورد این مقاله ترجمه شده چیست؟

ثبت سفارش جدید