Abstract
Because of large amounts of unstructured text data generated on the Internet, text mining is believed to have high commercial value. Text mining is the process of extracting previously unknown, understandable, potential and practical patterns or knowledge from the collection of text data. This paper introduces the research status of text mining. Then several general models are described to know text mining in the overall perspective. At last we classify text mining work as text categorization, text clustering, association rule extraction and trend analysis according to applications
چکیده
در اثر حجم زیاد داده های بدون ساختار متن در اینترنت، داده کاوی ارزش تجاری زیادی دارد. فرایند استخراج الگوها یا دانشی که از قبل ناشناخته، قابل فهم، بالقوه و عملی بوده از مجموعه ای از داده های متن را متن کاوی گویند. این مقاله وضعیت تحقیقاتی داده کاوی را ارائه می دهد. سپس چندین مدل کلی جهت شناسایی متن کاوی در چشم اندازی کلی توصیف می شود. سرانجام کار متن کاوی به عنوان دسته بندی متن، خوشه بندی متن، استخراج قانون وابستگی و آنالیز روند طبق موارد کاربردی طبقه بندی می شود.
1-مقدمه
با توسعه سریع تکنولوژی اطلاعات و کاربرد وسیع شبکه، اینترنت به تدریج به یکی از بخش های ضروری زندگی مردم بدل شده است. صفحات وب و سایت های شبکه اجتماعی مقادیر زیادی از داده های ساختارنیافته متن از قبیل بلوگ ها، پست های فروم، مستندات تکنیکی و .... را ایجاد می کنند. این داده ها- حاوی حجم زیادی از اطلاعات - به صورت حسی بیانگر رفتار و افکار مردم می باشد و بررسی آن به علت تعداد زیاد و اشکال مختلفی که دارد، کاری بسیار دشوار به نظر می رسد. اما تقاضای آنالیز داده های متن در حال افزایش است. از اینرو، نحوه ی دسترسی به اطلاعات مورد نیاز افراد ازطریق تعداد زیادی از داده های ساختارنیافته متن به یکی از نقاط حساس و داغ تحقیقاتی در رشته داده کاوی و اطلاعات بدل شده است. متن کاوی نیز از جمله موضوعات تحقیقاتی محسوب می شود...