Abstract
Social networks have a large amount of data available, but often, people do not provide some of their personal data, such as age, gender, and other demographics. Although the sentiment analysis uses such data to develop useful applications in people's daily lives, there are still failures in this type of analysis, either by the restricted number of words contained in the word dictionaries or because they do not consider the most diverse parameters that can influence the sentiments in a sentence; thus, more reliable results can be obtained, if the users profile information and their writing characteristics are considered. This research suggests that one of the most relevant parameter contained in the user profile is the age group, showing that there are typical behaviors among users of the same age group, specifically, when these users write about the same topic. A detailed analysis with 7000 sentences was performed to determine which characteristics are relevant, such as, the use of punctuation, number of characters, media sharing, topics, among others; and which ones can be disregarded for the age groups classification. Different learning machine algorithms are tested for the classification of the teenager and adult age group, and the deep convolutional neural network had the best performance, reaching a precision of 0.95 in the validation tests. Furthermore, in order to validate the usefulness of the proposed model for classifying age groups, it is implemented into the enhanced sentiment metric (eSM). In the performance validation, subjective tests are performed and the eSM with the proposed model reached a root mean square error and a Pearson correlation coefficient of 0.25 and 0.94, respectively, outperforming the eSM metric, when the age group information is not available
چکیده
شبکههای اجتماعی حجم وسیعی از دادهها را در بر میگیرند، اما اغلب کاربران برخی از اطلاعات شخصی خود، مانند جنسیت، سن و برخی متغیرهای جمعیتی را به آنها ارائه نمیکنند. گرچه تجزیه و تحلیل احساسات بر روی چنین دادههایی برای تولید برنامههای کاربردی مفید است، اما در این نوع تحلیلها، به دلیل محدودیت تعداد کلمات موجود در لغتنامه و یا به دلیل پارامترهای متنوعی که وجود دارند میتوانند احساسات را در یک جمله تحت تاثیر قرار دهند؛ بنابراین، با در نظر گرفتن دادههای پروفایل کاربران و خصوصیات نوشتن آنها، میتوان نتایج قابل اعتمادتری کسب کرد. این تحقیق بیانگر یکی از مهمترین پارامترهای موجود در پروفایل کاربر، یعنی گروهسنی است که نشان دهنده رفتارهای معمول کاربران در گروههایسنی مشابه است. به ویژه، زمانی که کاربران در مورد یک موضوع خاص بنویسند. تجزیه و تحلیل دقیق با 7000 جمله انجام شده مشخص کرده که کدام ویژگیها مناسب هستند، مانند استفاده از نشانه گذاری، تعداد کاراکترها، اشتراکگذاری رسانهها، عناوین، و ...؛ و اینکه کدام یک برای طبقهبندی گروههایسنی میتوانند نادیده گرفته شوند. الگوریتمهای یادگیری مختلفی برای طبقهبندی گروههایسنی نوجوانان و بزرگسال آزمایش شدند و شبکه عصبی عمیق کانولوشن بهترین عملکرد را بدست آورد و به دقت 0.95 در آزمون اعتبار سنجی دست یافت. علاوه بر این، به منظور تنفیذ سودمندی مدل پیشنهادی، مفهوم سنجش شدت احساسات (eSM) اجرا شده است. در اعتبار سنجی کارایی، آزمونهای ذهنی انجام میشود و مدل eSM با مدل پیشنهادی به میانگین مربع خطا و ضریب همبستگی پیرسون به ترتیب 0.25 و 0.94، بالاتر از متریک eSM دست یافت، درحالی که اطلاعات گروهسنی در دسترس نبودند.
۱-مقدمه
امروزه، با استفاده مداوم از اینترنت، کاربران ساعتها در حال بازدید از سایتهای تجارت الکترونیک، خواندن اخبار و بیان نظرات و احساسات خود را در قالب کامنت در شبکههای اجتماعی در مورد موضوعات مختلف هستند. این نظرات را میتوان برای ارزیابی رضایت مشتری ارزیابی کرد که اطلاعاتی بسیار مفید برای ارائهدهندگان خدمات و تامین کنندگان محصول است. گلدسمیت و همکاران [1] رفتار افراد در استفاده از اینترنت برای تجارت الکترونیک را بررسی نموده و بر اهمیت ارزیابی رضایت مشتری در این نوع خدمات تأکید کردند....