شرح خبر
عمر یک رتبه‌بندی (۱۳۹۱/۰۶/۳۱)

هر وقت که از موتور جستجوی گوگل استفاده می کنیم، معاملات خود را در آمازون انجام می دهیم یا محققی را با سنجش ارجاعی مثل h-index ارزیابی می کنیم، تلاش می کنیم تا با رتبه بندی به مجموعه داده های بزرگ و پیچیده نظم دهیم. اگر سازوکار این رتبه بندی ها را به طور کامل دریابیم، در تصمیم گیری بسیار بهتر عمل خواهیم کرد. آیا می توان به یک رتبه بندی اعتماد کرد و اقلامی با بهترین کیفیت را برگزید؟ آیا اقلام بی کیفیت نیز می توانند به صدر رتبه بندی ها بیایند؟ آیا رتبه بندی ها همیشه اقلام ارزشمند را فهرست می کنند؟ بعضی از رتبه بندی ها مثل تعداد ارجاعات یک دانشمند، پایداری زیادی دارند؛ مثلا باید تلاش بسیاری کرد تا فردی جایگزین اینشتین و داروین شود. بعضی دیگر از رتبه بندی ها مثل فهرست های پرفروش، سرشت فرّاری دارند و حتی روزانه تغییر می کنند. چرا چنین رفتار متفاوتی بین رتبه بندی ها دیده می شود؟ نیکولاس بلوم[1] از دانشگاه نورث ایسترن و موسسه سرطان دانا-فاربر، در بوستون، ماساچوست و همکارانش، مقاله ای را در فیزیکال ریویو لترز به چاپ رسانده اند که به نوسانات چندین رتبه بندی مشهور می پردازد(1) در تحلیل آن ها، نظریه ای واحد درباره پایداری رتبه بندی به دست آمده است.


این پژوهشگران از نظریات مکانیک آماری برای توضیح ویژگی های رتبه بندی های مشهور استفاده کردند. معمولا رتبه بندی ها را با توابع توزیع توصیف می کنند؛ این توابع نشان می دهند که هر عنوان با چه احتمالی نسبت به پارامترهای کلیدی سامانه، در جایگاه خاصی قرار می گیرد(2). مثلا، زبانشناس آمریکایی جورج کینگسلی زیف[2] مشاهده کرد که رتبه کاربرد یک واژه با تقریب خوبی به طور معکوس متناسب با بسامد آن واژه است(3): متداول ترین واژه دو برابر دومین واژه متداول کاربرد دارد، سه برابر سومین واژه متداول و الی آخر. این مقیاس بندی در همه زبان ها وجود دارد و زیف(3) و بعضی دیگر از پژوهشگران(4) آن را بر اساس اصل کمترین تلاش تعبیر کرده اند: به حداقل رساندن تلاش برای شنونده و گوینده در مکالمات باعث قانون توزیع زیف شکل می شود. این قانون یکی از مشخصه های سازوکارهای موثر است که زبان انسانی را می سازند. قوانین مقیاس بندی مشابهی در دیگر رتبه بندی های غیر مرتبط به زبان دیده شده اند؛ مانند توزیع درآمدی توسط ولیفردو پارتو[5] که اشاره کرد سهم کوچمی از جمعیت بخش بزرگ ثروت را تصاحب می کنند. ضریب قانون توانی پارتو اغلب نشانگر نابرابری یک جامعه است. این مثال ها نشان می دهد که چگونه تحلیل آماری می تواند سازوکارهای عمیق و گاهی پنهان رتبه بندی ها را آشکار کند.

بلوم و همکاران به ورای توصیف توابع توزیع رتبه بندی رفتند و تلاش کردند به این سوال پاسخ دهند: چه چیزی پایداری زمانی آن ها را توضیح می دهد؟ نویسندگان با تحلیل شش رتبه بندی برجسته، به دنبال قانون مشترکی بودند که دینامیک رتبه بندی ها را تنظیم می کند: استفاده از واژه های تنها در مقالات منتشرشده، بازیدهای ساعتی در ویکی پدیا، بسامد کلیدواژه هایی خاص در توییتر، ارزش بازار روزانه شرکت ها، تعداد ثبت شده تشخیص های یک بیماری و تعداد ارجاعات مقالات در مجموعه فیزیکال ریویو. هر سامانه رتبه بندی برای امتیازی دهی به عناوین سازوکار متفاوتی دارد. رتبه هر عنوان خاص با مقایسه امتیاز آن با دیگر اقلام به دست می آید. بنابراین رتبه میزانی جمعی است یعنی هم به امتیاز آن عنوان بستگی دارد و هم به این که چه اتفاقی برای بقیه عناوین می افتد.

نویسندگان مشاهده کردند که پایداری رتبه عنوان به افت و خیزهای امتیاز حول مقدار متوسط آن بستگی دارد. عنوانی که در مکان خاص r رتبه بندی می شود، پایدار است اگر امتیاز آن کمتر از شکاف امتیازی بین اقلام کناری خود یعنی r±1 نوسان کند. بلوم و همکارانش از معادله آماری جهانی(معادله لنژوین) استفاده کردند تا دینامیک امتیاز را توضیح دهند. این معادله می تواند ارزیابی سامانه را تحت عمل همزمان نیروهای تعینی و آماری توصیف کند. نویسندگان فرض می کنند که جملات تعینی و آماری را می توان با توابع توانی از امتیازعنوان نشان داد و آن ها را با سری از ثوابت Ai و B وزن دهی کرد. ثابت A «تناسب» هر عنوان را نشان می دهد یعنی شایستگی آن برای افزایش امتیازش. برای مثال، در رسانه های اجتماعی، A توانایی پیدا کردن دوست های جدید و یا در انتشار، ظرفیت یک مقاله برای کسب ارجاعات جدید است. B، نویز تصادفی گاوسی را مدل که نوسانات امتیاز آماری را تعیین می کند. برای این شش رتبه بندی بررسی شده، نویسندگان مقادیر تجربی A و B را با برازش داده های تاریخی به دست آورده اند.

کارکرد متقابل این دو وزن رتبه و مهمتر از آن پایداری یک عنوان را تعیین می کند. نویسندگان این احتمال را محاسبه کردند که عنوانی خاص با تناسب A امتیاز خاص x را در زمانی خاص داشته باشد. با این فرض که سامانه به جوابی پایدار برسد، آن ها فهمیدند که محتمل ترین امتیاز به مقادیر نسبی تناسب ها در مقایسه با تناسب دیگر اقلام بستگی دارد. اثر نویز در این است که یاعث می شود امتیاز با یک مقدار خاص نوسان کند. نتیجه نسبت به مقدار پارامتر نویز B بسیار حساس است. اگر نویز کمتر از مقدار بحرانی خاصی Bc باشد، امتیاز حول مقدار اصلی جایگزیده می شود. اگر نویز بزرگتر از Bc باشد، پاسخ دیگر پایدار نیست. چون پایداری امتیاز ضرورتا نشان دهنده پایداری امتیاز نیست، دو رفتار متمایز در زیر Bc دیده می شود. برای نویز بین Bc و مقدار خاص Br، هر عنوان امتیازی پایدار دارد اما نوسانات برای عناوینی با امتیاز قابل مقایسه، کافی است تا رتبه بندی آن ها جابجا شود. در زیر Br، هم رتبه و هم امتیاز پایدار است. بلوم و همکاران نشان می دهند که نوسانات رتبه بندی در نمودار فاز در صفحه A-B مشهود هستند(شکل 1). در این نمودار، ویژگی های پایداری رتبه بندی به عنوان تابعی از دو پارامتر A و B رسم می شود. مشابه فازهای کلاسیکی مکانیک آماری، سه فاز قابل تخیص است: رتبه بندی و امتیاز پایدار هستند(جامد)، تنها امتیاز پایدار است(مایع) و نوسانات(گاز). گذار بین رفتارهای متفاوت در نوسانات رتبه بندی را می توان به شکل گذارهای فازی توصیف کرد که در آن ها نویز تصادفی(B) پارامتر کنترلی است.

نویسندگان با در نظر گرفتن دینامیک رتبه بندی برای پنج عنوان برتر هر شش مثال، اعتبار این روش را سنجیدند. در دیاگرام A-B، می توان هر سامانه حقیقی را با خطی نشان داد که متناظر با مقدار اندازه گیری شده برای B است(شکل 1). تشخیص بیماری ها، کاربرد واژه ها و سرمایه بازار در بخش پایداری رتبه هستند که در آن ها اقلام رتبه بندی شده باید رتبه پایداری داشته باشند و این پیش بینی با نتایج تجربی موافق است. برعکس، کلیدواژه های توییتر و صفحات ویکی پدیا در فاز ناپایدار هستند، با حساسیت بالا در هر دو زمینه رتبه و امتیاز. در نهایت، ارجاعات فیزیکال ریویو در فاز شبه مایع(امتیاز پایدار) قرار دارد: امتیاز حول یک میانگین خوش تعریف افت و خیز دارد اما این موضوع برای حفظ پایداری رتبه کافی نیست.

کار بلوم و همکاران سهمی جدید در مطالعه رتبه‌بندی در سیستم های اجتماعی و اقتصادی بازی می کند و نظریه ای جهانی و ناوردای مقیاس ارایه می دهد که دینامیک رتبه‌بندی های متفاوت را با ویژگی های کاملا گوناگون داراست. اکثر این تفاوت ها را می توان به گذار فازی نسبت داد که با شدت نویز آماری کنترل می شود. می توان نتیجه گرفت که طبیعت زودگذر رسانه های اجتماعی مدرن مانند توییتر یا ویکی پدیا در مقایسه با کاربرد واژه ها در ادبیات انگلیسی، باعث می شود که این رتبه‌بندی ها نویز بیشتری داشته باشند. مطالعات بیشتری باید انجام شود تا منشا نوسان نویز را در رتبه بندی کشف کرد. جهت مهم دیگر برای پژوهش، تعمیم به نویز همبسته(در سامانه های حیاتی واقعی، افت و خیزهای رتبه بندی در نهایت متقابلا وابسته هستند).

باید دوباره مطمئن شویم که داروین و اینشتین در صدر رتبه بندی علمی باقی می مانند؟ البته از دید فیزیکدانان آماری، در جهان پر وسواس ما به رتبه بندی ها، یک نوسان کوچک(یا کمی شانس) تمام چیزی است که یک فرد عادی را به شماره یک تبدیل می کند.

 

مراجع:

1.     N. Blumm, G. Ghoshal, Z. Forró, M. Schich, G. Bianconi, J-P. Bouchaud, and A-L. Barabási, ”Dynamics of Ranking Processes in Complex Systems,” Phys. Rev. Lett. 109, 128701 (2012).

2.     M. Mitzenmacher, “A Brief History of Generative Models for Power Law and Lognormal Distributions,” Internet Math. 1, 226 (2004).

3.     G. K. Zipf, Human Behavior and the Principle of Least Effort (Addison-Wesley, Cambridge, 1949).

4.     R. Ferrer i Cancho and R. V. Solé, “Least effort and the origins of scaling in human language,” Proc. Natl. Acad. Sci. U.S.A. 100, 788 (2003).

5.     V. Pareto, Cours d’Économie Politique (Librairie Droz, Geneva, 1896).

منابع:

Viewpoint: The Longevity of Rankings, Guido Caldarelli, APS News, 17 September 2012, link.



[1] Nicholas Blumm

[2] George Kingsley Zipf



نویسنده خبر: مهدی سجادی
کد خبر :‌ 607

آمار بازدید: ۳۴۷
همرسانی این خبر را با دوستان‌تان به اشتراک بگذارید:
«استفاده از اخبار انجمن فیزیک ایران و انتشار آنها، به شرط
ارجاع دقیق و مناسب به خبرنامه‌ی انجمن بلا مانع است.»‌


صفحه انجمن فیزیک ایران را دنبال کنید




حامیان انجمن فیزیک ایران   (به حامیان انجمن بپیوندید)
  • پژوهشگاه دانش‌های بنیادی
  • دانشگاه صنعتی شریف
  • دانشکده فیزیک دانشگاه تهران

کلیه حقوق مربوط به محتویات این سایت محفوظ و متعلق به انجمن فیریک ایران می‌باشد.
Server: Iran (45.82.138.40)

www.irandg.com