معرفي ديتاست هاي عمومي و رايگان براي پروژه هاي علم داده-قسمت دوم

در پست قبل 11 ديتاست عمومي و رايگان براي اجراي الگوريتم هاي مختلف علم داده، داده كاوي و هوش مصنوعي معرفي كرديم. در ادامه در اين پست 11 مجموعه داده ديگر را باهم بررسي مي كنيم.

متون گوگل

اگر به داده هاي واقعاً گسترده علاقه مند هستيد، مجموعه داده هاي گوگل فراواني كلمات و عبارات را بر اساس تعداد زيادي از منابع متني به صورت سالانه مي شمارد. حجم اين مجموعه داده حدود 2.2 ترابايت است. اگرچه استفاده از اين مورد براي يك پروژه تجسم داده ممكن است دشوار باشد ، اما يك مجموعه داده عالي براي تميز كردن داده هاست.

داده هاي يونيسف

يونيسف معتبرترين منبع براي اطلاعات مربوط به زندگي كودكان در سراسر جهان است. مجموعه داده هاي عمومي اين سازمان تغذيه ، ايمن سازي و آموزش و... را شامل مي شود كه يك منبع عالي براي پروژه هاي تجسم داده است.

كامنت هاي سايت رديت

سايت Reddit يك مجموعه داده بسيار جالب از هر نظري كه در اين سايت ارائه شده را منتشر كرده است. حجم اين مجموعه داده بيش از يك ترابايت است. بنابراين اگر مي خواهيد يك مجموعه داده كوچكتر براي كار كردن داشته باشيد سايت Kaggle نظرات مه 2015 را در سايت خود جمع آوري كرده است.

ديتاست عمومي پروژه علم داده و داده كاوي

ويكي پديا

ويكي پديا علاوه بر پروژه هاي ديگر بنياد ويكي مديا ، دستورالعمل هايي را براي بارگيري متن مقالات انگليسي زبان ارائه مي دهد. بارگيري پايگاه داده ويكي پديا براي بازتاب و استفاده شخصي در دسترس است و حتي برنامه متن باز مخصوص به خود را دارد كه مي توانيد براي بارگيري كامل ويكي پديا در سيستم خود از گزينه هاي متنوع پردازش و تميز كردن پروژه ها استفاده كنيد.

داده هاي Yelp

Yelp يك مجموعه داده رايگان براي استفاده در اهداف شخصي، آموزشي و دانشگاهي نگهداري مي كند. اين ديتاست شامل 6 ميليون بررسي است كه شامل 189000 كسب و كار در 10 منطقه شهري است. دانشجويان از مشاركت در چالش مجموعه داده هاي Yelp استقبال مي كنند و به شما گزينه هاي مختلفي براي انواع مختلف پروژه هاي داده مي دهند.

داده هاي ترند گوگل

گوگل يكي از بهترين مجموعه هاي داده براي تجزيه و تحليل را داراست. شما مي توانيد مجموعه داده دلخواه خود را در قالب فايل CSV دانلود و با استفاده از نرم افزارها يا زبان هاي برنامه نويسي مختلف تجزيه و تحليل كنيد. همچنين امكان اينكه اين داده ها را بر اساس موضوع، مكان و... دسته بندي و مرتب كنيد وجود دارد.

سازمان تجارت جهاني

سازمان تجارت جهاني مجموعه داده زيادي براي تجزيه و تحليل در اختيار علاقه مندان قرار مي دهد. كساني كه قصد كسب و كار در حوزه تجارت و پيش بيني هاي مربوط به آن را دارند از اين مجموعه داده استقبال زيادي مي كنند زيرا هم فرصت هاي زيادي براي ورود به علم داده فراهم مي كند هم درك افراد را از صنعت تجارت زيادتر خواهد كرد.

صندوق بين المللي پول

اين سايت چندين مجموعه داده اكسل رايگان در حوزه شاخص هاي مختلف اقتصادي كليدي از توليد ناخالص داخلي تا تورم دارد. گرفتن داده ها از چندين فايل مختلف و تجميع آن ها، يك روش عالي براي تميز كردن داده ها است.

مجموعه داده رايگان پروژه

اداره اطلاعات انرژيِ ايالات متحده

اين سايت داده هاي رايگان و در دسترسي در قالب فايل اكسل و google sheet از طريق افزونه و همچنين از طريق ويجت هايي كه تجسم داده هاي تعاملي را فراهم مي كنند، در اختيار افراد قرار مي دهد. اين مجموعه داده براي پروژه هاي يادگيري ماشين بسيار خوب عمل مي كند.

مجموعه داده تصاوير Tensorflow (CelebA)

براي تمرين در حوزه يادگيري ماشين، به يك مجموعه داده تخصصي مانند TensorFlow نياز داريد. كتابخانه TensorFlow شامل انواع ابزارها، مدل ها و راهنماهاي يادگيري ماشين به همراه مجموعه داده هاي خود است. CelebA بسيار گسترده و به صورت آنلاين در دسترس عموم است و شامل بيش از دويست هزار تصوير مشهور است.

مجموعه داده متني Tensorflow

يك مجموعه داده ديگر از كتابخانه Tensorflow به نام Common Crawl’s Web Crawl Corpus

در بيش از 40 زبان وجود دارد. اين ديتاست داده هاي هفت سال را در بر مي گيرد و مبنعي عالي براي ارزيابي عملكرد مجموعه داده هاي يادگيري ماشين است.

برچسب ها: ديتاست, مجموعه داده, داده كاوي, پروژه علم داده,

مهندس توكلي
چهارشنبه ۲۳ تیر ۰۰ ۱۲:۱۸ ۱۲ بازديد
۰ نظر

معرفي ديتاست هاي عمومي و رايگان براي پروژه هاي علم داده-قسمت دوم

اينجا قراره ياد بگيريم چطور برنامه نويسي رو شروع كنيم