آرشیو تیر ماه 1400

اينجا قراره ياد بگيريم چطور برنامه نويسي رو شروع كنيم

معرفي ديتاست هاي عمومي و رايگان براي پروژه هاي علم داده-قسمت دوم

در پست قبل 11 ديتاست عمومي و رايگان براي اجراي الگوريتم هاي مختلف علم داده، داده كاوي و هوش مصنوعي معرفي كرديم. در ادامه در اين پست 11 مجموعه داده ديگر را باهم بررسي مي كنيم.

  1. متون گوگل

اگر به داده هاي واقعاً گسترده علاقه مند هستيد، مجموعه داده هاي گوگل فراواني كلمات و عبارات را بر اساس تعداد زيادي از منابع متني به صورت سالانه مي شمارد. حجم اين مجموعه داده حدود 2.2 ترابايت است. اگرچه استفاده از اين مورد براي يك پروژه تجسم داده ممكن است دشوار باشد ، اما يك مجموعه داده عالي براي تميز كردن داده هاست.

  1. داده هاي يونيسف

يونيسف معتبرترين منبع براي اطلاعات مربوط به زندگي كودكان در سراسر جهان است. مجموعه داده هاي عمومي اين سازمان تغذيه ، ايمن سازي و آموزش و... را شامل مي شود كه يك منبع عالي براي پروژه هاي تجسم داده است.

  1. كامنت هاي سايت رديت

سايت Reddit يك مجموعه داده بسيار جالب از هر نظري كه در اين سايت ارائه شده را منتشر كرده است. حجم اين مجموعه داده بيش از يك ترابايت است. بنابراين اگر مي خواهيد يك مجموعه داده كوچكتر براي كار كردن داشته باشيد سايت Kaggle نظرات مه 2015 را در سايت خود جمع آوري كرده است.

 

ديتاست عمومي پروژه علم داده و داده كاوي

 

  1. ويكي پديا

ويكي پديا علاوه بر پروژه هاي ديگر بنياد ويكي مديا ، دستورالعمل هايي را براي بارگيري متن مقالات انگليسي زبان ارائه مي دهد. بارگيري پايگاه داده ويكي پديا براي بازتاب و استفاده شخصي در دسترس است و حتي برنامه متن باز مخصوص به خود را دارد كه مي توانيد براي بارگيري كامل ويكي پديا در سيستم خود از گزينه هاي متنوع پردازش و تميز كردن پروژه ها استفاده كنيد.

  1. داده هاي Yelp

Yelp يك مجموعه داده رايگان براي استفاده در اهداف شخصي، آموزشي و دانشگاهي نگهداري مي كند. اين ديتاست شامل 6 ميليون بررسي است كه شامل 189000 كسب و كار در 10 منطقه شهري است. دانشجويان از مشاركت در چالش مجموعه داده هاي Yelp استقبال مي كنند و به شما گزينه هاي مختلفي براي انواع مختلف پروژه هاي داده مي دهند.

  1. داده هاي ترند گوگل

گوگل يكي از بهترين مجموعه هاي داده براي تجزيه و تحليل را داراست. شما مي توانيد مجموعه داده دلخواه خود را در قالب فايل CSV دانلود و با استفاده از نرم افزارها يا زبان هاي برنامه نويسي مختلف تجزيه و تحليل كنيد. همچنين امكان اينكه اين داده ها را بر اساس موضوع، مكان و... دسته بندي و مرتب كنيد وجود دارد.

  1. سازمان تجارت جهاني

سازمان تجارت جهاني مجموعه داده زيادي براي تجزيه و تحليل در اختيار علاقه مندان قرار مي دهد. كساني كه قصد كسب و كار در حوزه تجارت و پيش بيني هاي مربوط به آن را دارند از اين مجموعه داده استقبال زيادي مي كنند زيرا هم فرصت هاي زيادي براي ورود به علم داده فراهم مي كند هم درك افراد را از صنعت تجارت زيادتر خواهد كرد.

  1. صندوق بين المللي پول

اين سايت چندين مجموعه داده اكسل رايگان در حوزه شاخص هاي مختلف اقتصادي كليدي از توليد ناخالص داخلي تا تورم دارد. گرفتن داده ها از چندين فايل مختلف و تجميع آن ها، يك روش عالي براي تميز كردن داده ها است.

 

مجموعه داده رايگان پروژه

 

  1. اداره اطلاعات انرژيِ ايالات متحده

اين سايت داده هاي رايگان و در دسترسي در قالب فايل اكسل و google sheet از طريق افزونه و همچنين از طريق ويجت هايي كه تجسم داده هاي تعاملي را فراهم مي كنند، در اختيار افراد قرار مي دهد. اين مجموعه داده براي پروژه هاي يادگيري ماشين بسيار خوب عمل مي كند.

  1. مجموعه داده تصاوير Tensorflow (CelebA)

براي تمرين در حوزه يادگيري ماشين، به يك مجموعه داده تخصصي مانند TensorFlow نياز داريد. كتابخانه TensorFlow شامل انواع ابزارها، مدل ها و راهنماهاي يادگيري ماشين به همراه مجموعه داده هاي خود است. CelebA بسيار گسترده و به صورت آنلاين در دسترس عموم است و شامل بيش از دويست هزار تصوير مشهور است.

  1. مجموعه داده متني Tensorflow

يك مجموعه داده ديگر از كتابخانه Tensorflow به نام  Common Crawl’s Web Crawl Corpus

در بيش از 40 زبان وجود دارد. اين ديتاست داده هاي هفت سال را در بر مي گيرد و مبنعي عالي براي ارزيابي عملكرد مجموعه داده هاي يادگيري ماشين است.

معرفي ديتاست هاي عمومي و رايگان براي پروژه هاي علم داده-قسمت اول

در مسير تبديل شدن به يك دانشمند داده (data scientist) اولين قدم يافتن يك مجموعه داده مناسب براي تجزيه و تحليل داده هاست. در طول اين مسير شما بايد تصميم بگيريد مجموعه داده در چه حوزه اي نياز داريد و ميخواهيد اين مجموعه داده چقدر بزرگ و نامرتب باشد. مرحله تميز كردن داده ها (data cleaning) جزئي جدايي ناپذير از علم داده است اما ممكن است تصميم شما براي اولين پروژه ها اين باشد كه به جاي تميز كردن داده ها، روي تجزيه و تحليل آن ها تمركز كنيد.

در اين پست مجموعه داده هايي از انواع مختلف و پيچيدگي هاي گوناگون معرفي مي كنيم كه به نظر ميرسد براي پروژه هاي اول خوب كار مي كنند. اين مجموعه داده ها منابع مختلفي را پوشش مي دهند مانند داده هاي جمعيت شناختي، داده هاي اقتصادي، داده هاي متني و داده هاي شركتي

 

ديتاست مجموعه داده داده كاوي

 

  1. داده هاي سرشماري ايالات متحده

اداره سرشماري ايالات متحده مجموعه اطلاعات دموگرافيك را در سطح ايالت ، شهر و حتي كد پستي منتشر مي كند. اين مجموعه داده يك مجموعه خارق العاده براي دانشجويان علاقه مند به ايجاد تجسم داده هاي جغرافيايي است و از طريق وب سايت اداره سرشماري و همچنين از طريق API قابل دسترسي است. به طور كلي اين داده ها بسيار تميز و جامع هستند و به اين دليل كه نياز به تميز كردن دستي آن ها وجود ندارد، براي پروژه هاي تجسم داده انتخاب خوبي هستند.

 

  1. اطلاعات جرم FBI

داده هاي جرايم FBI يكي از جذاب ترين مجموعه هاي داده در اين ليست است. اگر به تجزيه و تحليل داده هاي سري زماني علاقه داريد، مي توانيد از آنها براي ترسيم تغييرات در ميزان جرم در سطح كشور طي يك دوره 20 ساله استفاده كنيد. همچنين مي توانيد از نظر جغرافيايي به داده ها نگاه كنيد.

 

  1. علت مرگ

مراكز كنترل و پيشگيري از بيماري ها يك پايگاه داده در مورد علت مرگ نگهداري مي كنند. داده ها را مي توان تقريباً از هر لحاظ تقسيم بندي كرد: سن ، نژاد ، سال و غيره. از آنجا كه اين مجموعه داده بسيار گسترده است ، استفاده از آن براي پروژه هاي پردازش داده خوب است.

 

  1. كيفيت بيمارستان ها

مركز خدمات پزشكي يك پايگاه داده در مورد كيفيت مراقبت در بيش از 4000 بيمارستان داراي گواهي مديكر در سراسر ايالات متحده را نگهداري مي كند و مقايسه هاي جالبي ارائه مي دهد. از آنجا كه اين داده ها در چندين پرونده پخش مي شود و درك كامل آن ممكن است به كمي تحقيق نياز داشته باشد، مي تواند يك پروژه تميز كردن داده ها باشد.

 

  1. داده هاي مربوط به سرطان

دولت ايالات متحده داده هايي در مورد بروز سرطان دارد كه باز هم بر اساس سن ، نژاد ، جنس ، سال و ساير عوامل تقسيم مي شود. اين مجموعه داده از برنامه نظارت ، اپيدميولوژي و نتايج نهايي موسسه ملي سرطان به دست آمده است. داده ها به سال 1975 برمي گردند و 18 پايگاه داده دارند ، بنابراين گزينه هاي زيادي براي تجزيه و تحليل خواهند داشت.

 

  1. اداره آمار كار

بسياري از شاخص هاي مهم اقتصادي براي ايالات متحده (مانند بيكاري و تورم) را مي توان در وب سايت Bureau of Statistics Statistics يافت. بيشتر داده ها را مي توان هم از نظر زمان و هم از نظر جغرافيايي تقسيم بندي و براي پروژه هاي پردازش داده و تجسم داده استفاده كرد.

 

ديتاست علم داده داده كاوي

 

  1. دفتر تحليل اقتصادي

دفتر تحليل اقتصادي داراي داده هاي اقتصادي ملي و منطقه اي از جمله توليد ناخالص داخلي و نرخ ارز است. محدوده عظيمي در گروههاي مختلف داده وجود دارد كه مي توان براساس مكان ، حساب هاي اقتصادي و موضوعات فهرست كرد. اين گروه ها در زيرمجموعه هاي حتي كوچكتر نيز سازمان يافته اند.

 

  1. اطلاعات اقتصادي صندوق بين المللي پول

چند مجموعه داده مختلف در حوزه آمار اقتصادي جهاني در سايت صندوق بين المللي پول وجود دارد كه مي توان از آن براي طيف گسترده اي از پروژه ها مانند تجسم يا حتي تميز كردن داده ها استفاده كرد.

 

  1. پيش بيني شاخص هاي سهام

پيش بيني قيمت سهام عمده ترين كاربرد تجزيه و تحليل داده ها و يادگيري ماشين است. يك مجموعه داده مرتبط براي كاوش بازده هفتگي شاخص داو جونز توسط مركز سيستم هاي يادگيري ماشين در دانشگاه كاليفرنيا منتشر شده است. اين يكي از مجموعه هايي است كه مخصوص پروژه هاي يادگيري ماشين ساخته شده است.

 

  1. داده هاي دولت انگليس

در پورتال رسمي داده هاي دولت انگليس ده ها هزار مجموعه داده در موضوعاتي مانند جرم، تحصيلات، حمل و نقل و بهداشت موجود است. از آنجا كه اين مجموعه داده يك منبع داده باز با ميليون ها ورودي است، شما قادر خواهيد بود تميز كردن داده ها را در گروه هاي مختلف تمرين كنيد.

 

ديتاست مجموعه داده رايگان عمومي

 

  1. ايميل هاي شركت آمريكايي Enron

پس از فروپاشي Enron يك مجموعه داده رايگان از تقريباً پانصد هزار ايميل با متن پيام و فراداده منتشر شد. اين مجموعه داده اكنون مشهور است و يك زمينه آزمايش عالي براي تجزيه و تحليل مرتبط با متن فراهم مي كند. همچنين مي توانيد ساير كاربردهاي تحقيقاتي اين مجموعه داده را از طريق صفحه اين شركت جستجو كنيد.