معرفي ديتاست هاي عمومي و رايگان براي پروژه هاي علم داده-قسمت اول

اينجا قراره ياد بگيريم چطور برنامه نويسي رو شروع كنيم

معرفي ديتاست هاي عمومي و رايگان براي پروژه هاي علم داده-قسمت اول

در مسير تبديل شدن به يك دانشمند داده (data scientist) اولين قدم يافتن يك مجموعه داده مناسب براي تجزيه و تحليل داده هاست. در طول اين مسير شما بايد تصميم بگيريد مجموعه داده در چه حوزه اي نياز داريد و ميخواهيد اين مجموعه داده چقدر بزرگ و نامرتب باشد. مرحله تميز كردن داده ها (data cleaning) جزئي جدايي ناپذير از علم داده است اما ممكن است تصميم شما براي اولين پروژه ها اين باشد كه به جاي تميز كردن داده ها، روي تجزيه و تحليل آن ها تمركز كنيد.

در اين پست مجموعه داده هايي از انواع مختلف و پيچيدگي هاي گوناگون معرفي مي كنيم كه به نظر ميرسد براي پروژه هاي اول خوب كار مي كنند. اين مجموعه داده ها منابع مختلفي را پوشش مي دهند مانند داده هاي جمعيت شناختي، داده هاي اقتصادي، داده هاي متني و داده هاي شركتي

 

ديتاست مجموعه داده داده كاوي

 

  1. داده هاي سرشماري ايالات متحده

اداره سرشماري ايالات متحده مجموعه اطلاعات دموگرافيك را در سطح ايالت ، شهر و حتي كد پستي منتشر مي كند. اين مجموعه داده يك مجموعه خارق العاده براي دانشجويان علاقه مند به ايجاد تجسم داده هاي جغرافيايي است و از طريق وب سايت اداره سرشماري و همچنين از طريق API قابل دسترسي است. به طور كلي اين داده ها بسيار تميز و جامع هستند و به اين دليل كه نياز به تميز كردن دستي آن ها وجود ندارد، براي پروژه هاي تجسم داده انتخاب خوبي هستند.

 

  1. اطلاعات جرم FBI

داده هاي جرايم FBI يكي از جذاب ترين مجموعه هاي داده در اين ليست است. اگر به تجزيه و تحليل داده هاي سري زماني علاقه داريد، مي توانيد از آنها براي ترسيم تغييرات در ميزان جرم در سطح كشور طي يك دوره 20 ساله استفاده كنيد. همچنين مي توانيد از نظر جغرافيايي به داده ها نگاه كنيد.

 

  1. علت مرگ

مراكز كنترل و پيشگيري از بيماري ها يك پايگاه داده در مورد علت مرگ نگهداري مي كنند. داده ها را مي توان تقريباً از هر لحاظ تقسيم بندي كرد: سن ، نژاد ، سال و غيره. از آنجا كه اين مجموعه داده بسيار گسترده است ، استفاده از آن براي پروژه هاي پردازش داده خوب است.

 

  1. كيفيت بيمارستان ها

مركز خدمات پزشكي يك پايگاه داده در مورد كيفيت مراقبت در بيش از 4000 بيمارستان داراي گواهي مديكر در سراسر ايالات متحده را نگهداري مي كند و مقايسه هاي جالبي ارائه مي دهد. از آنجا كه اين داده ها در چندين پرونده پخش مي شود و درك كامل آن ممكن است به كمي تحقيق نياز داشته باشد، مي تواند يك پروژه تميز كردن داده ها باشد.

 

  1. داده هاي مربوط به سرطان

دولت ايالات متحده داده هايي در مورد بروز سرطان دارد كه باز هم بر اساس سن ، نژاد ، جنس ، سال و ساير عوامل تقسيم مي شود. اين مجموعه داده از برنامه نظارت ، اپيدميولوژي و نتايج نهايي موسسه ملي سرطان به دست آمده است. داده ها به سال 1975 برمي گردند و 18 پايگاه داده دارند ، بنابراين گزينه هاي زيادي براي تجزيه و تحليل خواهند داشت.

 

  1. اداره آمار كار

بسياري از شاخص هاي مهم اقتصادي براي ايالات متحده (مانند بيكاري و تورم) را مي توان در وب سايت Bureau of Statistics Statistics يافت. بيشتر داده ها را مي توان هم از نظر زمان و هم از نظر جغرافيايي تقسيم بندي و براي پروژه هاي پردازش داده و تجسم داده استفاده كرد.

 

ديتاست علم داده داده كاوي

 

  1. دفتر تحليل اقتصادي

دفتر تحليل اقتصادي داراي داده هاي اقتصادي ملي و منطقه اي از جمله توليد ناخالص داخلي و نرخ ارز است. محدوده عظيمي در گروههاي مختلف داده وجود دارد كه مي توان براساس مكان ، حساب هاي اقتصادي و موضوعات فهرست كرد. اين گروه ها در زيرمجموعه هاي حتي كوچكتر نيز سازمان يافته اند.

 

  1. اطلاعات اقتصادي صندوق بين المللي پول

چند مجموعه داده مختلف در حوزه آمار اقتصادي جهاني در سايت صندوق بين المللي پول وجود دارد كه مي توان از آن براي طيف گسترده اي از پروژه ها مانند تجسم يا حتي تميز كردن داده ها استفاده كرد.

 

  1. پيش بيني شاخص هاي سهام

پيش بيني قيمت سهام عمده ترين كاربرد تجزيه و تحليل داده ها و يادگيري ماشين است. يك مجموعه داده مرتبط براي كاوش بازده هفتگي شاخص داو جونز توسط مركز سيستم هاي يادگيري ماشين در دانشگاه كاليفرنيا منتشر شده است. اين يكي از مجموعه هايي است كه مخصوص پروژه هاي يادگيري ماشين ساخته شده است.

 

  1. داده هاي دولت انگليس

در پورتال رسمي داده هاي دولت انگليس ده ها هزار مجموعه داده در موضوعاتي مانند جرم، تحصيلات، حمل و نقل و بهداشت موجود است. از آنجا كه اين مجموعه داده يك منبع داده باز با ميليون ها ورودي است، شما قادر خواهيد بود تميز كردن داده ها را در گروه هاي مختلف تمرين كنيد.

 

ديتاست مجموعه داده رايگان عمومي

 

  1. ايميل هاي شركت آمريكايي Enron

پس از فروپاشي Enron يك مجموعه داده رايگان از تقريباً پانصد هزار ايميل با متن پيام و فراداده منتشر شد. اين مجموعه داده اكنون مشهور است و يك زمينه آزمايش عالي براي تجزيه و تحليل مرتبط با متن فراهم مي كند. همچنين مي توانيد ساير كاربردهاي تحقيقاتي اين مجموعه داده را از طريق صفحه اين شركت جستجو كنيد.

تا كنون نظري ثبت نشده است
ارسال نظر آزاد است، اما اگر قبلا در رویا بلاگ ثبت نام کرده اید می توانید ابتدا وارد شوید.