مفاهیم پایگاه داده و dplyr

فهرست مطلب

در این مقاله با شما هستیم با تعریف و توضیح مفاهیم پایگاه داده و dplyr پس تا انتهای این مطلب همانند همیشه حتما ما را دنبال کنید!

خلاصه

قرار گرفتن زودهنگام در معرض مهارت های علم داده، مانند پایگاه های داده رابطه ای، برای دانش آموزان در آمار و همچنین بسیاری از رشته های دیگر در جامعه ای که به طور فزاینده ای مبتنی بر داده است، ضروری است. هدف آموزش ارائه شده آشنایی دانشجویان مقطع کارشناسی با مفاهیم بنیادی پایگاه داده و روشن کردن ارتباط بین این مفاهیم پایگاه داده و عملکرد ارائه شده توسط بسته dplyr برای R است. به طور خاص، دانشجویان با مفاهیم پایگاه داده رابطه ای با استفاده از تجسم هایی که به طور خاص طراحی شده اند آشنا می شوند. برای دانش آموزانی که هیچ پیشینه علم داده یا محاسباتی ندارند. این ابزارهای آموزشی که به صورت رایگان در وب در دسترس هستند، دانش‌آموزان را از طریق ارائه پویا که به آرامی پایگاه‌های اطلاعاتی رابطه‌ای و نحوه پرسیدن سؤال از داده‌های ذخیره شده در پایگاه داده رابطه‌ای را معرفی می‌کند، درگیر فرآیند یادگیری می‌کند. تجسم‌ها به‌طور خاص برای خودآموزی توسط دانش‌آموزان، از جمله ویژگی خودارزیابی تکوینی طراحی شده‌اند. سپس به دانش آموزان یک درس آمار مربوطه اختصاص داده می شود تا از نرم افزار آماری در R در چارچوب dplyr استفاده کنند و بر نیاز به این مهارت های پایگاه داده تأکید کنند. این مقاله یک تجربه آزمایشی از معرفی این آموزش در یک دوره آمار مقدماتی مبتنی بر حساب دیفرانسیل و انتگرال برای رشته های ریاضی و آمار را توصیف می کند و ارزیابی مختصری از دیدگاه دانش آموز از این تجربه ارائه می دهد.

سرور مجازی کانادا

۱. معرفی
بحث در مورد داده ها و مهارت های پایگاه داده برای مشاغل آمار ضروری است، با این حال بسیاری از دانش آموزان (اعم از رشته ها و غیررشته ها) در معرض این مفاهیم نیستند. هورتون، بامر و ویکهام (۲۰۱۵) پیشنهاد می‌کنند که دانش‌آموزان مهارت‌های علم داده را زود و اغلب، با شروع دوره مقدماتی، توسعه می‌دهند، و قرار گرفتن در معرض اولیه بسیار مهم است. به طور مشابه، دستورالعمل‌های برنامه درسی برای برنامه‌های کارشناسی در علوم آماری که توسط انجمن آماری آمریکا (ASA) (2014) تهیه شده است، بر اهمیت فزاینده علم داده و نیاز دانش‌آموزان به «آسانی با سیستم‌های پایگاه داده» تأکید می‌کند (برای بحث اولیه به هیگینز مراجعه کنید. (۱۹۹۹)). از آنجایی که سیستم های پایگاه داده دسترسی کارآمد و مشترک به داده های پایدار را فراهم می کنند، درک این سیستم ها برای پرسیدن سؤالات در مورد داده ها بسیار مهم است. جدال داده یا «پردازش داده» داده‌های خام موجود در پایگاه داده را به اطلاعات معنی‌دار تبدیل می‌کند (Rudo، ۲۰۱۴)، و این یک جزء ضروری در چرخه تجزیه و تحلیل داده است که توسط «Tidy» و «Transform» در شکل ۱ مشخص شده است (Wickham and گرولموند، ۲۰۱۷، ص ۳). قبل از تجسم، مدل‌سازی و ارتباط نتایج، باید داده‌ها را به‌طور استراتژیک دستکاری و پردازش کرد، اما این بخش از چرخه اغلب در یک دوره مقدماتی حذف می‌شود. این مقاله مجموعه یکپارچه ای از فعالیت ها را برای کمک به معرفی این مفاهیم دستکاری داده های ضروری برجسته می کند.

مفاهیم پایگاه داده و dplyr

اگرچه در بسیاری از دوره های آماری حذف شده است، اما جنبه های “تمیز” و “تبدیل” چرخه داده ها (ویکهام، ۲۰۱۴، ص ۳) در دوره های تازه توسعه یافته علوم داده گنجانده شده است. هاردین و همکاران در بررسی و بحث در مورد هفت درس نمونه دروس علوم داده. (۲۰۱۵) توجه داشته باشید که این مثال‌ها همگی شامل پایگاه‌های داده رابطه‌ای و SQL به عنوان موضوعی در یک ترم درس علوم داده می‌شوند. دوره علوم داده مورد بحث در Baumer (2015) شامل یک بخش سه هفته ای در مورد دستکاری/مشاهده داده ها است که در آن دانش آموزان “یاد می گیرند که اساسی ترین عملیات داده را در R (R Core Team, 2017) و SQL انجام دهند و از آنها خواسته می شود در مورد آنها فکر کنند. اتصال» (Baumer, 2015, p. 37). یک کلاس آمار مقدماتی سه هفته فرصت ندارد تا روی دستکاری داده ها تمرکز کند.

این مقاله در مورد تجربه ترکیب جنبه های اساسی دستکاری داده ها در چارچوب یک دوره آمار مقدماتی گزارش می دهد. فعالیت های ارائه شده بر روی دستکاری داده های اساسی در R و رابطه آن با SQL متمرکز خواهد بود. این مهارت های ابتدایی پایگاه داده با ادغام محصول آموزش علوم کامپیوتر از پروژه Databases for Many Majors (DBMM) (http://databasesmanymajors.faculty.asu.edu/) در یک کلاس درس آمار معرفی می شوند. سپس مهارت‌ها در چارچوب بسته آماری dplyr (ویکهام و همکاران، ۲۰۱۷) برای R به کار می‌روند تا بر کاربرد آماری این مهارت‌ها تمرکز کند. این تجربه همچنین باید برای دوره های علوم داده با ارائه یک نمای کلی مفهومی از ارتباط بین عملیات داده های اساسی در R و SQL قبل از پرداختن به جزئیات عمیق تر دستکاری و تجزیه و تحلیل داده مفید باشد.

هدف پروژه Databases for Many Majors ارائه ماژول های جذاب برای معرفی بصری مفاهیم بنیادی پایگاه داده به دانش آموزان با زمینه های مختلف است. سه تجسم با برنامه های درسی پشتیبانی وجود دارد که جنبه های مختلف پایگاه داده را پوشش می دهد. اولی پایگاه های داده رابطه ای و تفاوت آنها با صفحات گسترده را معرفی می کند. دومی پرس و جو از پایگاه های داده رابطه ای را پوشش می دهد. و سومی طراحی مفهومی داده ها را مورد بحث قرار می دهد، که نحوه مدل سازی داده ها و سپس ترسیم طرح را به یک طرح پایگاه داده رابطه ای توضیح می دهد. هر یک از این موضوعات در چندین حوزه STEM که از پایگاه‌های داده استفاده می‌کنند، به ویژه در نجوم، زیست‌شناسی مولکولی محاسباتی، علوم محیطی/اکولوژی، پزشکی قانونی، سیستم‌های اطلاعات جغرافیایی، و آمار ورزش، برای جذب دانشجویان همه رشته‌ها (نه فقط علم آمار/داده) استفاده می‌کنند. رشته های تحصیلی) و برای ارتقای ارتباط با دانشجویان مختلف. این آشنایی اولیه و معرفی موضوعات پایگاه‌داده مخاطبان گسترده‌ای دارد و می‌تواند در هر دوره‌ای که می‌خواهد مهارت‌های علوم داده اولیه را ارتقا دهد، از جمله آمار مقدماتی، استفاده شود.

مفاهیم پایگاه داده و dplyr

داده ها را می توان با استفاده از تعدادی ابزار دستکاری و پرس و جو کرد. SQL ابزاری است که در زمینه پایگاه داده برای دستکاری پایگاه داده و پرس و جو استفاده می شود. در آمار، R یک نرم‌افزار متن‌باز جامع است که قادر به انجام تمام جنبه‌های چرخه تجزیه و تحلیل داده‌ها است و بسته dplyr از فرآیند دستکاری، مرتب‌سازی، خلاصه‌سازی و پیوستن به فریم‌های داده‌ها و ذخیره‌سازی کارآمد و دسترسی به مقادیر زیادی از داده‌ها در داخل پشتیبانی می‌کند. R. “dplyr دستور زبان دستکاری داده ها است که مجموعه ای ثابت از افعال را ارائه می دهد که به شما کمک می کند رایج ترین چالش های دستکاری داده ها را حل کنید” Wickham et al. (2017) (برای جزئیات بیشتر به https://dplyr.tidyverse.org/ مراجعه کنید). اگرچه می‌توان مستقیماً از SQL در R در بسته sqldf استفاده کرد (Grothendieck، ۲۰۱۷)، هدف یادگیری مطلوب برای دانش‌آموزان این است که بفهمند چگونه dplyr از این مفاهیم بنیادی پایگاه داده پشتیبانی می‌کند و این دانش را در زمینه حل مسئله در آمار به کار می‌گیرد.

این مقاله تجربه‌ای از ترکیب تجسم‌های پایگاه داده برای پایگاه‌های داده رابطه‌ای و پرس‌وجو در چارچوب یک دوره آمار مقدماتی، و به دنبال آن کاربرد این مفاهیم در تمرین‌ها در چارچوب dplyr را شرح می‌دهد. ادغام تجسم ها و فعالیت های dplyr به صورت آزمایشی در یک دوره آمار مقدماتی مبتنی بر حساب دیفرانسیل و انتگرال برای ریاضیات و آمار در مقاطع تحصیلی/گروه های فرعی اجرا شد. بخش ۳ ارتباط بین این مفاهیم پایگاه داده و بسته dplyr برای R و فعالیت های آماری مربوطه را که از پنج فعل اصلی dplyr استفاده می کند: انتخاب، فیلتر، ترتیب، خلاصه و جهش را توضیح می دهد. فعالیت‌های ارائه‌شده به دانش‌آموزان اجازه می‌دهد تا مهارت‌های پایگاه‌داده‌ای که در تجسم آموخته‌اند را به چارچوب dplyr ترجمه کنند. این مقاله با بحث در مورد تجربه، دیدگاه های دانشجویی و جهت گیری های تحقیقاتی آینده به پایان می رسد.

۲ تجسم پایگاه داده
تجسم های پایگاه داده سه انیمیشن تعاملی مجزا اما مرتبط هستند که مفاهیم پایگاه داده های رابطه ای و پرس و جو را با استفاده از SQL (دیتریش و همکاران، ۲۰۱۵) و طراحی پایگاه داده (گولمن و دیتریش، ۲۰۱۸) معرفی می کنند. هدف این است که به تمام اعضای هیئت علمی، از جمله مدرسان آمار مقدماتی، انیمیشن های پایگاه داده مستقلی ارائه شود که بتوانند از آنها برای تکمیل برنامه های درسی خود استفاده کنند. تجسم ها را می توان به عنوان یک فعالیت خارج از کلاس اختصاص داد و هر انیمیشن حدود یک ساعت طول می کشد. هر ماژول شامل یک مؤلفه خودارزیابی تکوینی است که به عنوان یک نقطه بازرسی شناخته می شود، که می تواند به دانش آموزان اختصاص داده شود تا قبل از کلاس آن را تکمیل کنند. توصیه می شود برای دانش آموزان یک هدف عملکردی برای ایست های بازرسی ارائه شود. منابع آموزشی دیگری نیز در دسترس است که شامل تمرین‌های یادگیری مشارکتی است که در صورت تمایل می‌توانید در کلاس از آنها استفاده کنید. تجسم‌ها نیز قابل تنظیم هستند و در حوزه‌های کاربردی مختلف برای ارتقای ارتباط برای دانش‌آموزان مختلف در دسترس هستند. تجسم ها و منابع به صورت رایگان در http://databasesmanymajors.faculty.asu.edu/ در دسترس هستند.

مفاهیم پایگاه داده و dplyr

این مقاله در مورد تجربه ای گزارش می دهد که دو ماژول اول در پایگاه داده های رابطه ای و پرس و جو را در یک دوره آمار مقدماتی گنجانده است. هر دوی این ماژول‌ها قبلاً در کلاس زیست‌شناسی مولکولی محاسباتی و همچنین دوره‌های پایگاه‌داده برای غیررشته‌ها و گرایش‌ها در دو دانشگاه بزرگ معرفی شده‌اند. دیتریش و همکاران (۲۰۱۵) از اثربخشی آموزشی تجسم ها پشتیبانی می کند. پس از این مطالعه، نقطه بازرسی به تجسم ها اضافه شد تا دانش آموزان بتوانند وضعیت یادگیری خود را بررسی کنند (دیتریش و گولمن، ۲۰۱۷). دانش‌آموزان از فرصتی برای امتحان خود در مورد موضوعات درون انیمیشن‌ها قدردانی می‌کنند و معمولاً از تجسم‌ها چندین بار برای تقویت مفاهیم و مرور برای امتحانات استفاده می‌کنند. خواننده تشویق می‌شود تا تجسم‌های سفارشی‌شده برای آمارهای ورزشی، به‌ویژه بیسبال را که در این بخش توضیح داده شده‌اند، اجرا کند. یک پیوست، در تجسم آنلاین، اطلاعاتی در مورد نحوه اجرای انیمیشن ها ارائه می دهد.

۲.۱ IntroDB: مقدمه ای بر پایگاه های داده رابطه ای
ماژول IntroDB درک اساسی پشت پایگاه داده های رابطه ای را ارتقا می دهد. پایگاه های داده ابزار قدرتمندی برای پرسیدن سؤالات یا پرس و جوهای مختلف از داده ها بدون تغییر داده ها ارائه می دهند. در این ماژول دانش آموزان یاد می گیرند: محدودیت صفحات گسترده، تقسیم صفحات گسترده به جداول کوچکتر برای جلوگیری از اضافه کاری، معرفی کلیدهای اصلی و خارجی و نحوه استفاده پایگاه داده از کلیدها برای شناسایی و ارتباط اطلاعات، و همچنین مقدمه ای کوتاه برای پرسیدن سوال. روی یک پایگاه داده

در سفارشی‌سازی آمار ورزش از تجسم، آمار بیس‌بال، ضربه‌زنان و پرتاب‌کننده‌ها را با اطلاعات مربوط به مسابقات بین ضربه‌گیر و پرتاب کننده مرتبط می‌کند. تجسم نشان می‌دهد که چگونه صفحات گسترده با داده‌های اضافی ممکن است هنگام به‌روزرسانی، حذف و درج داده‌ها، موقعیت‌های غیرعادی داشته باشند. همانطور که در مبحث تفکیک تجسم نشان داده شده است، پایگاه های داده با تجزیه داده ها به جداول جداگانه بدون تکرار غیر ضروری از این مسائل جلوگیری می کنند. شکل ۲ نشان می دهد که صفحه گسترده داده شده سه مفهوم را ترکیب می کند: Hitters، Pitchers و MatchUps. دکمه Hitters انتخاب شده است، نشان می دهد که چگونه مفهوم در یک جدول ذخیره می شود، جایی که ردیف های سبز نشان دهنده داده های به دست آمده (در جدول Hitters)، خط قرمز از میان ردیف ها داده های اضافی هستند، و داده های خاکستری مربوط به آن مفهوم خاص با انتخاب هر دکمه، کاربر نحوه ایجاد داده های جداول پایگاه داده را مشاهده می کند.

پایگاه داده مجموعه ای از جداول بدون تکرار غیر ضروری است. این جداول باید ترکیب شوند تا به سؤالات خاصی در مورد داده ها پاسخ دهند. ارتباط بین جداول با مفهوم کلیدهای اصلی و خارجی شکل می گیرد. شکل ۳ تصویری از پایگاه داده آمار بیسبال را نشان می دهد که کلیدهای اصلی را با یک کلید طلایی و کلیدهای خارجی را با یک کلید نارنجی با شکل متفاوت نشان می دهد. کلیدهای اصلی ویژگی(هایی) هستند که به طور منحصر به فرد یک ردیف را در جدول شناسایی می کنند، مانند HName در Hitters و PName در Pitchers. به طور معمول، هر جدول دارای یک کلید اصلی است که ممکن است از یک ویژگی یا ترکیبی از چندین ویژگی تشکیل شده باشد. توجه داشته باشید که جدول MatchUps دارای یک کلید اولیه ترکیبی است که از ترکیب HName و PName (در تصویر به صورت پیوندی نشان داده شده است) تشکیل شده است که به طور منحصربه‌فردی میانگین تطابق را برای ترکیب ضربه‌دهنده و pitcher مشخص می‌کند. یک کلید خارجی شامل ویژگی(های) یک جدول است که به مقدار یک کلید اصلی در جدول دیگر ارجاع می دهد، مانند HName در MatchUps و PName در MatchUps. Hitters و Pitchers هیچ کلید خارجی ندارند زیرا حاوی کلید اصلی جدول دیگری نیستند. در اسکرین شات، کلید خارجی نارنجی در کنار HName انتخاب شده است که ستون HName در MatchUps را با رنگ نارنجی و ستون HName را در Hitters به رنگ طلایی برجسته می کند. این نشان می دهد که یک مقدار از کلید خارجی (HName در Matchups) باید به عنوان مقدار کلید اصلی در جدول مربوطه ظاهر شود (HName در Hitters). پایگاه‌های داده از این رابطه بین کلیدهای اصلی و خارجی برای ترکیب جداول با یکدیگر در صورت نیاز برای پاسخ به یک پرس و جو استفاده می‌کنند که در تجسم پرس و جو بیشتر توضیح داده شده است.

۲.۲ QueryDB: مقدمه ای بر Querying
ماژول Introduction to Querying مقدمه ای مفهومی برای عملیات مختلف مورد نیاز برای بازیابی داده ها از پایگاه داده برای پاسخ به یک سوال ارائه می دهد. تجسم این عملیات و مشخصات مربوط به آن ها در SQL، پایه ای قوی برای دانش آموزان فراهم می کند تا از SQL برای جستجو در پایگاه داده های رابطه ای استفاده کنند. در این ماژول، دانش‌آموزان عملیات‌های مختلفی را برای ترکیب داده‌ها برای پاسخ به پرسش‌ها، مانند عملگرهای مجموعه رایج، فیلتر افقی و عمودی، و اتصال‌ها یاد می‌گیرند. علاوه بر این، این عملیات به زبان پرس و جو استاندارد صنعت SQL نگاشت شده است تا دانش آموزان بتوانند نحو اولیه SQL را درک کنند.

QueryDB فرض می‌کند که دانش‌آموزان قبلاً تجسم IntroDB را مشاهده کرده‌اند، و بیشتر بر نحوه پاسخگویی به سؤالات با فیلتر کردن و ترکیب جداول تمرکز می‌کند. هنگام طراحی پرس و جو، دانستن جداول، ویژگی های آنها و کلیدهای اصلی و خارجی مهم است. شکل ۴ این انتزاع از یک پایگاه داده را ارائه می دهد که به عنوان طرحواره شناخته می شود، برای برنامه آماری بیسبال. این یک طرح تصویری است که کلیدهای اصلی و خارجی را با این ارتباط بین جداول نشان داده شده از طریق پیوندها نشان می دهد. سطرهای برجسته طراحی پرس و جو ذکر شده در اسکرین شات را نشان می دهد که میانگین تطابق یک ضربه زن را با میانگین ضربات داده شده در برابر یک پارچ خاص پیدا می کند. برجسته سازی به صورت پویا ساخته می شود، زیرا دانش آموز در طراحی آن پرس و جو با استفاده از اطلاعات داده شده و ارتباطات کلیدی اولیه-خارجی بین جداول قدم می زند. سپس تجسم عملگرهای مجموعه بنیادی (اتحاد، تقاطع، نفی) را با مثال معرفی می کند که بر روی جداولی با فرمت یکسان عمل می کنند. سپس عملگرهای جدیدی به دانش‌آموزان ارائه می‌شود که جداول را به صورت افقی و عمودی فیلتر می‌کنند و همچنین عملگرهایی را که جداول را روی کلیدهای اولیه-خارجی ترکیب می‌کنند تا جدول بزرگ‌تری را که برای پاسخ به یک پرس و جو لازم است، ارائه دهند. به دومی اتصالات می گویند. پس از معرفی این اپراتورهای مختلف، استاندارد صنعتی SQL برای پایگاه‌های اطلاعاتی پرس‌وجو معرفی می‌شود و یک پرس‌وجو متنی به صورت تدریجی همراه با یک نمایش بصری از پرس و جو ساخته می‌شود، همانطور که در شکل ۵ نشان داده شده است. پرس و جو SQL پاسخ پرسش طراحی شده در شکل را ارائه می‌کند. ۴، که شامل فیلتر افقی (میانگین ضربه زدن و نام پارچ) و فیلتر عمودی (میانگین مطابقت) در ترکیب با یک اتصال (نام ضربه‌گیر) است.

مفاهیم کلیدی IntroDB و عملیات برای دستکاری و ترکیب داده ها در QueryDB قطعاً برای آمار به عنوان بخشی ضروری از چرخه تجزیه و تحلیل داده ها قابل استفاده است. بسته dplyr برای R همچنین از این مفاهیم برای دستکاری داده ها استفاده می کند، همانطور که در بخش بعدی نشان داده شده است.

اتصال ۳ dplyr
این مقدمه بر مفاهیم علم داده در چارچوب یک دوره مقدماتی آمار گنجانده شد، با قرار دادن دانش‌آموزان در معرض پرسش‌هایی از مجموعه داده‌هایی که به مهارت‌های «جدال داده» نیاز دارند، که هم در پایگاه‌های اطلاعاتی و هم در آمار مهم هستند. در زمینه پایگاه داده، SQL زبان استاندارد صنعتی است که پشتیبانی گسترده ای را برای پرسیدن سؤالات بر روی داده های ذخیره شده در پایگاه داده، از جمله برخی عملیات اساسی برای تجزیه و تحلیل داده ها، مانند مجموع، حداقل، حداکثر، میانگین و شمارش ارائه می دهد. در آمار، R ابزاری است که ابزارهای گسترده ای برای تجسم و تجزیه و تحلیل داده ها ارائه می دهد و dplyr زبانی است که داده ها را برای تجزیه و تحلیل دستکاری می کند. هدف یادگیری فعالیت ها این است که دانش آموزان مفاهیم بنیادی پایگاه داده و عملیات دستکاری داده ها را که در تجسم ها نشان داده شده است، درک کنند و این تکنیک ها را در فعالیت های آماری به کار گیرند. اگرچه دانش‌آموزان در حال یادگیری نحوه اعمال این عملیات در زمینه نحو SQL و R، به‌ویژه dplyr هستند، اما هدف نهایی این است که دانش‌آموزان واقعاً عملیات را درک کنند تا بتوانند این مفاهیم را در زمینه‌ها و زبان‌های دیگر حتی با تغییر فناوری اعمال کنند. . بنابراین، بسته‌های محبوب دیگر مانند SAS نیز می‌توانند برای تجزیه و تحلیل و دسترسی به یک پایگاه داده رابطه‌ای با استفاده از ابزارهای اساسی آموزش داده شده در ابزار مورد استفاده قرار گیرند (SAS Institute Inc., 2019).

مفاهیم پایگاه داده و dplyr

اتصالات کشمکش داده‌ای که در فعالیت‌ها مورد تأکید قرار گرفت، دستکاری داده‌های ضروری یک مجموعه داده و ترکیب مجموعه‌های داده را برجسته کرد. اولین گام در کشمکش داده ها، توانایی انجام پرس و جوهای داده پایه و کاهش مجموعه داده ها به متغیرها و ویژگی های مورد علاقه، ترتیب داده ها برای ارتباط نتایج است. دومین گام ضروری در جدال داده ها، توانایی ترکیب مجموعه داده های مختلف به طور صحیح برای پاسخ به سوالات پیچیده تر است. جدول ۱ مفهوم تجسم و مطابقت آن را در SQL و dplyr نشان می دهد. اکثر این ارتباطات، به استثنای عملیات مبتنی بر مجموعه (اتحاد، تقاطع، تفاوت)، در فعالیت‌های محول شده به دانش‌آموزان گنجانده شدند.

اولین فعالیت دانش آموزی بر بحث و جدل داده های ضروری بدون ترکیب مجموعه داده ها متمرکز است. این فعالیت باید تا حد امکان در ابتدای ترم پس از بحث در مورد آمار توصیفی اولیه و تجسم های اولیه اختصاص داده شود. تجربه ادغام فعالیت به طور خلاصه در بخش ۴ توضیح داده شده است و خود فعالیت در مواد تکمیلی گنجانده شده است. از دانش‌آموزان خواسته شد تا با استفاده از مجموعه داده‌های شخصیت‌های جنگ ستارگان که در dplyr به‌عنوان تیبل «ستارگان» درج شده است، «متوسط قد شخصیت‌های Starwars انسانی را بیابند». این سؤال از دانش‌آموز می‌خواهد که ارتفاع متغیر را انتخاب کند، مجموعه داده را فقط شامل کاراکترهای انسانی فیلتر کند و برای یافتن میانگین یا میانگین قد، خلاصه‌سازی کند. جدول ۲ سینتکس dplyr و SQL مربوطه را نشان می دهد. هر دو dplyr و SQL نام ستون حاصل را به avgheight تغییر می دهند. توجه داشته باشید که فعالیت ها نیازی به استفاده از اپراتور لوله % >٪ ندارند. فعالیت واقعی به قطعات کوچکتر تقسیم می شود. اپراتور لوله در اینجا نشان داده شده است تا یک نحو یکپارچه را ارائه دهد که با پرس و جوی SQL مطابقت دارد.

اگرچه به عنوان بخشی از این فعالیت آزمایشی اولیه کاوش نشده است، دانش‌آموزان می‌توانند با استفاده از بسته SQLdf، وارد کردن نحو SQL مستقیماً در R را بررسی کنند (Grothendieck، ۲۰۱۷). از آنجایی که SQLdf از فریم های داده در R و نه تیبل های dplyr استفاده می کند، تیبل Starwars باید برای استفاده در SQLdf به یک قاب داده صادر شود [Starwars = as.data.frame(starwars)]. نحو SQL نشان داده شده در جدول ۲ یک پارامتر نقل قول از تابع sqldf است. این یک اتصال جالب برای افزودن به نسخه های آینده تکلیف خواهد بود.

فعالیت دوم برای تقویت مفهوم اتصال، که مجموعه داده‌ها را در یک سؤال آماری ترکیب می‌کند، ایجاد شد. فعالیت دوم باید پس از بحث در مورد تحلیل واریانس یک طرفه یا رگرسیون خطی معرفی شود. باز هم خود فعالیت در مواد تکمیلی گنجانده شده است. یک سوال برای دانش آموزان با استفاده از بسته لهمان (دوستانه، ۲۰۱۷)، که جداول پایگاه داده بیسبال شان لحمان را به عنوان فریم های داده R ارائه می دهد، مطرح می شود، “آیا حقوق بالاتر در لیگ برتر بیسبال به آمار ضربات بالاتر بعد از ۱۹۸۵ مربوط می شود؟” برای پاسخ به این سوال، دانش‌آموزان ابتدا باید مجموعه داده‌های Batting را برای فصل‌های پس از ۱۹۸۵ فیلتر کنند و سپس چارچوب‌های داده Batting و Salaries را بر روی ترکیبی از ویژگی‌هایی که داده‌ها را با استفاده از یک join در dplyr پیوند می‌دهند، ترکیب کنند. جدول ۳ سینتکس dplyr و SQL را برای سوال مطرح شده برای دانش آموزان مقایسه می کند. مجدداً اپراتور لوله برای مکاتبه با SQL معرفی می شود. همچنین، اتصال join را می‌توان با درخواست از دانش‌آموزان برای ارائه مشخصات SQL مربوط به دستورات dplyr که سپس با استفاده از بسته SQLdf آزمایش می‌شود، بررسی کرد.

ارتباط بین پایگاه داده و آمار جزء جدایی ناپذیر علم داده است. با یادگیری مفاهیم بنیادی پایگاه داده و پرس و جو، دانش آموزان آمار قادر خواهند بود از این تکنیک ها در هر دو زمینه استفاده کنند. دانش‌آموزان می‌توانند داده‌های مورد نیاز خود را از پایگاه‌های داده بازیابی کنند و آن داده‌ها را با استفاده از dplyr در R بیشتر تجزیه و تحلیل و تجسم کنند. تجربه ادغام فعالیت‌های فوق در کلاس درس، همراه با دیدگاه‌های دانش‌آموز در مورد تجربه در بخش بعدی مورد بحث قرار می‌گیرد.

۴. بحث
برای ارزیابی مختصر تأثیر درک شده از مواد یکپارچه، از دانش‌آموزان (n = ۳۰) نظرسنجی انجام شد تا به سؤالات نوع لیکرت و سؤالات باز درباره تجربه ادغام پس از اولین فعالیت پاسخ دهند. پاسخ‌های دانش‌آموزان به فعالیت یکپارچه‌سازی ارائه‌شده در جدول ۴ عمدتاً مثبت بود، و بیشتر دانش‌آموزان گزارش دادند که تجسم‌ها از یادگیری و درک آن‌ها از مشکل حمایت می‌کنند. بازخورد نماینده در زیر گنجانده شده است.

مهارت های آموخته شده در انیمیشن ها به پلتفرم های دیگر قابل انتقال است. به عنوان مثال، اولین انیمیشن جداولی را معرفی می کند که به صورت مفهومی با استفاده از کلیدهای اصلی و خارجی به هم مرتبط شده اند. در واقع، ۹۶٪ از دانش آموزان کلید اولیه ترکیبی مناسب را شناسایی کردند و با موفقیت به دو جدول برای تجزیه و تحلیل پیوستند. مفاهیم ارائه شده پایه ای برای یادگیری پرس و جو در پایگاه داده در هر زبانی از جمله R فراهم می کند (برای مثال R به Wickham، ۲۰۱۴ مراجعه کنید). اگرچه تجسم پرس و جو بر SQL متمرکز است، اما توسط هاردین و همکاران اشاره شده است. (۲۰۱۵) (هنگامی که به دوره ای توسط Wickham اشاره می شود) “در حالی که هر زبان ممکن است نحو خاص خود را داشته باشد، عملیات اساسی که روی داده ها انجام می شود یکسان است.” این انیمیشن‌ها همچنین می‌توانند به دانش‌آموزانی که دوره‌های ارشد Capstone را برگزار می‌کنند، مانند دوره‌هایی که در Martonosi و Williams (2016) بازبینی شده‌اند، کمک کنند تا شکاف بین آموزش آماری دانش‌آموزان و دستکاری داده‌ها و چالش‌های مدیریتی در دنیای واقعی را پر کنند.

این ادغام مهارت های پایگاه داده در یک دوره مقدماتی آمار امیدوار کننده است. آزمایشی شرح داده شده در این مقاله یک تجربه اولیه با معرفی تجسم پایگاه داده مفاهیم اساسی در یک دوره آمار مقدماتی ارائه کرد. دانش‌آموزان از تجسم مفاهیم و توانایی اعمال این مفاهیم در R با dplyr قدردانی کردند و توانستند با فعالیت دوم دستکاری داده‌های پیچیده‌تری را با موفقیت انجام دهند.

معرفی مهارت های پایگاه داده در اوایل این دوره مزایای بیشتری دارد. پس از اینکه دانش‌آموزان توانستند دستکاری داده‌های اولیه را انجام دهند، از مجموعه داده‌های بزرگ‌تر و غیر ضروری در تکالیف خانه استفاده شد. از دانش‌آموزان خواسته شد که داده‌ها را با استفاده از پنج فعل دستکاری کنند تا به سؤالات تکلیف پاسخ دهند. تجربه خود را فراتر از کتاب درسی گسترش دهند.

هم افزایی پایگاه های داده و آمار یک هدف یادگیری مهم برای یک دوره مقدماتی آمار است. کار آینده راه ها و فرصت های بیشتری را برای بازنگری و گنجاندن فعالیت های هم افزایی در برنامه درسی بررسی خواهد کرد.

تبریک می گوئیم مفاهیم پایگاه داده و dplyr به پایان رسید با اموزش ها و مقالات و مطالب بعدی مثل همیشه نگارنوین را همراهی کنید.

برچسب:دیتابست و dplyr معنی dplyr

نگار نوین

ارائه دهنده خدمات میزبانی وب و هاست ، سرورهای مجازی و اختصاصی ، دامنه و SSL ، طراحی سایت و اپلیکیشن ، گرافیک و ... تمامی راهکارهای مبتنی بر وب!

سرور مجازی فرانسه

سرور مجازی آلمان

سرور مجازی فنلاند

سرور مجازی انگلیس

سرور مجازی کانادا

سرور مجازی آمریکا

سرور مجازی هلند

سرور مجازی سوئد

سرور مجازی مالزی

سرور مجازی ایتالیا

سرور مجازی ترکیه

سرور مجازی امارات

سرور مجازی روسیه

سرور مجازی استرالیا

سرور مجازی چین

سرور مجازی ژاپن

سرور مجازی اتریش

سرور مجازی سوئیس

سرور مجازی اسپانیا

سرور مجازی پرتقال

سرور مجازی یونان

سرور مجازی دانمارک

سرور مجازی لهستان

سرور مجازی بلژیک

سرور مجازی مجارستان

سرور مجازی ایسلند

سرور مجازی رومانی

سرور مجازی سنگاپور

سرور مجازی برج میلاد

سرور مجازی زیرساخت

سرور مجازی صفر و یک

سرور مجازی آسیاتک

سرور مجازی رسپینا

سرور مجازی تبیان

سرور مجازی کاهش پینگ

سرور مجازی مخابرات

سرور مجازی کلاس آنلاین

سرور مجازی بورس

سرور اختصاصی آلمانHETZNER

سرور اختصاصی فرانسهOVH

سرور اختصاصی انگلیسOVH

سرور اختصاصی هلندOVH

سرور اختصاصی فنلاندHETZNER

سرور اختصاصی ترکیهISTANBUL

سرور اختصاصی لهستانOVH

سرور اختصاصی آمریکا

سرور اختصاصی کانادا

سرور اختصاصی ایران

سرور اختصاصی برچ میلاد

سرور اختصاصی رسپینا

سرور اختصاصی زیر ساخت

سرور اختصاصی آسیاتک

سرور اختصاصی ایران

سرور اختصاصی برچ میلاد

سرور اختصاصی رسپینا

سرور اختصاصی زیر ساخت

سرور اختصاصی آسیاتک

هاست سی پنلهارد NVME

هاست وردپرسهارد NVME

هاست ایرانهارد SSD

هاست ارزانهارد SSD

هاست ابریهارد NVME

ثبت دامنه

انتقال دامنه

تمدید دامنه

گواهینامه SSL

تعرفه دامنه

سرور مجازی فرانسه

سرور مجازی آلمان

سرور مجازی فنلاند

سرور مجازی انگلیس

سرور مجازی کانادا

سرور مجازی آمریکا

سرور مجازی هلند

سرور مجازی سوئد

سرور مجازی مالزی

سرور مجازی ایتالیا

سرور مجازی ترکیه

سرور مجازی امارات

سرور مجازی روسیه