در این مقاله با شما هستیم با تعریف و توضیح مفاهیم پایگاه داده و dplyr پس تا انتهای این مطلب همانند همیشه حتما ما را دنبال کنید!
خلاصه
قرار گرفتن زودهنگام در معرض مهارت های علم داده، مانند پایگاه های داده رابطه ای، برای دانش آموزان در آمار و همچنین بسیاری از رشته های دیگر در جامعه ای که به طور فزاینده ای مبتنی بر داده است، ضروری است. هدف آموزش ارائه شده آشنایی دانشجویان مقطع کارشناسی با مفاهیم بنیادی پایگاه داده و روشن کردن ارتباط بین این مفاهیم پایگاه داده و عملکرد ارائه شده توسط بسته dplyr برای R است. به طور خاص، دانشجویان با مفاهیم پایگاه داده رابطه ای با استفاده از تجسم هایی که به طور خاص طراحی شده اند آشنا می شوند. برای دانش آموزانی که هیچ پیشینه علم داده یا محاسباتی ندارند. این ابزارهای آموزشی که به صورت رایگان در وب در دسترس هستند، دانشآموزان را از طریق ارائه پویا که به آرامی پایگاههای اطلاعاتی رابطهای و نحوه پرسیدن سؤال از دادههای ذخیره شده در پایگاه داده رابطهای را معرفی میکند، درگیر فرآیند یادگیری میکند. تجسمها بهطور خاص برای خودآموزی توسط دانشآموزان، از جمله ویژگی خودارزیابی تکوینی طراحی شدهاند. سپس به دانش آموزان یک درس آمار مربوطه اختصاص داده می شود تا از نرم افزار آماری در R در چارچوب dplyr استفاده کنند و بر نیاز به این مهارت های پایگاه داده تأکید کنند. این مقاله یک تجربه آزمایشی از معرفی این آموزش در یک دوره آمار مقدماتی مبتنی بر حساب دیفرانسیل و انتگرال برای رشته های ریاضی و آمار را توصیف می کند و ارزیابی مختصری از دیدگاه دانش آموز از این تجربه ارائه می دهد.
سرور مجازی کانادا
۱. معرفی
بحث در مورد داده ها و مهارت های پایگاه داده برای مشاغل آمار ضروری است، با این حال بسیاری از دانش آموزان (اعم از رشته ها و غیررشته ها) در معرض این مفاهیم نیستند. هورتون، بامر و ویکهام (۲۰۱۵) پیشنهاد میکنند که دانشآموزان مهارتهای علم داده را زود و اغلب، با شروع دوره مقدماتی، توسعه میدهند، و قرار گرفتن در معرض اولیه بسیار مهم است. به طور مشابه، دستورالعملهای برنامه درسی برای برنامههای کارشناسی در علوم آماری که توسط انجمن آماری آمریکا (ASA) (2014) تهیه شده است، بر اهمیت فزاینده علم داده و نیاز دانشآموزان به «آسانی با سیستمهای پایگاه داده» تأکید میکند (برای بحث اولیه به هیگینز مراجعه کنید. (۱۹۹۹)). از آنجایی که سیستم های پایگاه داده دسترسی کارآمد و مشترک به داده های پایدار را فراهم می کنند، درک این سیستم ها برای پرسیدن سؤالات در مورد داده ها بسیار مهم است. جدال داده یا «پردازش داده» دادههای خام موجود در پایگاه داده را به اطلاعات معنیدار تبدیل میکند (Rudo، ۲۰۱۴)، و این یک جزء ضروری در چرخه تجزیه و تحلیل داده است که توسط «Tidy» و «Transform» در شکل ۱ مشخص شده است (Wickham and گرولموند، ۲۰۱۷، ص ۳). قبل از تجسم، مدلسازی و ارتباط نتایج، باید دادهها را بهطور استراتژیک دستکاری و پردازش کرد، اما این بخش از چرخه اغلب در یک دوره مقدماتی حذف میشود. این مقاله مجموعه یکپارچه ای از فعالیت ها را برای کمک به معرفی این مفاهیم دستکاری داده های ضروری برجسته می کند.
مفاهیم پایگاه داده و dplyr
اگرچه در بسیاری از دوره های آماری حذف شده است، اما جنبه های “تمیز” و “تبدیل” چرخه داده ها (ویکهام، ۲۰۱۴، ص ۳) در دوره های تازه توسعه یافته علوم داده گنجانده شده است. هاردین و همکاران در بررسی و بحث در مورد هفت درس نمونه دروس علوم داده. (۲۰۱۵) توجه داشته باشید که این مثالها همگی شامل پایگاههای داده رابطهای و SQL به عنوان موضوعی در یک ترم درس علوم داده میشوند. دوره علوم داده مورد بحث در Baumer (2015) شامل یک بخش سه هفته ای در مورد دستکاری/مشاهده داده ها است که در آن دانش آموزان “یاد می گیرند که اساسی ترین عملیات داده را در R (R Core Team, 2017) و SQL انجام دهند و از آنها خواسته می شود در مورد آنها فکر کنند. اتصال» (Baumer, 2015, p. 37). یک کلاس آمار مقدماتی سه هفته فرصت ندارد تا روی دستکاری داده ها تمرکز کند.
این مقاله در مورد تجربه ترکیب جنبه های اساسی دستکاری داده ها در چارچوب یک دوره آمار مقدماتی گزارش می دهد. فعالیت های ارائه شده بر روی دستکاری داده های اساسی در R و رابطه آن با SQL متمرکز خواهد بود. این مهارت های ابتدایی پایگاه داده با ادغام محصول آموزش علوم کامپیوتر از پروژه Databases for Many Majors (DBMM) (http://databasesmanymajors.faculty.asu.edu/) در یک کلاس درس آمار معرفی می شوند. سپس مهارتها در چارچوب بسته آماری dplyr (ویکهام و همکاران، ۲۰۱۷) برای R به کار میروند تا بر کاربرد آماری این مهارتها تمرکز کند. این تجربه همچنین باید برای دوره های علوم داده با ارائه یک نمای کلی مفهومی از ارتباط بین عملیات داده های اساسی در R و SQL قبل از پرداختن به جزئیات عمیق تر دستکاری و تجزیه و تحلیل داده مفید باشد.
هدف پروژه Databases for Many Majors ارائه ماژول های جذاب برای معرفی بصری مفاهیم بنیادی پایگاه داده به دانش آموزان با زمینه های مختلف است. سه تجسم با برنامه های درسی پشتیبانی وجود دارد که جنبه های مختلف پایگاه داده را پوشش می دهد. اولی پایگاه های داده رابطه ای و تفاوت آنها با صفحات گسترده را معرفی می کند. دومی پرس و جو از پایگاه های داده رابطه ای را پوشش می دهد. و سومی طراحی مفهومی داده ها را مورد بحث قرار می دهد، که نحوه مدل سازی داده ها و سپس ترسیم طرح را به یک طرح پایگاه داده رابطه ای توضیح می دهد. هر یک از این موضوعات در چندین حوزه STEM که از پایگاههای داده استفاده میکنند، به ویژه در نجوم، زیستشناسی مولکولی محاسباتی، علوم محیطی/اکولوژی، پزشکی قانونی، سیستمهای اطلاعات جغرافیایی، و آمار ورزش، برای جذب دانشجویان همه رشتهها (نه فقط علم آمار/داده) استفاده میکنند. رشته های تحصیلی) و برای ارتقای ارتباط با دانشجویان مختلف. این آشنایی اولیه و معرفی موضوعات پایگاهداده مخاطبان گستردهای دارد و میتواند در هر دورهای که میخواهد مهارتهای علوم داده اولیه را ارتقا دهد، از جمله آمار مقدماتی، استفاده شود.
مفاهیم پایگاه داده و dplyr
داده ها را می توان با استفاده از تعدادی ابزار دستکاری و پرس و جو کرد. SQL ابزاری است که در زمینه پایگاه داده برای دستکاری پایگاه داده و پرس و جو استفاده می شود. در آمار، R یک نرمافزار متنباز جامع است که قادر به انجام تمام جنبههای چرخه تجزیه و تحلیل دادهها است و بسته dplyr از فرآیند دستکاری، مرتبسازی، خلاصهسازی و پیوستن به فریمهای دادهها و ذخیرهسازی کارآمد و دسترسی به مقادیر زیادی از دادهها در داخل پشتیبانی میکند. R. “dplyr دستور زبان دستکاری داده ها است که مجموعه ای ثابت از افعال را ارائه می دهد که به شما کمک می کند رایج ترین چالش های دستکاری داده ها را حل کنید” Wickham et al. (2017) (برای جزئیات بیشتر به https://dplyr.tidyverse.org/ مراجعه کنید). اگرچه میتوان مستقیماً از SQL در R در بسته sqldf استفاده کرد (Grothendieck، ۲۰۱۷)، هدف یادگیری مطلوب برای دانشآموزان این است که بفهمند چگونه dplyr از این مفاهیم بنیادی پایگاه داده پشتیبانی میکند و این دانش را در زمینه حل مسئله در آمار به کار میگیرد.
این مقاله تجربهای از ترکیب تجسمهای پایگاه داده برای پایگاههای داده رابطهای و پرسوجو در چارچوب یک دوره آمار مقدماتی، و به دنبال آن کاربرد این مفاهیم در تمرینها در چارچوب dplyr را شرح میدهد. ادغام تجسم ها و فعالیت های dplyr به صورت آزمایشی در یک دوره آمار مقدماتی مبتنی بر حساب دیفرانسیل و انتگرال برای ریاضیات و آمار در مقاطع تحصیلی/گروه های فرعی اجرا شد. بخش ۳ ارتباط بین این مفاهیم پایگاه داده و بسته dplyr برای R و فعالیت های آماری مربوطه را که از پنج فعل اصلی dplyr استفاده می کند: انتخاب، فیلتر، ترتیب، خلاصه و جهش را توضیح می دهد. فعالیتهای ارائهشده به دانشآموزان اجازه میدهد تا مهارتهای پایگاهدادهای که در تجسم آموختهاند را به چارچوب dplyr ترجمه کنند. این مقاله با بحث در مورد تجربه، دیدگاه های دانشجویی و جهت گیری های تحقیقاتی آینده به پایان می رسد.
۲ تجسم پایگاه داده
تجسم های پایگاه داده سه انیمیشن تعاملی مجزا اما مرتبط هستند که مفاهیم پایگاه داده های رابطه ای و پرس و جو را با استفاده از SQL (دیتریش و همکاران، ۲۰۱۵) و طراحی پایگاه داده (گولمن و دیتریش، ۲۰۱۸) معرفی می کنند. هدف این است که به تمام اعضای هیئت علمی، از جمله مدرسان آمار مقدماتی، انیمیشن های پایگاه داده مستقلی ارائه شود که بتوانند از آنها برای تکمیل برنامه های درسی خود استفاده کنند. تجسم ها را می توان به عنوان یک فعالیت خارج از کلاس اختصاص داد و هر انیمیشن حدود یک ساعت طول می کشد. هر ماژول شامل یک مؤلفه خودارزیابی تکوینی است که به عنوان یک نقطه بازرسی شناخته می شود، که می تواند به دانش آموزان اختصاص داده شود تا قبل از کلاس آن را تکمیل کنند. توصیه می شود برای دانش آموزان یک هدف عملکردی برای ایست های بازرسی ارائه شود. منابع آموزشی دیگری نیز در دسترس است که شامل تمرینهای یادگیری مشارکتی است که در صورت تمایل میتوانید در کلاس از آنها استفاده کنید. تجسمها نیز قابل تنظیم هستند و در حوزههای کاربردی مختلف برای ارتقای ارتباط برای دانشآموزان مختلف در دسترس هستند. تجسم ها و منابع به صورت رایگان در http://databasesmanymajors.faculty.asu.edu/ در دسترس هستند.
مفاهیم پایگاه داده و dplyr
این مقاله در مورد تجربه ای گزارش می دهد که دو ماژول اول در پایگاه داده های رابطه ای و پرس و جو را در یک دوره آمار مقدماتی گنجانده است. هر دوی این ماژولها قبلاً در کلاس زیستشناسی مولکولی محاسباتی و همچنین دورههای پایگاهداده برای غیررشتهها و گرایشها در دو دانشگاه بزرگ معرفی شدهاند. دیتریش و همکاران (۲۰۱۵) از اثربخشی آموزشی تجسم ها پشتیبانی می کند. پس از این مطالعه، نقطه بازرسی به تجسم ها اضافه شد تا دانش آموزان بتوانند وضعیت یادگیری خود را بررسی کنند (دیتریش و گولمن، ۲۰۱۷). دانشآموزان از فرصتی برای امتحان خود در مورد موضوعات درون انیمیشنها قدردانی میکنند و معمولاً از تجسمها چندین بار برای تقویت مفاهیم و مرور برای امتحانات استفاده میکنند. خواننده تشویق میشود تا تجسمهای سفارشیشده برای آمارهای ورزشی، بهویژه بیسبال را که در این بخش توضیح داده شدهاند، اجرا کند. یک پیوست، در تجسم آنلاین، اطلاعاتی در مورد نحوه اجرای انیمیشن ها ارائه می دهد.
۲.۱ IntroDB: مقدمه ای بر پایگاه های داده رابطه ای
ماژول IntroDB درک اساسی پشت پایگاه داده های رابطه ای را ارتقا می دهد. پایگاه های داده ابزار قدرتمندی برای پرسیدن سؤالات یا پرس و جوهای مختلف از داده ها بدون تغییر داده ها ارائه می دهند. در این ماژول دانش آموزان یاد می گیرند: محدودیت صفحات گسترده، تقسیم صفحات گسترده به جداول کوچکتر برای جلوگیری از اضافه کاری، معرفی کلیدهای اصلی و خارجی و نحوه استفاده پایگاه داده از کلیدها برای شناسایی و ارتباط اطلاعات، و همچنین مقدمه ای کوتاه برای پرسیدن سوال. روی یک پایگاه داده
در سفارشیسازی آمار ورزش از تجسم، آمار بیسبال، ضربهزنان و پرتابکنندهها را با اطلاعات مربوط به مسابقات بین ضربهگیر و پرتاب کننده مرتبط میکند. تجسم نشان میدهد که چگونه صفحات گسترده با دادههای اضافی ممکن است هنگام بهروزرسانی، حذف و درج دادهها، موقعیتهای غیرعادی داشته باشند. همانطور که در مبحث تفکیک تجسم نشان داده شده است، پایگاه های داده با تجزیه داده ها به جداول جداگانه بدون تکرار غیر ضروری از این مسائل جلوگیری می کنند. شکل ۲ نشان می دهد که صفحه گسترده داده شده سه مفهوم را ترکیب می کند: Hitters، Pitchers و MatchUps. دکمه Hitters انتخاب شده است، نشان می دهد که چگونه مفهوم در یک جدول ذخیره می شود، جایی که ردیف های سبز نشان دهنده داده های به دست آمده (در جدول Hitters)، خط قرمز از میان ردیف ها داده های اضافی هستند، و داده های خاکستری مربوط به آن مفهوم خاص با انتخاب هر دکمه، کاربر نحوه ایجاد داده های جداول پایگاه داده را مشاهده می کند.
پایگاه داده مجموعه ای از جداول بدون تکرار غیر ضروری است. این جداول باید ترکیب شوند تا به سؤالات خاصی در مورد داده ها پاسخ دهند. ارتباط بین جداول با مفهوم کلیدهای اصلی و خارجی شکل می گیرد. شکل ۳ تصویری از پایگاه داده آمار بیسبال را نشان می دهد که کلیدهای اصلی را با یک کلید طلایی و کلیدهای خارجی را با یک کلید نارنجی با شکل متفاوت نشان می دهد. کلیدهای اصلی ویژگی(هایی) هستند که به طور منحصر به فرد یک ردیف را در جدول شناسایی می کنند، مانند HName در Hitters و PName در Pitchers. به طور معمول، هر جدول دارای یک کلید اصلی است که ممکن است از یک ویژگی یا ترکیبی از چندین ویژگی تشکیل شده باشد. توجه داشته باشید که جدول MatchUps دارای یک کلید اولیه ترکیبی است که از ترکیب HName و PName (در تصویر به صورت پیوندی نشان داده شده است) تشکیل شده است که به طور منحصربهفردی میانگین تطابق را برای ترکیب ضربهدهنده و pitcher مشخص میکند. یک کلید خارجی شامل ویژگی(های) یک جدول است که به مقدار یک کلید اصلی در جدول دیگر ارجاع می دهد، مانند HName در MatchUps و PName در MatchUps. Hitters و Pitchers هیچ کلید خارجی ندارند زیرا حاوی کلید اصلی جدول دیگری نیستند. در اسکرین شات، کلید خارجی نارنجی در کنار HName انتخاب شده است که ستون HName در MatchUps را با رنگ نارنجی و ستون HName را در Hitters به رنگ طلایی برجسته می کند. این نشان می دهد که یک مقدار از کلید خارجی (HName در Matchups) باید به عنوان مقدار کلید اصلی در جدول مربوطه ظاهر شود (HName در Hitters). پایگاههای داده از این رابطه بین کلیدهای اصلی و خارجی برای ترکیب جداول با یکدیگر در صورت نیاز برای پاسخ به یک پرس و جو استفاده میکنند که در تجسم پرس و جو بیشتر توضیح داده شده است.
۲.۲ QueryDB: مقدمه ای بر Querying
ماژول Introduction to Querying مقدمه ای مفهومی برای عملیات مختلف مورد نیاز برای بازیابی داده ها از پایگاه داده برای پاسخ به یک سوال ارائه می دهد. تجسم این عملیات و مشخصات مربوط به آن ها در SQL، پایه ای قوی برای دانش آموزان فراهم می کند تا از SQL برای جستجو در پایگاه داده های رابطه ای استفاده کنند. در این ماژول، دانشآموزان عملیاتهای مختلفی را برای ترکیب دادهها برای پاسخ به پرسشها، مانند عملگرهای مجموعه رایج، فیلتر افقی و عمودی، و اتصالها یاد میگیرند. علاوه بر این، این عملیات به زبان پرس و جو استاندارد صنعت SQL نگاشت شده است تا دانش آموزان بتوانند نحو اولیه SQL را درک کنند.
QueryDB فرض میکند که دانشآموزان قبلاً تجسم IntroDB را مشاهده کردهاند، و بیشتر بر نحوه پاسخگویی به سؤالات با فیلتر کردن و ترکیب جداول تمرکز میکند. هنگام طراحی پرس و جو، دانستن جداول، ویژگی های آنها و کلیدهای اصلی و خارجی مهم است. شکل ۴ این انتزاع از یک پایگاه داده را ارائه می دهد که به عنوان طرحواره شناخته می شود، برای برنامه آماری بیسبال. این یک طرح تصویری است که کلیدهای اصلی و خارجی را با این ارتباط بین جداول نشان داده شده از طریق پیوندها نشان می دهد. سطرهای برجسته طراحی پرس و جو ذکر شده در اسکرین شات را نشان می دهد که میانگین تطابق یک ضربه زن را با میانگین ضربات داده شده در برابر یک پارچ خاص پیدا می کند. برجسته سازی به صورت پویا ساخته می شود، زیرا دانش آموز در طراحی آن پرس و جو با استفاده از اطلاعات داده شده و ارتباطات کلیدی اولیه-خارجی بین جداول قدم می زند. سپس تجسم عملگرهای مجموعه بنیادی (اتحاد، تقاطع، نفی) را با مثال معرفی می کند که بر روی جداولی با فرمت یکسان عمل می کنند. سپس عملگرهای جدیدی به دانشآموزان ارائه میشود که جداول را به صورت افقی و عمودی فیلتر میکنند و همچنین عملگرهایی را که جداول را روی کلیدهای اولیه-خارجی ترکیب میکنند تا جدول بزرگتری را که برای پاسخ به یک پرس و جو لازم است، ارائه دهند. به دومی اتصالات می گویند. پس از معرفی این اپراتورهای مختلف، استاندارد صنعتی SQL برای پایگاههای اطلاعاتی پرسوجو معرفی میشود و یک پرسوجو متنی به صورت تدریجی همراه با یک نمایش بصری از پرس و جو ساخته میشود، همانطور که در شکل ۵ نشان داده شده است. پرس و جو SQL پاسخ پرسش طراحی شده در شکل را ارائه میکند. ۴، که شامل فیلتر افقی (میانگین ضربه زدن و نام پارچ) و فیلتر عمودی (میانگین مطابقت) در ترکیب با یک اتصال (نام ضربهگیر) است.
مفاهیم کلیدی IntroDB و عملیات برای دستکاری و ترکیب داده ها در QueryDB قطعاً برای آمار به عنوان بخشی ضروری از چرخه تجزیه و تحلیل داده ها قابل استفاده است. بسته dplyr برای R همچنین از این مفاهیم برای دستکاری داده ها استفاده می کند، همانطور که در بخش بعدی نشان داده شده است.
اتصال ۳ dplyr
این مقدمه بر مفاهیم علم داده در چارچوب یک دوره مقدماتی آمار گنجانده شد، با قرار دادن دانشآموزان در معرض پرسشهایی از مجموعه دادههایی که به مهارتهای «جدال داده» نیاز دارند، که هم در پایگاههای اطلاعاتی و هم در آمار مهم هستند. در زمینه پایگاه داده، SQL زبان استاندارد صنعتی است که پشتیبانی گسترده ای را برای پرسیدن سؤالات بر روی داده های ذخیره شده در پایگاه داده، از جمله برخی عملیات اساسی برای تجزیه و تحلیل داده ها، مانند مجموع، حداقل، حداکثر، میانگین و شمارش ارائه می دهد. در آمار، R ابزاری است که ابزارهای گسترده ای برای تجسم و تجزیه و تحلیل داده ها ارائه می دهد و dplyr زبانی است که داده ها را برای تجزیه و تحلیل دستکاری می کند. هدف یادگیری فعالیت ها این است که دانش آموزان مفاهیم بنیادی پایگاه داده و عملیات دستکاری داده ها را که در تجسم ها نشان داده شده است، درک کنند و این تکنیک ها را در فعالیت های آماری به کار گیرند. اگرچه دانشآموزان در حال یادگیری نحوه اعمال این عملیات در زمینه نحو SQL و R، بهویژه dplyr هستند، اما هدف نهایی این است که دانشآموزان واقعاً عملیات را درک کنند تا بتوانند این مفاهیم را در زمینهها و زبانهای دیگر حتی با تغییر فناوری اعمال کنند. . بنابراین، بستههای محبوب دیگر مانند SAS نیز میتوانند برای تجزیه و تحلیل و دسترسی به یک پایگاه داده رابطهای با استفاده از ابزارهای اساسی آموزش داده شده در ابزار مورد استفاده قرار گیرند (SAS Institute Inc., 2019).
مفاهیم پایگاه داده و dplyr
اتصالات کشمکش دادهای که در فعالیتها مورد تأکید قرار گرفت، دستکاری دادههای ضروری یک مجموعه داده و ترکیب مجموعههای داده را برجسته کرد. اولین گام در کشمکش داده ها، توانایی انجام پرس و جوهای داده پایه و کاهش مجموعه داده ها به متغیرها و ویژگی های مورد علاقه، ترتیب داده ها برای ارتباط نتایج است. دومین گام ضروری در جدال داده ها، توانایی ترکیب مجموعه داده های مختلف به طور صحیح برای پاسخ به سوالات پیچیده تر است. جدول ۱ مفهوم تجسم و مطابقت آن را در SQL و dplyr نشان می دهد. اکثر این ارتباطات، به استثنای عملیات مبتنی بر مجموعه (اتحاد، تقاطع، تفاوت)، در فعالیتهای محول شده به دانشآموزان گنجانده شدند.
اولین فعالیت دانش آموزی بر بحث و جدل داده های ضروری بدون ترکیب مجموعه داده ها متمرکز است. این فعالیت باید تا حد امکان در ابتدای ترم پس از بحث در مورد آمار توصیفی اولیه و تجسم های اولیه اختصاص داده شود. تجربه ادغام فعالیت به طور خلاصه در بخش ۴ توضیح داده شده است و خود فعالیت در مواد تکمیلی گنجانده شده است. از دانشآموزان خواسته شد تا با استفاده از مجموعه دادههای شخصیتهای جنگ ستارگان که در dplyr بهعنوان تیبل «ستارگان» درج شده است، «متوسط قد شخصیتهای Starwars انسانی را بیابند». این سؤال از دانشآموز میخواهد که ارتفاع متغیر را انتخاب کند، مجموعه داده را فقط شامل کاراکترهای انسانی فیلتر کند و برای یافتن میانگین یا میانگین قد، خلاصهسازی کند. جدول ۲ سینتکس dplyr و SQL مربوطه را نشان می دهد. هر دو dplyr و SQL نام ستون حاصل را به avgheight تغییر می دهند. توجه داشته باشید که فعالیت ها نیازی به استفاده از اپراتور لوله % >٪ ندارند. فعالیت واقعی به قطعات کوچکتر تقسیم می شود. اپراتور لوله در اینجا نشان داده شده است تا یک نحو یکپارچه را ارائه دهد که با پرس و جوی SQL مطابقت دارد.
اگرچه به عنوان بخشی از این فعالیت آزمایشی اولیه کاوش نشده است، دانشآموزان میتوانند با استفاده از بسته SQLdf، وارد کردن نحو SQL مستقیماً در R را بررسی کنند (Grothendieck، ۲۰۱۷). از آنجایی که SQLdf از فریم های داده در R و نه تیبل های dplyr استفاده می کند، تیبل Starwars باید برای استفاده در SQLdf به یک قاب داده صادر شود [Starwars = as.data.frame(starwars)]. نحو SQL نشان داده شده در جدول ۲ یک پارامتر نقل قول از تابع sqldf است. این یک اتصال جالب برای افزودن به نسخه های آینده تکلیف خواهد بود.
فعالیت دوم برای تقویت مفهوم اتصال، که مجموعه دادهها را در یک سؤال آماری ترکیب میکند، ایجاد شد. فعالیت دوم باید پس از بحث در مورد تحلیل واریانس یک طرفه یا رگرسیون خطی معرفی شود. باز هم خود فعالیت در مواد تکمیلی گنجانده شده است. یک سوال برای دانش آموزان با استفاده از بسته لهمان (دوستانه، ۲۰۱۷)، که جداول پایگاه داده بیسبال شان لحمان را به عنوان فریم های داده R ارائه می دهد، مطرح می شود، “آیا حقوق بالاتر در لیگ برتر بیسبال به آمار ضربات بالاتر بعد از ۱۹۸۵ مربوط می شود؟” برای پاسخ به این سوال، دانشآموزان ابتدا باید مجموعه دادههای Batting را برای فصلهای پس از ۱۹۸۵ فیلتر کنند و سپس چارچوبهای داده Batting و Salaries را بر روی ترکیبی از ویژگیهایی که دادهها را با استفاده از یک join در dplyr پیوند میدهند، ترکیب کنند. جدول ۳ سینتکس dplyr و SQL را برای سوال مطرح شده برای دانش آموزان مقایسه می کند. مجدداً اپراتور لوله برای مکاتبه با SQL معرفی می شود. همچنین، اتصال join را میتوان با درخواست از دانشآموزان برای ارائه مشخصات SQL مربوط به دستورات dplyr که سپس با استفاده از بسته SQLdf آزمایش میشود، بررسی کرد.
ارتباط بین پایگاه داده و آمار جزء جدایی ناپذیر علم داده است. با یادگیری مفاهیم بنیادی پایگاه داده و پرس و جو، دانش آموزان آمار قادر خواهند بود از این تکنیک ها در هر دو زمینه استفاده کنند. دانشآموزان میتوانند دادههای مورد نیاز خود را از پایگاههای داده بازیابی کنند و آن دادهها را با استفاده از dplyr در R بیشتر تجزیه و تحلیل و تجسم کنند. تجربه ادغام فعالیتهای فوق در کلاس درس، همراه با دیدگاههای دانشآموز در مورد تجربه در بخش بعدی مورد بحث قرار میگیرد.
۴. بحث
برای ارزیابی مختصر تأثیر درک شده از مواد یکپارچه، از دانشآموزان (n = ۳۰) نظرسنجی انجام شد تا به سؤالات نوع لیکرت و سؤالات باز درباره تجربه ادغام پس از اولین فعالیت پاسخ دهند. پاسخهای دانشآموزان به فعالیت یکپارچهسازی ارائهشده در جدول ۴ عمدتاً مثبت بود، و بیشتر دانشآموزان گزارش دادند که تجسمها از یادگیری و درک آنها از مشکل حمایت میکنند. بازخورد نماینده در زیر گنجانده شده است.
مهارت های آموخته شده در انیمیشن ها به پلتفرم های دیگر قابل انتقال است. به عنوان مثال، اولین انیمیشن جداولی را معرفی می کند که به صورت مفهومی با استفاده از کلیدهای اصلی و خارجی به هم مرتبط شده اند. در واقع، ۹۶٪ از دانش آموزان کلید اولیه ترکیبی مناسب را شناسایی کردند و با موفقیت به دو جدول برای تجزیه و تحلیل پیوستند. مفاهیم ارائه شده پایه ای برای یادگیری پرس و جو در پایگاه داده در هر زبانی از جمله R فراهم می کند (برای مثال R به Wickham، ۲۰۱۴ مراجعه کنید). اگرچه تجسم پرس و جو بر SQL متمرکز است، اما توسط هاردین و همکاران اشاره شده است. (۲۰۱۵) (هنگامی که به دوره ای توسط Wickham اشاره می شود) “در حالی که هر زبان ممکن است نحو خاص خود را داشته باشد، عملیات اساسی که روی داده ها انجام می شود یکسان است.” این انیمیشنها همچنین میتوانند به دانشآموزانی که دورههای ارشد Capstone را برگزار میکنند، مانند دورههایی که در Martonosi و Williams (2016) بازبینی شدهاند، کمک کنند تا شکاف بین آموزش آماری دانشآموزان و دستکاری دادهها و چالشهای مدیریتی در دنیای واقعی را پر کنند.
این ادغام مهارت های پایگاه داده در یک دوره مقدماتی آمار امیدوار کننده است. آزمایشی شرح داده شده در این مقاله یک تجربه اولیه با معرفی تجسم پایگاه داده مفاهیم اساسی در یک دوره آمار مقدماتی ارائه کرد. دانشآموزان از تجسم مفاهیم و توانایی اعمال این مفاهیم در R با dplyr قدردانی کردند و توانستند با فعالیت دوم دستکاری دادههای پیچیدهتری را با موفقیت انجام دهند.
معرفی مهارت های پایگاه داده در اوایل این دوره مزایای بیشتری دارد. پس از اینکه دانشآموزان توانستند دستکاری دادههای اولیه را انجام دهند، از مجموعه دادههای بزرگتر و غیر ضروری در تکالیف خانه استفاده شد. از دانشآموزان خواسته شد که دادهها را با استفاده از پنج فعل دستکاری کنند تا به سؤالات تکلیف پاسخ دهند. تجربه خود را فراتر از کتاب درسی گسترش دهند.
هم افزایی پایگاه های داده و آمار یک هدف یادگیری مهم برای یک دوره مقدماتی آمار است. کار آینده راه ها و فرصت های بیشتری را برای بازنگری و گنجاندن فعالیت های هم افزایی در برنامه درسی بررسی خواهد کرد.
تبریک می گوئیم مفاهیم پایگاه داده و dplyr به پایان رسید با اموزش ها و مقالات و مطالب بعدی مثل همیشه نگارنوین را همراهی کنید.