معرفی Selenium و کاربرد آن در وب اسکرپینگ

در ادامه مطلب های وب اسکرپینگ به زبان پایتون، در این مطلب می خواهیم در مورد Selenium و کاربرد آن در وب اسکرپینگ صحبت کنیم. Selenium به زبان ساده ابزاری متن باز (Open Source) برای آزمایش خودکار (Automate Test) برنامه های وب از طریق مرورگرهای استاندارد وب مانند Chrome, FireFox, Intrenet Explorer, Safari و Edge در ویندوز ۱۰ است. توجه کنید که Selenium تنها برای آزمایش برنامه های وب از طریق مرورگرهای وب است و به هیچ عنوان نمی توانیم آنرا برای برنامه های گرافیکی (GUI) و رومیزی (Desktop) و برنامه های ابزارهای همراه (Mobile Decices) مانند Android و iOS استفاده کنیم. به طور مثال شما وب سایتی به زبان پایتون یا پی اچ پی یا سی شارپ نوشته اید و حال می خواهید به صورت خودکار و بوسیله اسکریپتی به همان زبان، فرم ورود به سایت را آزمایش کنید. در این زمان Selenium به کار خواهد آمد.

ادامه‌ی خواندن

ابزار پایتون و گام ها برای وب اسکرپینگ

همانطور که پیش از این در مطلب وب اسکرپینگ چیست توضیح داده بودیم، در مباحث تحلیل داده جمع آوری داده ها اولین گام در انجام پروژه های تحلیل داده ها است. یکی از اصلی ترین منابعی که وجود دارد، منابع روی اینترنت هستند. داده های روی وب (اینترنت) معمولا و غالبا به صورت صفحه های وب هستند که این صفحه های وب توسط تگ های HTML ساخته شده اند، بنابر تعریف، وب اسکرپینگ روشی یا تکنیکی است که توسط آن صفحه های وب را می خوانیم و سپس به محتوای آن صفحه (منظور تگ های HTML) دسترسی پیدا می کنیم.

ادامه‌ی خواندن

کاربردهای مختلف وب اسکرپینگ

همانطور که در مطلب پیشین توضیح دادیم، هدف اصلی استخراج داده های وب و تبدیل (Transform) آنها به فرمت هایی مانند پایگاه داده های رابطه ای و فایل های اکسل و csv است تا بتوانیم از آنها اطلاع های جامعی کسب کنیم. داده ها را می توانیم از سایت های مختلفی بدست آوریم.امروزه سایت های بسیاری با هدف فروشگاه های اینترنتی، املاک، شبکه های اجتماعی، تحلیل بازی های رایانه ای، وب سایت های علمی و تحقیقاتی و غیره وجود دارند که شاید بخواهید برای حوزه کسب و کار خود یا به عبارت دیگر تحلیل وضعیت فعلی یک حوزه خاص، داده های این سایت ها را استخراج و سپس آنها را تحلیل و یا حتی با یکدیگر مقایسه کنید. در ادامه برخی از کاربردهای وب اسکرپینگ توضیح داده شده اند.

ادامه‌ی خواندن

وب اسکرپینگ چیست

وب اسکرپینگ (web scraping) فرایندی است که با استفاده از ابزار یا کتابخانه های خاص زبان های برنامه نویسی، اجازه می دهد تا بتوانیم یک صفحه وب را باز کنیم و بخوانیم و سپس به تگ های html درون آن صفحه و قادتا مقادیر یا محتوای مربوط به هر تگ دسترسی داشته باشیم، پس می توانیم وب اسکرپینگ را روشی برای استخراج داده های وب بدانیم. در منابع مختلف که در مورد وب اسکرپینگ صحبت می کنند از نام های معادلی برای واژه و مفهوم web scraping استفاده شده اند که از جمله آنها می توانیم به Web Data Extractors یا Data Harvesters یا Crawling Tools یا Web Content Mining Tools اشاره کنیم.

ادامه‌ی خواندن