معرفی Selenium و کاربرد آن در وب اسکرپینگ

در ادامه مطلب های وب اسکرپینگ به زبان پایتون، در این مطلب می خواهیم در مورد Selenium و کاربرد آن در وب اسکرپینگ صحبت کنیم. Selenium به زبان ساده ابزاری متن باز (Open Source) برای آزمایش خودکار (Automate Test) برنامه های وب از طریق مرورگرهای استاندارد وب مانند Chrome, FireFox, Intrenet Explorer, Safari و Edge در ویندوز ۱۰ است. توجه کنید که Selenium تنها برای آزمایش برنامه های وب از طریق مرورگرهای وب است و به هیچ عنوان نمی توانیم آنرا برای برنامه های گرافیکی (GUI) و رومیزی (Desktop) و برنامه های ابزارهای همراه (Mobile Decices) مانند Android و iOS استفاده کنیم. به طور مثال شما وب سایتی به زبان پایتون یا پی اچ پی یا سی شارپ نوشته اید و حال می خواهید به صورت خودکار و بوسیله اسکریپتی به همان زبان، فرم ورود به سایت را آزمایش کنید. در این زمان Selenium به کار خواهد آمد.

ادامه‌ی خواندن

ابزار پایتون و گام ها برای وب اسکرپینگ

همانطور که پیش از این در مطلب وب اسکرپینگ چیست توضیح داده بودیم، در مباحث تحلیل داده جمع آوری داده ها اولین گام در انجام پروژه های تحلیل داده ها است. یکی از اصلی ترین منابعی که وجود دارد، منابع روی اینترنت هستند. داده های روی وب (اینترنت) معمولا و غالبا به صورت صفحه های وب هستند که این صفحه های وب توسط تگ های HTML ساخته شده اند، بنابر تعریف، وب اسکرپینگ روشی یا تکنیکی است که توسط آن صفحه های وب را می خوانیم و سپس به محتوای آن صفحه (منظور تگ های HTML) دسترسی پیدا می کنیم.

ادامه‌ی خواندن

کاربردهای مختلف وب اسکرپینگ

همانطور که در مطلب پیشین توضیح دادیم، هدف اصلی استخراج داده های وب و تبدیل (Transform) آنها به فرمت هایی مانند پایگاه داده های رابطه ای و فایل های اکسل و csv است تا بتوانیم از آنها اطلاع های جامعی کسب کنیم. داده ها را می توانیم از سایت های مختلفی بدست آوریم.امروزه سایت های بسیاری با هدف فروشگاه های اینترنتی، املاک، شبکه های اجتماعی، تحلیل بازی های رایانه ای، وب سایت های علمی و تحقیقاتی و غیره وجود دارند که شاید بخواهید برای حوزه کسب و کار خود یا به عبارت دیگر تحلیل وضعیت فعلی یک حوزه خاص، داده های این سایت ها را استخراج و سپس آنها را تحلیل و یا حتی با یکدیگر مقایسه کنید. در ادامه برخی از کاربردهای وب اسکرپینگ توضیح داده شده اند.

ادامه‌ی خواندن

وب اسکرپینگ چیست

وب اسکرپینگ (web scraping) فرایندی است که با استفاده از ابزار یا کتابخانه های خاص زبان های برنامه نویسی، اجازه می دهد تا بتوانیم یک صفحه وب را باز کنیم و بخوانیم و سپس به تگ های html درون آن صفحه و قادتا مقادیر یا محتوای مربوط به هر تگ دسترسی داشته باشیم، پس می توانیم وب اسکرپینگ را روشی برای استخراج داده های وب بدانیم. در منابع مختلف که در مورد وب اسکرپینگ صحبت می کنند از نام های معادلی برای واژه و مفهوم web scraping استفاده شده اند که از جمله آنها می توانیم به Web Data Extractors یا Data Harvesters یا Crawling Tools یا Web Content Mining Tools اشاره کنیم.

ادامه‌ی خواندن

تعداد واژه های درون یک فایل متنی

در مطلب کار با فایل ها در پایتون، چگونگی خواندن و نوشتن فایل های متنی و دودویی را توضیح داده ایم. در این مطلب می خواهیم در مورد شمارش و پیدا کردن تعداد واژگان درون یک فایل متنی صحبت کنیم. به طور مثال می خواهیم فهرست یا تعداد تمامی واژگان، فهرست یا تعداد یک یا چندین واژه خاص، کدام واژه بیشترین تکرار را داشته است را پیدا کنیم. به روش های متفاوتی می توانیم واژه های درون یک فایل را  پیدا کنیم.  ادامه‌ی خواندن

ریاضیات در پایتون – نظریه مجوعه ها

در مفاهیم ریاضی، مجموعه (set) دسته ای از اشیا دو به دو متمایز است که این اشیا، عضوها یا عناصر مجموعه نامیده می‌شوند. در مجموعه هیچ عضو یا عنصر تکراری وجود ندارد و به عبارت دیگر اعضای مجموعه ها همگی منحصر به فرد (unique) هستند. در پایتون set (مجموعه) همانند لیست، تاپل، دیکشنری یک ساختار داده (data structure) است که بسیار شبیه به لیست ها است با این تفاوت که در لیست ها عضو (یا عنصر) تکراری وجود دارد ولی در مجموعه تمامی عناصر منحصر به فرد هستند. ادامه‌ی خواندن

iterator ها در پایتون

در پایتون همانند هر زبان برنامه نویسی دیگری از حلقه for برای پیشمایش بر روی عناصر یک مجموعه از عناصر استفاده کنیم. به طور مثال برای پیمایش بر روی عناصر لیست ها، تاپل ها، دیکشنری ها و کاراکترهای یک رشته از حلقه تکرار for استفاده کنیم. Iterator به معنی تکرار کننده است و در پایتون لیست ها، تاپل ها و دیکشنری ها انواع درونی (built-in) هستند که در واقع یک iterator هستند و می توانیم حلقه تکرار for را برای پیمایش و دسترسی به عناصر آنها استفاده کنیم. ادامه‌ی خواندن

ماژول ConfigParse برای مدیریت تنظیم های برنامه های پایتون

در مطلب روش های ذخیره تنظیم های برنامه های پایتون در مورد چندین روش ممکن برای ذخیره سازی و دسترسی به تنظیم ها در برنامه های پایتون صحبت کرده ایم. در این مطلب به روش دیگری برای اداره کردن تنظیم ها در برنامه های پایتون می پردازیم. ماژول configparser یک ماژول درونی (built-in) در پایتون است که از آن برای اداره کردن بسیار ساده تنظیم های یک برنامه استفاده می شود. برای استفاده از این ماژول نیازی به نصب آن نیست. ماژول configparser متکی به فایلی با پسوند ini است که ساختاری شبیه به ساختار فایل های INI در سیستم عامل ویندوز دارد. ادامه‌ی خواندن

روش های ذخیره تنظیم های برنامه های پایتون

برنامه های مختلفی مانند برنامه های تحت وب، برنامه های گرافیکی، برنامه های خط فرمان، تحلیل و پردازش داده ها، کار با پایگاه داده های رابطه ای و غیر رابطه ای NoSQL و غیره را می توان با زبان پایتون بنویسیم. چیزی که در تمامی این برنامه ها وجود دارد، یک سری از تنظیم هایی هستند که باید در یک سری از گزینه ها پیکر بندی شوند. پایتون برای کار با این مورد و خواندن تنظیم های پیکربندی، ماژول استاندارد و درونی (built-in) به نام ConfigParser را فراهم کرده است. در این مطلب می خواهیم روش های مختلفی که برای ذخیره سازی تنظیم ها استفاده می شوند را معرفی کنیم. ادامه‌ی خواندن

ایجاد برنامه های خط فرمان با ماژول click – بخش سوم

در مطالب قبلی در مورد option ها و آرگومان ها صحبت کردیم و توضیح دایم که option ها می توانند به صورت بولی باشند و یا option هایی را تعریف کنیم که یک یا چند مقدار را دریافت کنند. آر گومان ها شبیه option ها هستند با این تفاوت که وابسته به موقعیت می باشند. در این مطلب می خواهیم جنبه دیگری از برنامه های خط فرمان صحبت که prompt یا اعلان نامیده می شوند. اعلان پیغامی است که به کاربر برای وارد کردن اطلاعات نمایش داده می شود. لطفا پیش از هر چیز بخش نخست از سری مطلب های ماژول click را مطالعه کنید. ادامه‌ی خواندن