معرفی مسئله
This dataset is originally from the National Institute of Diabetes and Digestive and Kidney Diseases.
این مجموعه داده در اصل از موسسه ملی دیابت و بیماری های گوارشی و کلیوی تهیه شده است
The objective of the dataset is to diagnostically predict whether or not a patient has diabetes, based on certain diagnostic measurements included in the dataset.
. هدف مجموعه داده این است که براساس اندازهگیریهای تشخیصی خاص موجود در مجموعه داده، پیشبینی تشخیصی اینکه آیا بیمار مبتلا به دیابت است یا خیر.
Several constraints were placed on the selection of these instances from a larger database.
؟؟؟
In particular, all patients here are females at least 21 years old of Pima Indian heritage.
همه زنان حداقل سن 21 سال را دارند.
The datasets consists of several medical predictor variables and one target variable, Outcome.
دیتاست شامل چند متغیر مستقل است ویک متغیر خروجی وابسته.
Predictor variables includes the number of pregnancies the patient has had, their BMI, insulin level, age, and so on.
متغیرها عبارتند از:
- تعداد دفعات بارداری افراد
- مقدار BMI آنها
- سطح انسولین آنها
- سن آنها
- و …
سوال:
Can you build a machine learning model to accurately predict whether or not the patients in the dataset have diabetes or not?
آیا می توانید یک مدل یادگیری ماشینی بسازید تا دقیقاً پیش بینی کند که آیا بیماران در مجموعه داده دیابت دارند یا نه؟
نمونه حل: لینک کگل
Data Exploration
Pregnancies: Number of times pregnant
تعداد دفعاتی که باردار بوده اند
Glucose: Plasma glucose concentration a 2 hours in an oral glucose tolerance test.
شاخصی مربوط به غلظت گلوکوز
This is a lab test to check how your body handles the sugar. Normal person (2 hr after glucose test) should have less than 140mg/dl
فرد عادی (2 ساعت پس از آزمایش گلوکز) باید کمتر از 140 میلی گرم در دسی لیتر داشته باشد.
Blood Pressure: Diastolic blood pressure (mm Hg).
فشار خون-
Normal values are less than 80. Stage 1 hypertension: 80-89 Stage 2 hypertension: 90 or more Hypertensive crisis: 120 or more
- مقادیر طبیعی کمتر از 80 است.
- 1 فشار خون بالا: 80-89
- 2 فشار خون بالا: 90 یا بیشتر
- بحران فشار خون بالا: 120 یا بیشتر
Skin Thickness: Triceps skin fold thickness (mm)
ضخامت پوست
For adults the normal values are 2.5 mm for men; 18 mm for women
برای بزرگسالان مقادیر طبیعی برای مردان 2.5 میلی متر است. 18 میلی متر برای زنان
Insulin: 2-Hour serum insulin (mu U/ml). Insulin is a hormone that helps move blood sugar.
انسولین: انسولین سرم ۲ ساعته (mu U/ml).
انسولین هورمونی است که به حرکت قند خون کمک می کند.
150 mu U/ml is a critical number, in which most people with type 1 or 2 needs insulin theraphy
150 mu U/ml یک عدد بحرانی است که در آن اکثر افراد مبتلا به نوع 1 یا 2 به انسولین درمانی نیاز دارند.
BMI: Body mass index (weight in kg/(height in m)^2): Assess if a person is overweight or underweight.
BMI: شاخص توده بدنی (وزن بر حسب کیلوگرم/(قد بر حسب متر)^2):
بررسی کنید که آیا فرد اضافه وزن دارد یا کم وزن.
Underweight: less than 18.5 Normal weight: 18.5 – 24.9 Overweight: 25-29.9 Obese: over 30.0
- کم وزن: کمتر از 18.5
- وزن طبیعی: 18.5 – 24.9
- اضافه وزن: 25-29.9
- چاق: بیش از 30.0
Diabetes pedigree function: Provides some information on the history in relatives. This is a measure of genetic influence.
عملکرد شجره نامه دیابت:
اطلاعاتی در مورد سابقه در بستگان ارائه می دهد. این معیار تأثیر ژنتیکی است.
Age (years)
سن
Target variable: Outcome 1 indicates having diabetes; 0 indicates not having
متغیر هدف:
- نتیجه 1 نشان دهنده ابتلا به دیابت است.
- 0 نشان دهنده نداشتن است.
1- گیت هاب-1- لینک
2- مقاله مدیوم – لینک
سوالاتی که باید جواب بدهیم:
- Pregnancy, glucose, blood pressure, skin thickness, etc. What effect do factors have on being diabetic or not?
- بارداری، گلوکز، فشار خون، ضخامت پوست و … چه عواملی در دیابتی بودن یا نبودن تاثیر دارد؟
- Which variable has the most effet on being diabetic?
- کدام متغیر بیشترین تأثیر را در دیابت دارد؟
- What is the relationship between weight and skin thickness?
- چه رابطه ای بین وزن و ضخامت پوست وجود دارد؟
- What is the relationship between genetic factor and diabetic?
- رابطه فاکتور ژنتیکی با دیابت چیست؟