نوع مقاله : مقاله پژوهشی
نویسندگان
1 گروه علوم خاک، دانشکده کشاورزی، دانشگاه گیلان، رشت، ایران
2 مؤسسه تحقیقات خاک و آب، سازمان تحقیقات، آموزش و ترویج کشاورزی، کرج، ایران
چکیده
در سالهای اخیر، استفاده از روشهای نقشهبرداری رقومی مبتنی بر الگوریتمهای یادگیری ماشین باهدف تهیه نقشه کلاسهای خاک بطور گستردهای توسعه یافته است. اساس این روشها پیشبینی کلاسها یا ویژگیهای خاک به کمک مدلسازی روابط بین آنها و متغیرهای محیطی به عنوان نمایندگان عوامل خاکسازی، میباشد. ماهیت نامتوازن توزیع خاکها در طبیعت که منجر به بیشبرازش کلاسهای با فراوانی زیاد و کم برازش کلاسهای با فراوانی کم و درنتیجه کاهش دقت فرآیند نقشهبرداری خاک شده، از چالشهای موجود در این روش میباشد. بنابراین، پژوهش حاضر باهدف ارزیابی توانایی دو الگوریتم جنگل تصادفی و ماشینبردارپشتیبان در نقشهبرداریرقومی کلاسهای فامیل خاک با توزیع نامتوازن، حاصل از 95 خاکرخ مطالعاتی در 4000 هکتار از اراضی زیرحوضه هنام، استان لرستان انجام گرفت. در این مطالعه موضوع عدم توازن در فراوانی کلاسهای خاک با استفاده از 6 مجموعه داده، ازجمله مجموعه دادههای اصلی و پنج مجموعه داده ایجادشده توسط چندین رویکرد نمونهگیری مجدد از دادههای اصلی، شامل دو رویکرد طبقهبندی دستی و سه الگوریتم بیشنمونهگیری و کمنمونهگیری و بیشنمونهگیری اقلیت مصنوعی در محیط نرم افزار R موردبررسی قرار گرفت. نتایج نشان داد علیرغم مقایر پائین آمارههای اعتبارسنجی، شباهت گسترش خاکهای با فراوانی زیاد در منطقه مطالعاتی در نقشههای حاصل از مدل جنگل تصادفی و مجموعه دادههای اصلی و همچنین الگوریتم بیشنمونهگیری اقلیت مصنوعی با نقشه خاک تهیهشده به روش مرسوم قابلتوجه میباشد. بنابراین فراوانی کم سایر کلاسهای خاک و در نتیجه آن عدم آموزش درست مدلها برای آنها را میتوان یکی از دلایل اصلی صحتکلی کم مدلهای بهکاررفته دانست.
کلیدواژهها
عنوان مقاله [English]
Investigating the effectiveness of resampling algorithms in improving the classification of unbalanced data in digital soil mapping
نویسندگان [English]
- Fatemeh Ebrahimi Meymand 1
- Hasan Ramezanpour 1
- Nafiseh Yaghmaeian 1
- Kamran Eftekhari 2
1 Soil Science Department, College of Agriculture, University of Guilan, Rasht, Iran.
2 Soil and Water Research Institute, Agriculture Research, Education and Extension Organization (AREEO), Karaj, Iran
چکیده [English]
In recent years, the use of digital soil mapping (DSM) based on machine learning algorithms with the aim of preparing soil maps has become widespread with the basis of soil class prediction with the help of modeling the relationships between them and environmental variables. One of this method's challenges is the imbalanced nature of soil distribution in landscape, which leads to overfitting and underfitting of classes, and as a result, reduces the accuracy of many used models. This study was conducted to evaluate the ability of two machine learning algorithms, including random forests and support vector machines, for the digital mapping of soil classes with an imbalanced data set. This study was conducted on 95 soil profile classes at the family level, in 4000 hectares of land in the Honam sub-basin, Lorestan province. The issue of imbalance in soil classes was investigated by using six data sets, including the original soil data set and five data sets created by several resampling approaches including two manual classifications and three over-sampling, under-sampling, and Synthetic Minority Over-Sampling Techniques in the R software. The results showed that despite the low values of overall accuracy, the Geographical distribution of soils with high frequency in the study area in digital soil map obtained from the random forest and the original data set as well as Synthetic Minority Over-Sampling Technique, with conventional soil map of study area is significant. Therefore, the low observation number of other soil classes and as a result incorrect training of models can be considered as one of the main reasons for the low accuracy of the used models.
کلیدواژهها [English]
- Machine learning
- Oversampling
- R software
- soil map
- under sampling