人工智能PPT第3章 數(shù)據(jù)清洗與特征預(yù)處理.ppt
《人工智能PPT第3章 數(shù)據(jù)清洗與特征預(yù)處理.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《人工智能PPT第3章 數(shù)據(jù)清洗與特征預(yù)處理.ppt(12頁珍藏版)》請(qǐng)?jiān)趨R文網(wǎng)上搜索。
1、第第3 3章章 數(shù)據(jù)清洗與特征預(yù)處理數(shù)據(jù)清洗與特征預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)清洗n在實(shí)際的數(shù)據(jù)集中,通常存在著缺失值、在實(shí)際的數(shù)據(jù)集中,通常存在著缺失值、異常值等噪聲數(shù)據(jù)。數(shù)據(jù)清洗包括缺失異常值等噪聲數(shù)據(jù)。數(shù)據(jù)清洗包括缺失值處理、異常數(shù)據(jù)檢測(cè)與清除,重復(fù)值值處理、異常數(shù)據(jù)檢測(cè)與清除,重復(fù)值處理等。處理等。缺失缺失值值n采集數(shù)據(jù)時(shí),由于各種因素導(dǎo)致部分樣本的數(shù)據(jù)特性缺失。采集數(shù)據(jù)時(shí),由于各種因素導(dǎo)致部分樣本的數(shù)據(jù)特性缺失。缺失值通常以空白,缺失值通常以空白,NaN或其他占位符編碼。缺失值處理或其他占位符編碼。缺失值處理一般采用如下方法:刪除法和數(shù)據(jù)填充。一般采用如下方法:刪除法和數(shù)據(jù)填充。n刪除法:如果
2、某個(gè)屬性的缺失值過多,可以直接刪除整個(gè)刪除法:如果某個(gè)屬性的缺失值過多,可以直接刪除整個(gè)屬性。屬性。n數(shù)據(jù)填充:對(duì)屬性缺失的樣本采用其他值,如前后值、中數(shù)據(jù)填充:對(duì)屬性缺失的樣本采用其他值,如前后值、中位數(shù)、均值進(jìn)行替代。位數(shù)、均值進(jìn)行替代。nsklearn中中 Imputer 類或類或SimpleImputer類處理缺失值。類處理缺失值。imputer在在preprocessing模塊,而模塊,而SimpleImputer在在sklearn.impute模塊中。模塊中。異常值異常值n“異常數(shù)據(jù)異常數(shù)據(jù)”又稱為離群點(diǎn),具有與其他數(shù)據(jù)的顯著不同。通常檢測(cè)方法如又稱為離群點(diǎn),具有與其他數(shù)據(jù)的顯著不
3、同。通常檢測(cè)方法如下所示:下所示:n1)基于鄰近度的方法)基于鄰近度的方法n通常可以在對(duì)象之間定義鄰近性度量,異常對(duì)象是那些遠(yuǎn)離其他對(duì)象的對(duì)象。通??梢栽趯?duì)象之間定義鄰近性度量,異常對(duì)象是那些遠(yuǎn)離其他對(duì)象的對(duì)象。n2)基于密度的方法)基于密度的方法n僅當(dāng)一個(gè)點(diǎn)的局部密度顯著低于它的大部分近鄰時(shí)才將其分類為離群點(diǎn)。僅當(dāng)一個(gè)點(diǎn)的局部密度顯著低于它的大部分近鄰時(shí)才將其分類為離群點(diǎn)。n3)基于聚類的方法)基于聚類的方法n聚類分析用于發(fā)現(xiàn)局部強(qiáng)相關(guān)的對(duì)象。聚類分析用于發(fā)現(xiàn)局部強(qiáng)相關(guān)的對(duì)象。n一般采用一般采用Z標(biāo)準(zhǔn)化得到的閾值作為判斷標(biāo)準(zhǔn),超過閾值則為異常。標(biāo)準(zhǔn)化得到的閾值作為判斷標(biāo)準(zhǔn),超過閾值則為異常。
4、重復(fù)重復(fù)值值n重復(fù)值的存在會(huì)影響數(shù)據(jù)分析和挖掘結(jié)果的準(zhǔn)確性。對(duì)于重復(fù)值的存在會(huì)影響數(shù)據(jù)分析和挖掘結(jié)果的準(zhǔn)確性。對(duì)于重復(fù)值的處理,可以使用重復(fù)值的處理,可以使用Pandas中的相關(guān)方法,如下所中的相關(guān)方法,如下所示:示:nduplicated()用于判斷重復(fù)數(shù)據(jù)記錄用于判斷重復(fù)數(shù)據(jù)記錄ndrop_duplicates()用于刪除重復(fù)記錄用于刪除重復(fù)記錄特征預(yù)處理特征預(yù)處理n當(dāng)多個(gè)特征大小相差較大,或者某特征的方差相比其他特征數(shù)個(gè)數(shù)量當(dāng)多個(gè)特征大小相差較大,或者某特征的方差相比其他特征數(shù)個(gè)數(shù)量級(jí),容易影響或支配目標(biāo)結(jié)果。特征預(yù)處理就是通過轉(zhuǎn)換函數(shù)將這些級(jí),容易影響或支配目標(biāo)結(jié)果。特征預(yù)處理就是通過
5、轉(zhuǎn)換函數(shù)將這些特征數(shù)據(jù)轉(zhuǎn)換成適合算法模型的過程。特征數(shù)據(jù)轉(zhuǎn)換成適合算法模型的過程。方法含義方法名歸一化preprocessing.MinMaxScaler標(biāo)準(zhǔn)化preprocessing.StandardScaler魯棒化Preprocessing.RobustScaler規(guī)范化規(guī)范化n當(dāng)數(shù)據(jù)不符合正態(tài)分布、異常值較少的時(shí)當(dāng)數(shù)據(jù)不符合正態(tài)分布、異常值較少的時(shí)候,為了讓特征具有同等重要性,可以采候,為了讓特征具有同等重要性,可以采用規(guī)范化用規(guī)范化(normalization)將不同規(guī)格的數(shù)將不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一個(gè)規(guī)格,即變換到固定的最據(jù)轉(zhuǎn)換到同一個(gè)規(guī)格,即變換到固定的最小最大值的區(qū)間小最大值
- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
10 積分
下載 | 加入VIP,下載共享資源 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 人工智能PPT第3章 數(shù)據(jù)清洗與特征預(yù)處理 人工智能 PPT 數(shù)據(jù) 清洗 特征 預(yù)處理