绱 棨搴勫洯Spark瀹炶返瑙嗛璇﹁В銆佷粠鍩虹鎿嶄綔鍒板疄鎴樻渚嬪叏闈㈣В鏋�

2025-11-24 03:05:09 | 鏉ユ簮锛�浜烘皯缃戝嚭鍝�9629

灏忓瓧鍙�

鐐瑰嚮鎾姤鏈枃锛岀害

姣忕粡缂栬緫

褰撳湴鏃堕棿2025-11-24,rmwashfiusebfksdughuweibrkk

瀹冧笉鍙槸涓€涓绠楀紩鎿庯紝鏇存槸涓€濂楄骞挎硾浣跨敤鐨勬€濊€冩鏋讹細鍒嗗竷寮忚绠椼€佸唴瀛樺寲澶勭悊銆佷赴瀵岀殑API銆佷互鍙婂鎵瑰鐞嗕笌娴佸鐞嗙殑缁熶竴鏀寔銆傜悊瑙park锛屽厛浠庡畠鐨勬牳蹇冩暟鎹娊璞¤璧枫€俁DD鏄簳灞傜殑涓嶅彲鍙樺垎甯冨紡闆嗗悎锛屾彁渚涗簡瀵规瘡涓€涓厓绱犻€愭鍙樻崲鐨勮兘鍔涳紱DataFrame鍒欐槸甯︽ā寮忕殑鏁版嵁闆嗭紝鍏峰寮哄ぇ浼樺寲鍜岀畝娲佺殑API锛涜€孌ataset鍦ㄤ袱鑰呬箣闂存彁渚涚被鍨嬪畨鍏ㄣ€�

DAG璋冨害銆佸垎鍖恒€佺紦瀛樸€丼huffle绛夋満鍒讹紝鍐冲畾浜嗗摢涓€姝ユ渻鍦ㄩ泦缇や腑骞惰鎵ц銆佸摢涓€姝ラ渶瑕佺綉缁滀紶杈撱€傝繖浜涙蹇靛湪娌℃湁瀹為檯鎿嶄綔鍓嶄技涔庢娊璞★紝浣嗕竴鏃︿綘鍔ㄦ墜鍐欎唬鐮併€佽窇涓€涓畝鍗曠殑浠诲姟锛屼綘灏辫兘鍒囧疄鎰熷彈鍒版暟鎹湪Spark涓殑鈥滄祦鍔ㄨ矾寰勨€濅笌鎬ц兘鐨勭洿鎺ュ叧鑱斻€�

绗簩绔狅細鎼缓浣犵殑绗竴濂楀疄楠岀幆澧冪幆澧冩惌寤虹殑鐩爣鏄浣犻浂鍘嬪姏鍦拌蛋閫氫粠鏈湴鍒颁簯绔殑缁冪繏璺嚎銆傞鍏堢‘璁DK鐗堟湰涓庣幆澧冨彉閲忚缃棤璇紱涓嬭浇瀹樻柟鍙戣鐗圫park锛岃В鍘嬪悗閰嶇疆SPARK_HOME涓嶱ATH锛岀‘淇濆懡浠よ鑳界洿鎺ヨ皟鐢╯park-shell鎴杝park-submit銆�

鍒濅綋楠岄€氬父浠庢湰鍦版ā寮忓仛璧凤紝楠岃瘉鈥滅幆澧冨氨缁€濈殑鎰熷彈銆傛帴鐫€灏濊瘯涓€涓畝鍗曠殑WordCount缁冧範锛氶€氳繃textFile璇诲彇鏂囨湰鏁版嵁锛屼娇鐢╢latMap灏嗘枃鏈媶鍒嗘垚鍗曡瘝锛宮ap缁欐瘡涓崟璇嶄竴涓鏁�1锛屾渶鍚庣敤reduceByKey杩涜鑱氬悎銆傚啀鎵╁睍鍒扮粨鏋勫寲鏁版嵁锛氳鍙朇SV锛屽埄鐢―ataFrame鐨剆elect銆乫ilter銆乬roupBy绛夋柟娉曪紝瀹炵幇鍩烘湰鐨勬暟鎹竻娲椾笌鑱氬悎銆�

浣犳渻鍙戠幇锛孯DD閫傚悎鐏垫椿鐨勫簳灞傛搷鎺э紝鑰孌ataFrame鍒欏儚鏄竴寮犳弿杩版暟鎹粨鏋勭殑鍦板浘锛屾煇浜涙儏鍐典笅Catalyst浼樺寲鍣ㄤ細璁╀綘鍘熷湴鍗囩骇鎬ц兘銆傞€氳繃杩欎簺姝ラ锛屼綘瀵筍park鏁翠釜鎵ц璁″垝鐨勬劅鐭ュ氨寮€濮嬫垚鍨嬩簡銆�

绗笁绔狅細浠嶳DD鍒癉ataFrame鍐嶅埌Dataset鈥斺€擜PI涓庢€濈淮鐨勮穬杩佺悊瑙ｄ笁澶ф牳蹇冩娊璞＄殑鍏崇郴锛屾槸鎶婃彙Spark鐨勫叧閿€俁DD鎻愪緵浜嗗己绫诲瀷鎺ュ彛锛岄€傚悎闇€瑕佺粏绮掑害鎺у埗鐨勫満鏅紱DataFrame浠ユā寮忓寲鐨勬暟鎹粨鏋勪笌涓板瘜鐨勫唴寤哄嚱鏁版彁鍗囬枊鍙戞晥鐜囷紝鍚屾椂鍏煎叿鎬ц兘浼樺寲鐨勬綔鍔涳紱Dataset鍒欏湪涓よ€呬箣闂存彁渚涚被鍨嬪畨鍏ㄤ笌鐏垫椿鎬с€�

闅忓悗锛屾垜浠€氳繃甯歌鐨勮浆鎹㈡搷浣滄潵寤烘ā鏁版嵁娴侊細map銆乫latMap銆乫ilter銆乨istinct绛夌敤浜庡垎瑙ｄ笌绛涢€夛紱reduceByKey銆乬roupBy銆乤gg绛夌敤浜庤仛鍚堛€傝鍔ㄦ搷浣滃collect銆乧ount銆乼ake銆乻aveAsParquet绛夊垯灏嗚绠楃粨鏋滆惤鍦般€�

闇€鐗瑰埆鐣欐剰鐨勬槸锛孲park璁＄畻鏄儼鎬ф墽琛岀殑锛屽彧鏈夐亣鍒拌鍔ㄦ椂鎵嶇湡姝ｈЕ鍙戯紱缂撳瓨涓庢寔涔呭寲鏄彁楂橀噸寰╄闂暟鎹泦鎬ц兘鐨勫父鐢ㄦ墜娈点€傛帉鎻″垎鍖虹瓥鐣ャ€乻huffle鎴愭湰銆佸箍鎾彉閲忕瓑瑕佺偣锛岃兘甯姪浣犲湪鏃ュ悗澶勭悊澶ф暟鎹椂蹇€熷畾浣嶇摱棰堛€�

绗洓绔狅細瀹炴搷婕旂粌鈥斺€斾粠闆舵暎浠诲姟鍒板畬鏁存暟鎹绾挎妸涓€涓湅浼肩畝鍗曠殑浠诲姟鍋氭垚鈥滄暟鎹绶氣€濓紝鏄渶鐩磋鐨勭粌涔犮€傜涓€姝ワ紝瀹屾垚涓€涓猈ordCount鐨勭ǔ鍋ョ増锛氳鍙栧婧愭枃鏈€佸仛鍒嗚瘝銆佹竻娲楃┖鏍煎拰鐗规畩绗﹀彿銆佺粺璁¤瘝棰戙€佹帓搴忚緭鍑猴紝鏈€鍚庢妸缁撴灉鍐欏嚭鍒颁竴涓枃鏈垨Parquet瀛樺偍銆�

绗簩姝ワ紝灏濊瘯璇诲彇缁撴瀯鍖栨暟鎹紙濡傛棩蹇椼€侀攢鍞〃锛夛紝杩涜瀛楁鎻愬彇銆佺被鍨嬭浆鎹㈠拰缂哄け鍊煎鐞嗭紝杈撳嚭瑕佽兘鏀拺涓嬫父鍒嗘瀽鐨勬竻娲楀悗鐨勮〃銆傜涓夋锛岃璁′竴涓皬鍨嬭仛鍚堝満鏅細鎸夋棩鏈熸垨鍦板尯瀵归攢鍞杩涜鑱氬悎锛岃绠楀钩鍧囧€笺€佹渶澶у€肩瓑锛岃緭鍑篊SV鎴朠arquet浠ヤ究浠〃鏉跨洿杩炪€傞€氳繃杩欎簺缁冧範锛屼綘涓嶄粎鐞嗚В浜嗘瘡涓畻瀛愬湪鏁版嵁娴佷腑鐨勪綅缃紝涔熸妸鈥滄€ц兘鐨勭棝鐐光€濅笌鈥滃彲缁存姢鎬р€濆彉鎴愯璁＄殑涓€閮ㄥ垎銆�

棰濆鐨勭粌涔犲彲浠ュ皾璇曞湪鍚屼竴涓簲鐢ㄩ噷鎶婃壒澶勭悊涓庣畝鍗曟祦澶勭悊缁撳悎璧锋潵锛屾劅鍙楃粨鏋勫寲娴佺殑鎬濇兂涓庡疄鐜拌矾寰勩€�

绗簲绔狅細瀛︾繏璺緞涓庤祫婧愭暣鍚堟湰闃舵鐨勭洰鏍囨槸寤虹珛绋冲畾鐨勫缈掕妭濂忓拰钀藉湴鑳藉姏銆傛妸鏈湴缁冧範绋冲浐鍚庯紝灏濊瘯灏嗗皬鍨嬬绾胯縼绉昏嚦浜戠锛屾垨鎺ュ叆鏇村ぇ瑙勬ā鐨�-demo鏁版嵁闆嗭紝鎰熺煡鍒嗗竷寮忕郴缁熺殑瀹為檯寤惰繜涓庤祫婧愮害鏉熴€傝鐪嬬传钘ゅ簞鍥璖park瀹炶返瑙嗛鏃讹紝鍏虫敞璁茶В鑰呭鏁版嵁娴佸悜銆丄PI鑳屽悗鐨勮璁＄悊蹇点€佷互鍙婃€ц兘鐐圭殑璁茶В锛岃€屼笉浠呬粎鏄唬鐮佹湰韬€�

鎶婃瘡闆嗚鐐瑰仛鎴愮瑪璁帮紝灏濊瘯鐢ㄤ笉鍚岀殑鏁版嵁婧愬拰鍙冩暟閲嶅楠岃瘉銆傞殢鐫€缁冪繏鐨勬繁鍏ワ紝浣犱細閫愭褰㈡垚涓€濂椻€滅湅鍒版暟鎹氨鐭ラ亾鎬庝箞鍐欌€濈殑鐩磋锛屽苟鑳芥妸瀛︿範杞寲涓哄彲钀藉湴鐨勫垎鏋愮敘鍑恒€�

绗竴绔狅細瀹炴垬妗堜緥鐨勫叏闈㈣В鏋愰€插叆鍒扮湡瀹炰笘鐣岀殑鍦烘櫙锛孲park鐨勫▉鍔涙墠鑳界湡姝ｆ樉鐜般€傛湰閮ㄥ垎閫夊彇涓変釜甯歌涓斿叿浠ｈ〃鎬х殑妗堜緥锛屽甫浣犱粠闇€姹傚埌瀹炵幇鐨勫畬鏁磋矾寰勫啀鐜帮細妗堜緥涓€鏄棩蹇楀垎鏋愪笌鍛婅绯荤粺锛屾渚嬩簩鏄敤鎴疯涓轰笌鎺ㄨ崘鐗瑰緛鎻愬彇锛屾渚嬩笁鏄疄鏃舵暟鎹祦鐨勭鍒扮绠＄窔銆�

姣忎釜妗堜緥閮藉寘鍚暟鎹簮鎻忚堪銆佹竻娲椾笌瑙ｆ瀽閫昏緫銆佽仛鍚堜笌鐗瑰緛宸ョ▼銆佷互鍙婂皢缁撴灉鎸佷箙鍖栨垨鍙鍖栫殑钀藉湴鏂瑰紡銆傞€氳繃閫愭鎷嗚В锛屼綘浼氱湅鍒癝park濡備綍鍦ㄥ垎甯冨紡鐜涓鐞嗘捣閲忔暟鎹€佸浣曟帶鍒秊oin銆乻huffle銆佺紦瀛樺甫鏉ョ殑鎬ц兘鎴愭湰锛屼互鍙婂浣曢€氳繃缁撴瀯鍖栨煡璇紭鍖栬矾寰勬彁鍗囧悶鍚愩€�

鎶€鏈偣锛氫娇鐢―ataFrame瀵圭粨鏋勫寲鏃ュ織杩涜杩囨护銆佽浆鎹笌鑱氬悎锛岀粨鍚圵indows/婊戝姩鏃堕棿绐楀彛杩涜瀹炴椂鍒嗘瀽锛岄噰鐢ㄥ箍鎾彉閲忎紭鍖栧皬琛ㄧ殑閫ｆ帴銆傝惤鍦版晥鏋滐細浠〃鐩樺彲浠ュ疄鏃舵樉绀哄叧閿憡璀︼紝鍥㈤槦鍙湪寮傚父鍙戠敓鏅傚揩閫熷畾浣嶆簮澶淬€�

鎶€鏈偣锛氫娇鐢―ataFrameAPI閫茶缁勫悎寮忚仛鍚堛€佺獥鍙ｅ嚱鏁般€佷互鍙婂澶ц〃鐨勫垎鍖鸿鍓紱鑻ヤ笌MLlib缁撳悎锛屽彲鎶婄壒寰佺洿鎺ュ鍑虹敤浜庣绾挎ā鍨嬭缁冦€傝惤鍦版晥鏋滐細绂荤嚎鎺ㄨ崘鏇磋创杩戠敤鎴峰綋鍓嶅亸濂斤紝椤甸潰鐐瑰嚮涓庤浆鍖栫巼鎻愬崌鎴愪负鍙鐨勫洖鎶ャ€�

鎶€鏈偣锛氱粨鏋勫寲娴侊紙StructuredStreaming锛夋ā寮忎笅鐨勬按鍗般€佽繜鍒版暟鎹鐞嗐€佺姸鎬佺鐞嗕笌Checkpoint锛涚粨鍚堣Е鍙戝櫒銆佽緭鍑烘ā寮忎紭鍖栫鍒扮寤惰繜銆傝惤鍦版晥鏋滐細鐩戞帶绯荤粺鍜屼笟鍔″垎鏋愯兘澶熷湪绉掔骇鐢氳嚦姣绾ф劅鐭ュ彉鍖栵紝甯姪妤姟蹇€熷簲瀵广€�

绗簩绔狅細浠庤棰戝埌钀藉湴鈥斺€旈珮鏁堝涔犲苟鑷垜椹卞姩濡備綍鎶婅棰戦噷鐨勭煡璇嗚浆鍖栦负鑷繁鐨勮惤鍦拌兘鍔涳紵绗竴姝ユ槸璺熺潃姣忎釜妗堜緥鐨勬暟鎹簮涓庝换鍔＄洰鏍囬噸澶嶅疄鐜帮紝閫愭鏇挎崲鏁版嵁闆嗗苟璋冩暣鍙傛暟锛屽缓绔嬩竴涓€滃彲澶嶇敤鈥濈殑妯℃澘搴撱€傜浜屾锛屾妸鍏虫敞鐐规斁鍦ㄦ暟鎹祦鍚戝拰鎬ц兘鐐癸細鍝簺鎿嶄綔浼氫骇鐢焥huffle銆佸摢浜涚畻瀛愪細琚獵atalyst浼樺寲銆佸湪鍝簺闃舵闇€瑕佺紦瀛樸€佸浣曡缃垎鍗€鏁伴噺鍜屽唴瀛樺弬鏁般€�

绗笁姝ワ紝灏濊瘯鎶婁竴涓壒澶勭悊妗堜緥鏀归€犳垚涓€涓粨鏋勫寲娴佺殑鐗堟湰锛屼互鐞嗚В娴佷笌鎵逛箣闂寸殑鏉冭　銆傜鍥涙锛岃褰曟瘡娆″疄楠岀殑鎸囨爣锛氫綔涓氳€楁椂銆乻huffle鎴愭湰銆佸唴瀛樺崰鐢ㄣ€佽緭鍑哄悶鍚愮瓑锛岄€愭褰㈡垚鎬ц兘鍩虹窔锛屼粠鑰屽湪閬囧埌鏂版暟鎹簮鏃惰兘蹇€熷畾浣嶇摱棰堜笌瑙ｅ喅鏂规銆傞€氳繃杩欑鈥滃姩鎵嬧€斿垎鏋愨€斾紭鍖栤€濈殑寰幆锛屼綘浼氱櫦鐜板涔犱笉鍐嶆槸鐩茬洰鎶勫啓锛岃€屾槸鑳藉鍦ㄧ湡瀹炲満鏅腑鍋氬嚭鍒ゆ柇涓庢敼杩涖€�

绗笁绔狅細钀藉湴涓庨暱鏈熻矾绾垮皢瀛︿範杞寲涓哄彲鎸佺画鐨勬妧鑳斤紝闇€瑕佸缓绔嬮暱鏈熺殑瀛︾繏涓庡疄璺佃鍒掋€傚缓璁湪瀹屾垚涓婅堪妗堜緥鍚庯紝璁捐涓€涓皬鍨嬬鍒扮鐨勬暟鎹绾匡紝瑕嗙洊鏁版嵁閲囬泦銆佹竻娲椼€佽仛鍚堛€佸偍瀛樹笌鍒嗘瀽灞曠ず鐨勫畬鏁存祦绋嬨€傛妸绱棨搴勫洯鐨勫疄璺佃棰戜綔涓哄勾搴﹀涔犳竻鍗曠殑涓€閮ㄥ垎锛屽畾鏈熷洖椤句笌杩唬銆�

涓庢鍏虫敞琛屼笟鏈€浣冲疄璺碉細鍒椾妇娓呮櫚鐨勭洰鏍囥€侀€愭鎵╁睍鏁版嵁瑙勬ā銆佸叧娉ㄧ郴缁熺ǔ瀹氭€т笌瀹归敊鑳藉姏銆傞€氳繃鎸佺画鐨勫疄璺碉紝浣犲皢涓嶄粎鎺屾彙Spark鐨勫熀鏈敤娉曪紝鏇磋兘鍦ㄥ鏉傚満鏅腑鍋氬嚭楂樻晥銆佸彲闈犵殑鏁版嵁鍐崇瓥銆�