반응형

dataframe 4

pandas 데이터프레임 열 유형을 문자열 또는 범주형으로 변환

pandas 데이터프레임 열 유형을 문자열 또는 범주형으로 변환 팬더 데이터 프레임의 한 열을 입력 문자열로 변환하려면 어떻게 해야 합니까?아래 주택 데이터의 df에서는 선형 회귀를 실행할 때 zipcode가 숫자가 아닌 범주형으로 처리되도록 zipcode를 문자열로 변환해야 합니다.감사합니다! df = pd.DataFrame({'zipcode': {17384: 98125, 2680: 98107, 722: 98005, 18754: 98109, 14554: 98155}, 'bathrooms': {17384: 1.5, 2680: 0.75, 722: 3.25, 18754: 1.0, 14554: 2.5}, 'sqft_lot': {17384: 1650, 2680: 3700, 722: 51836, 18754: 26..

programing 2023.10.20

Spark DataFrame을 피벗하는 방법은?

Spark DataFrame을 피벗하는 방법은? Spark DataFrame을 사용하기 시작했는데 데이터를 피벗하여 여러 행으로 된 1열 중 여러 열을 생성할 수 있어야 합니다.스캘딩에는 그것을 위한 기능이 내장되어 있고 저는 Python에는 Pandas가 있다고 믿지만 새로운 Spark Dataframe에 대한 기능을 찾을 수 없습니다. 나는 이것을 할 수 있는 일종의 맞춤 기능을 쓸 수 있다고 생각하지만, 특히 스파크의 초보자이기 때문에 어떻게 시작해야 할지도 잘 모르겠습니다.스칼라에 무엇인가를 쓰는 방법에 대한 제안이나 내장된 기능으로 이것을 하는 방법을 아는 사람이 있다면 매우 감사하겠습니다.David Anderson Spark가 언급한 대로 버전 1.6부터 기능을 제공합니다.일반 구문은 다음과 ..

programing 2023.10.20

NaN 타입 플로트로 빈 팬더 DataFrame을 만드는 우아한 방법

NaN 타입 플로트로 빈 팬더 DataFrame을 만드는 우아한 방법 NaN으로 채워진 판다 데이터 프레임을 만들고 싶습니다.조사를 하는 동안 다음과 같은 답을 찾았습니다. import pandas as pd df = pd.DataFrame(index=range(0,4),columns=['A']) 이 코드는 "객체" 유형의 NaN으로 채워진 DataFrame을 생성합니다.따라서 나중에 예를 들어 사용할 수 없습니다.interpolate()방법.그래서 저는 다음과 같은 복잡한 코드(이 답변에서 영감을 얻은)로 DataFrame을 만들었습니다. import pandas as pd import numpy as np dummyarray = np.empty((4,1)) dummyarray[:] = np.nan d..

programing 2023.10.20

두 개의 데이터 프레임을 결합하고, 한 열에서 모든 열을 선택하고 다른 열에서 일부 열을 선택합니다.

두 개의 데이터 프레임을 결합하고, 한 열에서 모든 열을 선택하고 다른 열에서 일부 열을 선택합니다. 내가 스파크 데이터 프레임을 가지고 있다고 가정해 보겠습니다.df1, 몇 개의 열(그 중에서 열)이 있는id) 및 데이터 프레임df2두 개의 열로id그리고.other. 다음 명령을 복제하는 방법이 있습니까? sqlContext.sql("SELECT df1.*, df2.other FROM df1 JOIN df2 ON df1.id = df2.id") 다음과 같은 pyspark 기능만을 사용함으로써join(),select()뭐 그런거? 함수에 이 조인을 구현해야 하는데 함수 매개 변수로 sqlContext를 강제로 가지는 것을 원하지 않습니다.별표()*)은 별칭과 함께 작동합니다.예: from pyspark...

programing 2023.09.10
반응형