프로그래밍/python 3

[Python] python으로 notion에 글쓰기

1. 관련 라이브러리 install pip install notion 2. 베이스 코드 확인 from notion.client import NotionClient #노션 Token 입력 client = NotionClient(token_v2="") #글쓰려고 하는 페이지 링크 입력 page = client.get_block("https://www.notion.so/myorg/Test-c0d20a71c0944985ae96e661ccc99821") print("The old title is:", page.title) page.title = "The title has now changed, and has *live-updated* in the browser!" 3. 토큰 확인 방법 Notion 페이지 -> F..

[Python] selenium multiprocessing 병렬 처리 방법

최근에 팀 토이 프로젝트를 하면서 크롤링을 하고 있는데 크롤링해야 하는 데이터 양이 많다 보니 데이터 수집하는데 시간이 너무 오래 걸리는 것을 느꼈고 방법이 없을까 하다가 문득 머릿속에 병렬 처리 방법이 떠오르게 되었다. 그래서 바로 시도해봤고 나름 성공적으로 되어서 혹시 나와 같은 사람들이 있다면 python multiprocessing을 사용하여 병렬 처리를 해보자! *예제 코드 import multiprocessing def crawling(s,e,lists): divide=[(1,6),(6,11),(11,16),(16,21),(21,26),(26,31),(31,36)] manager=multiprocessing.Manager() lists=manager.list() process=[] for st..

[Python] pandas or pyspark to_csv 테이블 깨짐현상 해결법

현재 팀 토이 프로젝트를 진행하면서 크롤링한 데이터를 데이터 테이블로 만든 후 CSV 파일로 export한 후 다시 불러와보니 아래 사진과 같은 현상이 발생했다. 사진을 보면 테이블이 밀려 깨진 것들을 볼 수 있다. 내가 찾은 문제점은 총 2개이다 기본적으로 csv는 구분자가 , 로 되어있는데 이 테이블의 review부분에 , 이 포함되어 있어서 밀렸다고 생각한다. 나는 pyspark을 사용했기 때문에 이 문제를 해결하는 코드는 다음과 같다. data_df.coalesce(1).write.option("sep","|")\ .option("header","true")\ .csv('파일경로') 2. review 데이터에 개행문자들이 많이 포함되어 있었던 게 문제가 되었던 것 같다. 이런 문제는 정규표현식을 ..