Tip(7)
-
Data Lake / Data Warehouse / Data Silo / Federated Query / Ad-hoc Query / Data Catalog
https://aws.amazon.com/ko/big-data/datalakes-and-analytics/ AWS 기반 데이터 레이크 및 분석 - Amazon Web Services Moderna Salesforce Intuit Pinterest aws.amazon.com Data Lake vs Data Warehouse Data lakes and data warehouses are both widely used for storing big data, but they are not interchangeable terms. A data lake is a vast pool of raw data, the purpose for which is not yet defined. A data warehouse is a..
2023.03.19 -
jupyter notebook markdown tip!
1. 첫 문단의 띄어쓰기, 여러번 띄어쓰기 등에 활용될 수 있는 띄어쓰기 2. Enter 기능 두 번 띄어쓰기 후 엔터 3. Bold체 ** text ** 4. italic체 * text * 참고 : Format Text In Jupyter Notebook With Markdown | Earth Data Science - Earth Lab
2021.06.11 -
[Python] 이미지 시각화의 기초 PIL, opencv활용
package 불러오기¶ In [1]: import numpy as np from PIL import Image import matplotlib.pyplot as plt %matplotlib inline 이미지 파일 열기¶ opencv로도 열수 있지만, 이미지를 좌표값의 수치형으로 변형했을 때, shape 순서가 바뀌는 경향이 많다. 그렇기에 PIL로 여는 것을 학습하고자한다. In [2]: path = 'source/dog.jpg' image_pil = Image.open(path) image = np.array(image_pil) 이미지 들여다 보기¶ In [7]: image.shape # 가로 734, 세로 1100, 3(RGB색상 조합) Out[7]: (734, 1100, 3) In..
2020.08.26 -
[Python] plt.plot의 기본적인 함수와 사용법
Graph Visualization¶ Load Packages¶ In [1]: import numpy as np import matplotlib.pyplot as plt %matplotlib inline # plt.show()를 하지 않아도 자동으로 생성되도록 만든다. UsageError: unrecognized arguments: # plt.show()를 하지 않아도 자동으로 생성되도록 만든다. Basic Attributes¶parameters¶alpha : 투명도 kind : 그래프 종류 'line', 'bar', 'barh', 'kde' logy : Y축에 대해 Log scaling use_index : 객체의 색인을 눈금 이름으로 사용할지 여부 rot : 눈금 이름 돌리기 (rotating) 0 ..
2020.08.26 -
[Python] numpy 라이브러리의 기본적인 유용한 함수들
Numpy Basic¶ In [1]: import numpy as np data type¶ array의 dtype을 본다. In [2]: arr = np.array([[1., 2, 3], [1, 2, 3]]) numpy의 data 타입은 하나라도 실수가 포함되어 있으면 실수로 인식한다 In [3]: arr.dtype Out[3]: dtype('float64') .astype()을 사용해서 datatype을 강제 형변환 가능 In [81]: arr = arr.astype(np.int32) arr Out[81]: array([3, 5, 6, 6, 3, 3, 1]) array를 생성할 때, dtype= 을 지정해주어서 만들 수도 있다. In [84]: arr = np.array([[1., 2, ..
2020.08.26 -
[Python tip] pandas dataframe과 numpy array의 출력결과를 늘리는 법
pandas와 numpy 모두 데이터를 확인하고 가공할 때, 자주쓰는 라이브러리이다. 개인적으로 이를 통해 전처리작업을 진행하는 와중에 데이터의 잘못된 가공된 부분이 있나 찾기 위해서 출력결과창의 개수 제안을 늘릴 필요가 있었다. pandas import pandas as pd pd.set_option('display.max_row', 300) # 행 출력개수 300 제한 pd.set_option('display.max_columns', 100) # 컬럼 출력개수 100 제한 # 더 늘릴 수 있음 df.head(300) # 상위 300개 df.tail(300) # 하위 300개 numpy import numpy as np np.set_printoptions(threshold=np.inf) # 배열의 모두..
2020.08.16