Pandas
-
Ollama + SingleStore – LangChain = :-(
이전 記事에서는 Ollama, LangChain, 以及 SingleStore를 사용しました. LangChain은 Ollama와 SingleStore를 통합하는 데 効果적이고 精巧한 솔루션을 제공했습니다. 그러나 LangChain을 제거하면 어떻게 될까요? 이 記事에서는 LangChain을 依存せず Ollama와 SingleStore를 사용하는 예를 보여드릴 것입니다. 이전 記事에 기술된 同等의 결과를 얻을 수 있지만, 코드의 수가 증가하며, LangChain이 일반적으로 처리하는 인스턴스 관리를 더 많이 해야 합니다. 이 記事에 사용된 노트북 파일은 GitHub에 托管되어 있습니다. 개요 이전 記事에서는 다음 섹션에 기술된 同样的한 과정을 통해 시험 환경을 설정합니다: 개요 venv 또는 仮想 머신을 사용합니다. SingleStoreDB クラウド アカウントを作成します…
-
데이터 사이언스를 위한 데이터 웨어하우스: Arrow Flight SQL 채택으로 10배 데이터 전송
수년 동안 JDBC와 ODBC는 데이터베이스 상호 작용을 위한 일반적으로 채택된 표준이었습니다. 이제 데이터 영역의 광대한 범위를 바라보면서, 데이터 과학과 데이터 레이크 분석의 부상으로 더욱 거대한 데이터 세트가 증가하고 있습니다. 따라서 더 빠른 데이터 읽기와 전송이 필요하므로 JDBC와 ODBC보다 더 나은 해결책을 찾기 시작합니다. 이에 따라 Apache Doris 2.1에 Arrow Flight SQL 프로토콜을 포함하여 데이터 전송 속도를 수십 배 개선합니다. Arrow Flight SQL 기반 고속 데이터 전송 Apache Doris는 열 지향 데이터 웨어하우스로서 쿼리 결과를 열 지향 형식의 데이터 블록 형태로…
-
벡터 데이터베이스를 이용한 고급 페이스북 이벤트 데이터 분석 수행
오늘날 디지털 시대에서 모든 산업 분야의 전문가들은 예정된 이벤트, 컨퍼런스 및 워크숍에 대해 계속해서 업데이트해야 합니다. 그러나 광대한 온라인 정보의 바다 속에서 자신의 관심사와 일치하는 이벤트를 효과적으로 찾는 것은 큰 도전이 됩니다. 이 블로그에서는 이 문제에 대한 혁신적인 해결책을 소개합니다: Facebook에서 이벤트 데이터를 스크래핑하고 MyScale를 사용하여 스크래핑된 데이터를 분석하는 포괄적인 애플리케이션입니다. MyScale는 일반적으로 RAG 기술 스택과 연관되거나 벡터 데이터베이스로 사용되지만, 이러한 영역을 넘어서는 능력을 갖추고 있습니다. 우리는 벡터 검색 기능을 활용하여 의미적으로 유사한 이벤트를 분석하여 더 나은 결과와 통찰력을 제공하는…
-
PandasAI를 활용한 데이터 분석에서의 생성형 AI 활용
데이터가 스스로 분석되기를 바랐던 적이 있나요? 이제 그 날이 한 걸음 더 다가왔습니다. PandasAI는 데이터 분석을 획기적으로 간소화하는 혁신적인 도구입니다. 이 Python 라이브러리는 인기 있는 Pandas 라이브러리의 기능을 생성 AI의 도움으로 확장하여 자동화된 세련된 데이터 분석을 현실로 만들어냅니다. OpenAI의 GPT-3.5와 같은 생성 모델을 적용함으로써 PandasAI는 인간과 유사한 쿼리에 이해하고 응답하며, 복잡한 데이터 조작을 실행하고, 시각적 표현을 생성할 수 있습니다. 데이터 분석과 AI가 결합하여 기업과 연구자에게 새로운 가능성을 열어주는 통찰력을 만들어냅니다. 이 튜토리얼에서는 이 강력한 라이브러리를 다양한 작업에 어떻게 사용하는지 살펴보겠습니다.…
-
ClickHouse: 처음부터 배우는 Windows 함수
ClickHouse는 분석 작업을 위해 최적화된 고도로 확장 가능한 컬럼 지향적 관계형 데이터베이스 관리 시스템입니다. 검색 엔진 회사인 Yandex에서 개발한 오픈소스 제품입니다. ClickHouse의 핵심 기능 중 하나는 고급 분석 기능을 지원한다는 것으로, 이 중에서도 윈도우 함수를 포함합니다. 윈도우 함수는 1990년대 후반 SQL Server에서 처음 소개되었으며, 그 이후 많은 관계형 데이터베이스에서 표준 기능으로 자리 잡았습니다. 이 중에는 ClickHouse도 포함됩니다. 현재 윈도우 함수는 데이터 분석가와 개발자에게 필수적인 도구로 사용되며 다양한 산업에서 널리 활용되고 있습니다. 이러한 함수는 분석 함수라고도 하며, 슬라이딩 윈도우의 행 집합을…
-
Python pandas dropna()를 사용하여 DataFrame에서 NA 값 삭제하기
소개 이 튜토리얼에서는 판다의 DataFrame dropna() 함수를 사용하는 방법을 배우게 됩니다. NA 값은 “사용할 수 없음”을 의미합니다. 이는 Null, None, pandas.NaT, 또는 numpy.nan에 적용될 수 있습니다. dropna()를 사용하면 이러한 값을 가진 행과 열을 삭제할 수 있습니다. 이는 유효한 데이터만을 제공하여 도움이 될 수 있습니다. 기본적으로 이 함수는 새로운 DataFrame을 반환하며 원본 DataFrame은 변경되지 않습니다. 이 튜토리얼은 Python 3.10.9, pandas 1.5.2 및 NumPy 1.24.1로 확인되었습니다. 구문 dropna()는 다음 매개변수를 사용합니다: dropna(self, axis=0, how=”any”, thresh=None, subset=None, inplace=False) Copy axis: {0 (또는 ‘index’),…
-
판다스를 이용한 파락 데이터 필터링
파크릿 파일의 데이터를 판다스로 필터링할 때 여러 가지 전략을 사용할 수 있습니다. 데이터 분할이 필터링 작업의 효율성을 크게 향상시킬 수 있다는 것이 널리 인정되지만, 파크릿 파일에 저장된 데이터를 쿼리하는 성능을 최적화하기 위한 추가적인 방법들도 있습니다. 분할은 단지 한 가지 옵션일 뿐입니다. 분할된 필드로 필터링 앞서 언급했듯이, 이 접근 방식은 가장 익숙하면서도 일반적으로 성능 최적화에 가장 큰 영향을 미칩니다. 이 뒤에 있는 이유는 간단합니다. 파티션을 사용할 경우, 전체 파일이나 심지어 전체 디렉토리의 파일을 선택적으로 읽지 않아도 되므로(즉, 조건 하강), 성능에 크고…
-
파이썬, 대시 및 RisingWave를 사용하여 실시간 데이터 시각화
실시간 데이터는 기업이 신속한 의사결정을 할 수 있게 해주는데 중요합니다. 이 데이터를 시각적으로 보는 것은 의사결정을 더 빠르게 할 수 있습니다. 다양한 데이터 앱이나 대시보드를 사용하여 데이터의 시각적 표현을 만들 수 있습니다. Dash는 대화형 차트, 그래프, 테이블 및 기타 UI 요소를 만들기 위한 다양한 기본 제공 구성 요소를 제공하는 오픈 소스 Python 라이브러리입니다. RisingWave는 실시간 데이터 처리를 위한 SQL 기반 스트리밍 데이터베이스입니다. 이 기사에서는 Python, Dash, RisingWave를 사용하여 실시간 데이터의 시각화를 만드는 방법을 설명할 것입니다. 실시간 데이터 시각화 방법 실시간…
-
파이썬에서 Pandas와 Matplotlib을 사용하여 EDA 수행하는 방법
탐색적 데이터 분석(EDA)은 데이터 과학 프로젝트에서 필수적인 단계로, 데이터를 이해하고 패턴을 발견하며 잠재적 문제를 식별하는 데 도움이 됩니다. 이 글에서는 두 개의 인기 있는 Python 라이브러리인 Pandas와 Matplotlib를 사용하여 EDA를 수행하는 방법을 살펴보겠습니다. Pandas는 데이터 조작 및 분석을 위한 강력한 라이브러리이며, Matplotlib는 데이터 시각화를 위한 다재다능한 라이브러리입니다. 데이터를 pandas DataFrame에 로드하는 기본, pandas 함수를 사용하여 데이터를 탐색하고, 데이터를 정제하며, 마지막으로 Matplotlib를 사용하여 데이터를 시각화하는 방법에 대해 다룰 것입니다. 이 글을 마치면 Pandas와 Matplotlib를 사용하여 Python에서 EDA를 수행하는 방법에 대한 탄탄한…