반응형

전체 글 14

RAPTOR (RAG)

RAPTOR(Recursive Abstractive Processing for Tree-oranized Retrieval)구조화된 트리 검색을 위한 재귀척 추상화 처리 기존 RAG 단점 - 전반적인 주제, 흐름, 요약에 어려움이 있음 - 검색된 chunk에서만 답변을 생성 (누락되는 정보가 큼) RAPTOR는 재귀적 임베딩, 클러스터링을, 요약을 통해 기존 RAG가 가지고 있는 문제점을 극복 할 수 있음노드 트리에서의 검색을 통해 긴 문서의 정보 파악에 유리하다. 방식 - 특정 토큰 크기(주로 100)로 문서를 split - 문장이 끊어지지 않도록 하며 긴 문장은 다음 chunk로 지정한다. - chunk내 텍스트의 맥락적, 의미적 일관성을 유지한다. - 비슷한 chunk끼리 clustering으로 그룹..

카테고리 없음 2024.05.27

RAG 성능 개선

기존 RAG 방식사용자 질의문 -> 벡터 검색 -> 문서 chunk , 사용자 질의, 프롬프트 -> LLM => 응답 결과 Multi-query Retriever-> 모호한 답변을 의미있는 여러개의 답변으로 생성하여 벡터 검색의 결과를 다양하게 하여 관련성이 높고 정확한 정보를 제공 Parent-document Retriever-> 매칭된 chunk만을 사용하는 것이 아닌 해당 chunk의 parent-document를 사용하여 연관되어 있는 정보에 대해 누락되는 정보를 줄일 수 있는 방법 Self-query Retriever-> 문서의 메타데이터를 기반으로 필러링을 생성사용자 query를 변형하여 적합한 답변을 도출해내는 방식 time-weighted Retriever-> 가장 최근에 이용된 문서를 기..

카테고리 없음 2024.05.27

OCR

OCR (Optical Character Recognition)  광학 문자 인식 이미지 형태의 데이터에서 글자를 인식하는 기술 이미지에서 글자 및 메타데이터들을 텍스트형태의 데이터로 변경해주는 기술 과정- 이미지 전처리 : 문서 상태에 따라 배경제거, 노이즈 제거, 명암, 색체, 워터마크등을 제거하는 과정- 문자 감지 : 전처리된 이미지에서 문자가 존재하는 부분만을 감지하는 과정- 문자 인지 : 감지된 영역안의 문자를 텍스트 데이터로 변경하는 과정, 필기 방식에 따라 인쇄체, 필기체로 구분하는 방식으로 나뉨- 후처리 : 잘못 인지된 텍스트를 수정하는 작업, 단어의 앞뒤 문맥에 따라 어색한 부분을 자연스럽게 변경하는 자연어 후처리 작업 다양한 포맷의 문서(pdf, word, ppt, excel등)에 대해..

카테고리 없음 2024.05.24

Docker 정리(이미지, 컨테이너, 실행 등..)

1. 이미지 생성 docker build [OPTIONS] [IMAGENAME:IMAGETAG] PATH_TO_DOCKERFILE ex) docker build -t myimage:1.00 . OPTIONS 종류 -t, --tag : 빌드된 이미지에 태그를 지정 -f, --file : 사용할 DockFile의 경로를 지정 (default : ./DockFile) --force-rm : 이미지 빌드에 실패하더라도 컨테이너를 강제 삭제 --no--cache : 이전 빌드 캐시를 사용하지 않고 빌드를 수행 --pull : 빌드 전에 이미지를 업데이트 --quiet, -q : 빌드 로그에서 출력을 생략 2. 이미지 list 확인 docker images -a 3. 도커 컨테이너 조회 docker ps (실행중인..

카테고리 없음 2023.07.30

Ajax 404 error

Ajax와 controller 통신 시 controller의 기능을 제대로 작동하지만 브라우저에서 404 error가 발생할 떄가 있다. 이 문제는 서버에서 응답을 하지 않아 브라우저에서 받을 응답이 없어 나타나는 문제이다. 단순 일방적인 통신이 필요한 상황이라 응답이 없는 void로 설정해 두어 응답값이 존재하지 않아 에러가 발생하였다. @ResponseBody 어노테이션을 통해 리턴값이 ModelAndView 가 아닌 responsebody에 귀속된다고 알리면 문제가 해결 될 것이다.

카테고리 없음 2023.07.23

[Window] 명령어 정리

현재 디렉토리 확인: cd 디렉토리 이동: cd [디렉토리 경로] 디렉토리 생성: mkdir [디렉토리명] 디렉토리 삭제: rmdir [디렉토리명] 파일 및 폴더 검색: dir [경로] 파일 내용 검색: find [파일] "[검색어]" 파일 복사: copy [원본파일 경로] [대상파일 경로] 파일 이동: move [원본파일 경로] [대상파일 경로] 파일 삭제: del [파일명] 시스템 정보 확인: systeminfo 프로세스 목록 확인: tasklist 프로세스 강제 종료: taskkill /pid [PID] 디스크 정보 확인: diskpart 디스크 파티션 생성: diskpart → select disk [디스크 번호] → create partition primary [크기] 도움말 확인: help 명..

카테고리 없음 2023.07.23

[Linux] 명령어 정리

ls: 현재 경로의 파일과 폴더 확인 cd: 디렉토리 이동 pwd: 현재 작업 디렉토리 출력 rm: 파일 삭제 rmdir: 폴더 삭제 mkdir: 폴더 생성 touch: 빈 파일 생성 nano: 텍스트 파일 편집기 실행 cat: 파일 보기 echo: 출력 chown: 파일이나 폴더의 소유자 변경 chmod: 파일이나 폴더의 권한 변경 ps: 실행중인 프로세스 목록 출력 kill: 프로세스 종료 yum: 패키지 매니저(most modern of those) 명령어 apt-get: 패키지 매니저 dpkg: 소프트웨어 관리 명령어 rpm 소프트웨어 관리 명령어 netstat -nap | grep LISTEN 현재 열려있는 포트와 해당 포트를 사용하고 있는 pid 정보 ps -ef | grep java java..

카테고리 없음 2023.07.23

JAVA mongoDB index 설정

몽고디비에서 index란 컬렉션에서 쿼리 속도의 향상을 위해 사용된다. 인덱스는 컬렉션의 도큐먼트를 검색할 때, 더 빠른 속도로 도큐먼트를 가져올 수 있다. 인덱스는 하나 이상의 필드로 구성되며 필드의 값을 이용하여 인덱싱 된다. 단일필드 인덱스: 오직 하나의 필드로 구성된 인덱스 복합필드 인덱스: 두 개 이상의 필드로 구성된 인덱스 텍스트 인덱스: 문자열 대상으로 검색 기능을 제공하는 인덱스 지리 인덱스: 지리 정보를 대상으로 검색 기능을 제공하는 인덱스 해시 인덱스: 해시 함수를 이용하여 값을 저장하는 인덱스 몽고디비 index를 설정하기 위해 Java DTO 클래스에서는 @TextIndexed, @Indexed, @CompoundIndex와 같은 애너테이션을 사용합니다. @TextIndexed: 몽..

카테고리 없음 2023.07.23

Spring 프레임워크 MySQL 데이터베이스 연동하기

Spring 프레임워크에서 MySQL 데이터베이스를 사용하기 위해서는 JDBC 드라이버를 추가해야 합니다. 1. MySQL 연결 MySQL 데이터베이스에 접속하기 위해서는 먼저 DB 관련 정보를 application.properties 파일에 설정해야 합니다. 아래와 같이 작성합니다. jdbc.driver=com.mysql.jdbc.Driver jdbc.url=jdbc:mysql://{MYSQL_SERVER_ADDRESS}:3306/{DB_NAME}?serverTimezone=UTC&useSSL=false&allowPublicKeyRetrieval=true jdbc.username={DB_USER_NAME} jdbc.password={DB_USER_PASSWORD} 2. 전용 객체 생성 및 연결 객체 생..

카테고리 없음 2023.07.23
반응형