# RE

level-2 Relation Extraction 대회 회고
1. 프로젝트 개요 일정 > 05.03.(월) 10:00 ~ 2023. 05. 18. (목) 19:00 주제 > 문장 내 개체 간 관계 추출 — 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 모델 만들기 프로젝트 flow 데이터 KLUE(Korean NLU Benchmark) RE(Relation Extraction) dataset train : 32,470 개 test : 7,765 개 구성 | id | sentence | subjectentity | objectentity | label | source | | --- | --- | --- | --- | --- | --- | | 0 | 0 | 〈S
이스케이프 문자 & 정규 표현식
이스케이프 문자 이스케이프 문자: \(백슬래시, 키보드에서 Enter 키 위 키) 와 바로 뒤에 같이 나오는 특정 문자(r, n, t 등)를 합쳐진 특별한 문자 \n, \r : 줄 바꿈 \n: 라인 피드, 유닉스 (맥) 운영 체제에서의 줄 바꿈 표현 \r\n: 캐리지 리턴(종이 오른쪽으로 밀기) + 라인 피드(종이 위로 밀기), 윈도우즈 운영 체제에서의 줄 바꿈 표현 \t : 탭 (키보드에서 Tab 키) \' : ' (홑따옴표) \" : " (쌍따옴표) \\ : \ (백슬래시) 자체를 표시 r'문자열': 이스케이프 문자의 의미 무시, 그대로 출력, raw string 정규표현식 기초 메타 문자: 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자 . ^ $ * + ? { } [ ] \ | ( ) +, *, [], {} 등의 메타문자는 매치가 진행될 때 현재 매치되

[논문리뷰] An Improved Baseline for Sentence-level Relation Extraction
🖊️Abstract 🖊️ > Sentence-level relation extraction (RE) aims at identifying the relationship between two entities in a sentence. Many efforts have been devoted to this problem, while the best performing methods are still far from perfect. In this paper, we revisit two problems that affect the performance of existing RE models, namely entity representation and noisy or ill-defined labels. Our improved RE baseline, incorporated with entity representations with typed markers, achieves an

[Python] 정규표현식 과 re 의 활용
TL;DR 정규표현식 Regular expression 줄여서 regex로 줄여서 표현하기도 한다. 정규표현식은 특정한 규칙을 가진 문자열의 집합을 표현하는 형식 언어로, 텍스트 검색이나 치환에 유용하게 사용된다. 정규표현식의 문법은 구현체마다 다를 수 있지만, 일반적으로 메타문자와 리터럴 문자로 구성되며, 반복, 선택, 그룹 등의 연산자를 사용할 수 있다. 예를 들어서 Python의 re 모듈을 사용하여 이메일을 겁색하는 예제를 만들어보면 아래와 같다. flags인자로 re.IGNORECASE를 넣어 대소문자 구분을 제외한다. 또는 로 직접 표현해주는 것도 방법이다. 이렇게 특정한 문자열에 대한 처리를 할 때 유용하게 사용할 수 있는 것이 정규표현식이다. 정규표현식의 장단점 > 장점 입력 문자열의 처리 프로그램에서 다양한 형태의 문자열 입력에 대해 간결하게 처리할 수 있다. 정규 표현식은 다양한 언어와 프로그램에서 지원하는 범용성이 뛰어난 문법이

Paper Review #6 - DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population
Zhang, Ningyu, et al., "DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population", arXiv preprint arXiv:2201.03335, 2022 수 많은 데이터 속에서 필요한 정보만을 추출하는 IE(Information Extraction) 기술이 발전을 거듭하고 있다. IE 기술의 발전에 따라 대규모의 Knowledge Base 역시 구축 되고 있는데, 지식 베이스는 현실 세게에서 지식 집약적인 업무에 많은 도움을 준다. 따라서 KBP(Knowledge Base Population) 또한 각광을 받고 있는 분야 중 하나인데, KBP라 함은 텍스트로부터 지식을 추출해 KB의 손실된 부분을 완성하는 작업이다. 원문에서 entity와 관계를 추출하고, 이것들을 KB에 연결시켜주는 IE 작업은 여기서도 용이하게 쓰이고 있다. Named Entity Rec
Paper Review #5 - MERIOT RESERVE: Neural Script Knowledge through Vision and Language and Sound
Zellers, Rowan, et al. "Merlot reserve: Neural script knowledge through vision and language and sound." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. MERLOT RESERVE : 멀티모달 환경으로부터의 새로운 학습 목표를 통해 비디오를 표현하는 모델(Multimodal Event Representation Learning Over Time, with RE-entrant SupERVision of Events) Overview 비디오가 주어지면 텍스트 조각과 음성을 Mask token으로 재배치하고, 모델은 정확한 Masked out snippet을 고름으로써 학습 각 modality가 서로를 교육하는 joint representation 학습 modali
단지코드 단위 에너지소비량 local Dataset 구축
get_kaptCode() 전국 단지코드 목록 한번에 받기 get_energy() Request parameter: kaptCode, reqDate energy_parsing()의 input parameter를 통해 해당 함수를 호출하여 helect, hgas, hheat, hwaterCool, hwaterHot의 값들을 parsing하여 가져옴 response.status_code가 200인 경우에만 (서버로부터 정상적으로 응답을 받은 경우에만) 값을 반환하도록 구현 왜인진 모르겠지만, 사용량이 음수인 경우도 있어서 pattern을 ""+"(-?[0-9]+)"와 같이 정의함 (? 앞의 문자가 있을 수도 있고 없을 수도 있다) Algorithm kaptCode_list는 그냥 local에 저장된 txt 파일을 읽어서 모든 kaptCode들을 li
kaptCode 추출
requests module을 이용하여 API 요청 및 응답을 받을 수 있도록 함수 구현 beautifulSoup module을 이용하여 html parsing (xml 형식이긴 한데 tag 형식이면 parsing은 가능) xml parsing은 xml.etree.ElementTree module 이용 re module의 findall()을 이용하여 pattern에 맞는 string을 추출함 -> 와일드카드는 '.' -> 찾고자하는 string이 여러개일 경우 list로 반환 -> ( ) 안에 있는 부분을 반환

import re [regex] - 정규표현식
자주 사용하는 문자 클래스 문자 클래스 설명 \d : 숫자 [0-9]와 같다. \D : 비숫자 ``와 같다. \w : 숫자 + 문자 [a-zA-Z0-9]와 같다. 💖💖💖 \W : 숫자 + 문자가 아닌 것 ``와 같다. \s : 공백 [ \t\n\r\f\v]와 같다. \S : 비공백 ``와 같다. \b : 단어 경계 (\w와 \W의 경계) \B : 비단어 경계 . 모든 문자 . : 줄바꿈 문자인 \n 을 제외한 모든 문자와 매치된다. [] 사이에 .을 사용할 경우 [.] 문자 원래의 의미인 마침표( . )가 된다. 문자열에서 특수문자만 제거하는 방법 re.sub(pattern, replacement, string)은 string에서 정규표현식의 pattern과 일치하는 내용을 replacement로 변경합니다. 만약 빈 문자열("")로 변경하면 패턴에 해당하는 문자만 제거하게

정규표현식 re
계기 프로그래머스 우수 코드를 보던중 다트게임에서 정규표현식으로 표현한 코드가 있어서 리뷰중 궁금증 발생 정규표현식이란? 텍스트 데이터중 내가 설정한 조건에 해당하는 문자열 패턴을 찾아내기 위해 사용 -> 정규식을 이용하면 많은 양의 텍스트 파일중에서 원하는 데이터를 손쉽게 뽑아낼수 있고, 데이터가 형식에 맞는지 체크 가능 사용법 re module import 정규식 표현 규칙에 따라서 compile을 하고 findall로 찾기 findall -> https://velog.io/@beanlove97/%ED%8C%8C%EC%9D%B4%EC%8D%AC-findall-%EB%A9%94%EC%84%9C%EB%93%9C 정리 example들을 보면서 정규식 표현 규칙들을 적용하는게 맞겠다. 굉장히 다양한 규칙을 설정하는 문법들이

Boost(9)
VSCode 단축키 같은 코드, 같은 단어, 반복되는 코드 한번에 선택하는 단축키 ⌘ + D 같은 변수명/함수명 모두 선택해서 한번에 바꾸는 단축키 F2 주석처리, 주석처리 해제하는 단축키 ⌘ + / 코드 한 줄을 위/아래로 이동하는 단축키 ⌥ + ↑ 또는 ↓ 코드 한 줄을 위/아래로 복사하는 단축키 ⌥ + ⇧ + ↑ 또는 ↓ Relation Extraction 관계 추출(Relation Extraction)은 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 문

파이썬과 자바스크립트의 정규표현식 사용법
이 포스트에서 다룰 것 지난 포스트에서는 정규표현식의 기본 문법에 대해 학습했다. 아는 만큼 보인다더니, 정규식을 공부하고 나니 실무와 알고리즘 문제에서도 정말 유용하게 쓰이는 걸 느꼈다. 내가 정리한 블로그 글을 내가 제일 많이 들어가서 다시 본 것 같다(기술블로그의 장점을 잘 활용하는 것 같아 뿌듯하다). 이제 열심히 공부한 정규식 문법을 실전에서 써먹는 방법을 알아보려고 한다. 자바스크립트와 파이썬에서의 정규표현식 사용 방법을 예제코드와 함께 정리한다. TMI 프로그래머스의 파일명 정렬이라는 문제를 풀다가 이 포스트를 작성하게 되었다. 2단계이지만 정규표현식을 이용하면 간단하게 풀린다. 이 문제도 풀이방법을 포스팅할 것이다. 파이썬 라이브러리 파이썬에서 정규표현식을 사용하려
LEET Code 문제 풀이 (문자열 )
125 번 유효한 팰랜드롬 나의 풀이 교재 코드 re 부분 확인할 것 슬라이싱 참고할 것! [::-1] 뒤집는 코드 344 번 문자열 뒤집기 나의 코드 교재 코드 937번 로그파일 재정렬 나의 코드(교재와 동일 <- 람다 표현식만 체크) 819 가장 흔한 단어 나의 코드 교재 코드 collections.Counte
re 정규표현식, 정규식(regular expression, regex, pattern ) : 미완성
요약 정규표현식 ( regular expression, pattern ) 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하며 주로 복잡한 문자열을 처리할 때 사용한다. 정규표현식의 각 문자는 메타문자, 정규문자로 이해됨 정규 문자 : ex. 가, a 등 문자 그대로 매칭되는 문자 메타 문자 : 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자 ( 아래에서 자세히 다룬다. ) a. 은 'a', 'ax', 'a0'과 일치할 수 있다. .은 포괄적, [a-z]는 덜 포괄적, a는 정확한 패턴(a만 일치) seriali[sz]e == ["serialise", "serialize"] 와일드카드? : 파일 목록에서 비슷한 이름을 글로브 처리 r의 역할은? : raw string으로 변환해준다.(\을 정규문자화) method re.match(pattern, string, flags(option
regular expression(re):정규표현식
python 모듈 중 하나인 re모듈에 대해서 1. re모듈이란? > Lib/re.py 공식문서에서 첫문장에 "Support for regular expressions (RE)." 포현으로 시작한다. 직역하면 "정규식 지원"이다. > 출처 : https://github.com/python/cpython/blob/3.10/Lib/re.py re 모듈은 파이썬 기본 모듈로 정규식을 기본적으로 지원하며, 정규식 일치 여부를 판단하는 연산도 함께 제공합니다. 2. 정규표현식이란 ? > MDN WEB docs에서는 정규표현식을 “정규 표현식, 또는 정규식은 문자열에서 특정 문자 조합을 찾기 위한 패턴입니다.” 라고 표혀낳고 있습니다 > 출처 : [https://developer.mozilla.org/ko/docs/Web/JavaScript/Guide/
.png)
정규표현식 RegEx 관련 사이트
정규표현식 학습 사이트 regexone.com - 단계별로 문제를 풀며 쉽게 학습할 수 있는 사이트 정규표현식 테스트 사이트 pythex.org regexr.com
22.02.05 Java 기본형 / 파이썬 txt 가공
Java - 기본형(primitive type) 논리형 - boolean 문자형 - char Python - txt파일 가공하기 성경책 구절정보 제거하기 장별로 나누기 논리형(boolean)_Java 자바에서 논리형은 한가지뿐이다. true false 기본 default값은 false이다. 단 2가지 값만 표현하면 되기때문에 1비트만으로도 충분하나, Java에서는 데이터를 다루는 단위가 1바이트라서 boolean의 크기는 1바이트다. 대소문자를 구별하기때문에 TRUE와 true는 다른 것으로 간주한다. 문자형(char)_Java 문자형 역시 char 한가지뿐이다. 단 하나의 문자만을 저장한다. 사실은 문자가 아닌 문자의 유니코드(정수)가 저장된다. 성경책 구절정보 제거하기_Python 원래 인터넷에서 크롤링해서 txt파일을 만드려했으나, 크롤링하기에 적당한 웹페이지를 찾지 못 했을
[python] 정규 표현식(re)
정규식 연습장(http://www.regexr.com/)에서 연습 가능 문자 클래스 []: []의 문자들과 매치 ex) [abc]: 해당 글자가 a,b,c중 하나가 있다. "-"를 이용하여 범위를 지정할 수 있음 ex) [a-zA-Z]: 알파벳 전체 / [0-9]: 숫자 전체 메타 문자 . ^ $ * + ? { } [ ] \ | ( ) ".": 줄바꿈 문자("\n")를 제외한 모든 문자와 매치 "^": not "*": 앞에 있는 글자를 반복해서 나올 수 있음 "+": 앞에 있는 글자를 최소 1회 이상 반복 "?": 반복 횟수가 1회 "{m, n}": 반복 횟수 지정(m부터 n까지) "\": 원래 문자 지정 및 타입 지정(ex. \d: digit) "|": or 전화 번호 010-0000-0000 -> ^\d{2,3}\-\d{4}\-d{4}$