Python으로 유튜브 영어 자막 텍스트 정리하기

파이썬으로 유튜브 영어 자막 텍스트 정리하기: 완벽 설명서

유튜브에서 제공하는 영어 자막은 영상의 내용을 이해하는 데 큰 도움이 되죠. 특히, 외국어를 배우거나 외국의 문화를 익히고 싶을 때 자막은 필수적인 도구입니다. 하지만 이 자막이 많이 쌓이면, 필요 없는 정보가 많아지는데, 이럴 때 파이썬을 활용해 자막을 정리하면 매우 유용하답니다.

Whisper AI를 활용해 자막 변환과 번역의 비법을 알아보세요.

자막 파일 이해하기

유튜브의 영어 자막 파일은 일반적으로 SRT(SubRip Subtitle) 또는 VTT(Web Video Text Tracks) 형식으로 제공됩니다. 이 파일들은 각각의 자막과 해당 자막이 나타나는 시간을 포함하고 있어요. 자막 파일의 구조는 간단합니다.

SRT 파일 구조

SRT 파일은 다음과 같은 형식으로 되어 있습니다:

2
00:00:02,000 –> 00:00:03,000
오늘은 파이썬을 배워볼 거예요.

이렇게 각 자막 블록은 번호, 시간, 텍스트로 구성되어 있습니다. 이를 통해 자막을 추출하고 수정할 수 있습니다.

VTT 파일 구조

VTT 파일은 다음과 같은 형식이에요:

00:00:01.000 –> 00:00:02.000
안녕하세요.

00:00:02.000 –> 00:00:03.000
오늘은 파이썬을 배워볼 거예요.

VTT 파일은 SRT 파일과 유사하지만, 기본적으로 더 많은 메타데이터를 지원합니다. 자막을 정리할 때 어떤 형식을 사용할지 결정하는 것이 우선입니다.

디스코드 PC버전의 설치 방법과 설정 비법을 알아보세요!

파이썬과 관련 라이브러리 설치하기

파이썬을 활용해 자막 파일을 정리하기 위해서는 먼저 필요한 라이브러리를 설치해야 합니다. 여기서는 pysrtpandas 라이브러리를 사용할 것입니다. pysrt는 SRT 파일을 다루기 쉽도록 도와주고, pandas는 데이터 분석에 최적화된 자료구조를 알려알려드리겠습니다.

bash
pip install pysrt pandas

APT랜드의 실시간 데이터 분석 결과를 지금 바로 확인해 보세요.

자막 파일 읽어오기

이제 자막 파일을 읽어오는 코드를 작성해보죠. 다음은 SRT 파일을 읽어오는 간단한 예시입니다.

SRT 파일 읽기

subs = pysrt.open(‘example.srt’)

자막 내용 출력하기

for sub in subs:
print(sub.start, sub.end, sub.text)

이 코드는 example.srt 파일을 열고 자막의 시작 시간, 끝 시간, 그리고 내용을 콘솔에 출력합니다.

자막 텍스트 정리하기

자막 파일에서 특정 단어나 문장을 자동으로 삭제하거나 검색하고 싶을 때, 파이썬을 통해 쉽게 처리할 수 있습니다. 예를 들어, “안녕하세요”라는 단어를 자막에서 삭제하는 방법은 다음과 같습니다.

“안녕하세요”라는 단어 삭제하기

for sub in subs:
sub.text = sub.text.replace(‘안녕하세요’, ”)

변경된 자막 내용 저장하기

subs.save(‘cleaned_example.srt’)

위의 코드에서는 자막 내용 중에서 특정 단어를 쉽게 제거할 수 있습니다.

자막의 키포인트 정리하기

자막을 정리할 때 필요한 정보만 남기고, 불필요한 내용을 제거하는 것이 중요합니다. 이를 위해 기본적인 텍스트 분석 기법을 사용할 수 있어요.

필요한 정보 추출하기

  1. 자주 등장하는 단어 추출
  2. 특정 텍스트 패턴 검색
  3. 자막의 길이 통계 수집

이와 같은 분석을 통해 자막에서 핵심 포인트를 추출할 수 있습니다.

텍스트에서 단어 카운트

alltext = ‘ ‘.join([sub.text for sub in subs])
words = re.findall(r’\w+’, all
text.lower())
word_counts = Counter(words)

가장 많이 등장하는 10개 단어 출력

print(wordcounts.mostcommon(10))

이 코드는 자막 속의 모든 단어를 소문자로 변환한 후, 각 단어의 출현 횟수를 세어 가장 많이 등장하는 단어를 출력합니다.

자막 정리 후 분석하기

자막을 정리하고 나면, 분석 기능을 활용하여 통계를 수집할 수 있습니다. 이렇게 수집한 통계는 나중에 학습 자료로 매우 유용하게 쓰일 수 있죠.

자막 통계 테이블

아래는 자막 분석 결과를 테이블로 정리한 예시입니다.

단어 빈도수
파이썬 15
배우다 10

결과 저장 및 활용하기

정리한 자막을 어떻게 활용할 수 있을까요?
자막을 텍스트 파일로 저장하거나, 데이터베이스에 저장하여 필요한 내용을 쉽게 검색할 수 있습니다.

자막 파일 저장하기

앞서 정리한 자막을 새로운 SRT 파일로 저장하는 방법은 다음과 같습니다.

python
subs.save('final_output.srt')

이 코드는 정리된 자막을 final_output.srt라는 이름으로 저장하게 됩니다.

결론

유튜브 영어 자막을 파이썬으로 정리하는 과정은 자막을 보는 데 많은 도움이 됩니다. 필요한 정보만 남기고, 분석을 통해 학습할 수 있는 자료로 만들어보세요. 다음 번 영상을 시청할 때 자막이 여러분의 학습에 많은 도움이 되길 바랍니다.

파이썬을 활용해 유튜브 자막을 정리하는 것은 정말 유용한 스킬이랍니다! 텍스트 정리, 분석, 그리고 최종 자료 저장까지 모두 할 수 있습니다. 지금 바로 시작해보세요!

자주 묻는 질문 Q&A

Q1: 유튜브 영어 자막 파일은 어떤 형식으로 제공되나요?

A1: 유튜브 영어 자막 파일은 일반적으로 SRT(SubRip Subtitle) 또는 VTT(Web Video Text Tracks) 형식으로 제공됩니다.

Q2: 파이썬을 사용하여 자막 파일을 정리하기 위해 어떤 라이브러리를 설치해야 하나요?

A2: 자막 파일을 정리하기 위해서는 `pysrt`와 `pandas` 라이브러리를 설치해야 합니다.

Q3: 자막 텍스트에서 특정 단어를 삭제하는 방법은 무엇인가요?

A3: 특정 단어를 삭제하려면 `sub.text = sub.text.replace(‘단어’, ”)`와 같은 코드를 사용하여 자막의 내용을 수정하면 됩니다.

Leave a Comment